Acteur : Benjamin NGUYEN, professeur à l’INRIA (informaticien).

Lieu et date : 19/01/2015 en visio-conférence aux Mines de Paris.

Pourquoi avons-nous choisi cet acteur ?
Nous avons rencontré Benjamin NGUYEN lors d’une table ronde intitulée : « Le droit à l’oubli numérique : un concept au défi de sa réalisation ». Celui-ci devait lors de cette conférence expliquer plus en détail les problèmes de faisabilité du droit à l’oubli, mais le public étant peu voire pas du tout spécialisé dans le domaine de l’informatique, il n’est pas entré dans les détails de la réalisation technique et a gardé un discours très général. Nous voulions pouvoir à travers cet entretien connaître des solutions techniques de manière plus précise.

Les points abordés
L’entretien nous a été au beaucoup plus profitable que la conférence, puisqu’il nous a exposé son travail plus en détail. Son objectif est de concevoir une décentralisation des données pour pouvoir appliquer plus facilement le droit à l’oubli. De plus il nous a expliqué la manière dont est effectué le référencement et donné d’autres solutions techniques pour les développeurs existant déjà à l’heure actuelle, mais également des techniques mises en œuvre par d’autres sites pour conserver et exposer les données du web et ainsi financer la mémoire.

 

Contenu de l’entretien
Quelles actions menez-vous dans le cadre du débat autour du droit à l’oubli ?

L’INRIA (Institut National de Recherche en Informatique et en Automatique) est impliqué dans le projet CAPPRIS qui regroupe des équipes de recherche en informatique, des sociologues et des juristes, et qui pose notamment la question de la protection de la vie privée des utilisateurs.

L’INRIA accueille aussi chaque année en juin l’Atelier Protection de la Vie Privée (APVP) lors duquel les chercheurs peuvent exposer leurs résultats de recherches sur le sujet.

De plus, nous mettons en place un dispositif sécurisé individualisé qui permet de s’abstraire d’une structure tierce pour le stockage (telle que Google par exemple), et de s’affranchir des problèmes de confiance vis-à-vis de cette structure tierce (Google va-t-il respecter la confidentialité de mes informations personnelles ?). Ce dispositif aurait la forme d’une clé individualisée ou d’une carte à puce (du type carte bancaire) sur laquelle seraient stockées les données personnelles, et permettrait d’envoyer ces données de manière sécurisée vers un autre dispositif de ce genre. Ce dispositif représente un moyen technique de décentraliser les données, il permet de s’assurer que les données ne sont accessibles qu’aux personnes voulues et il a l’avantage d’être difficilement piratable.

 

Est-ce une solution adaptée au grand public ? Va-t-elle pouvoir se répandre ?
Ce système a déjà été testé sur le terrain l’année dernière dans les Yvelines avec la participation d’une centaine de personnes : la carte à puce contenait le dossier socio-médical, et permettait de réguler le droit d’accès aux données. Le dispositif a été approuvé par un grand nombre d’intervenants (notamment les kinésithérapeutes et le personnel paramédical) qui ont montré de l’intérêt pour l’aspect pratique du dispositif, par exemple en cas d’urgence médicale.

On peut penser à plusieurs formes de dispositifs pour généraliser au grand public : un motard pourra utiliser le dispositif de données médicales sous forme de porte-clés, ou bien de carte SIM pour pallier au manque de sécurité.

La question de l’acceptation par la majorité des personnes ne devrait pas poser de problème, les gens devraient accepter facilement d’avoir leurs informations personnelles sur eux. De plus il existe déjà à l’heure actuelle des systèmes de partage et stockage de données décentralisés comme les clouds. La difficulté viendra plutôt du prix de la mémoire qui peut paraître relativement élevé : quelques dizaines d’euros pour l’instant.

La propagation du dispositif sera cependant soumise à divers facteurs. Il faudra d’abord que des entreprises veuillent bien investir dedans, mais aussi que les lois sur la sécurité n’empêchent pas sa distribution : après les récents attentats (NDLR : attaque de « Charlie Hebdo » le 07/01/15, deux semaines avant l’entretien), le gouvernement pourrait demander plus de transparence, et voir d’un mauvais œil une telle protection des données personnelles.

 

Il n’y a pas que le gouvernement qui souhaite contrôler les données, les sociologues par exemple se plaignent de ne plus pouvoir accéder à celles-ci.

En effet, les sociologues prônent un archivage de toutes les données, on parle même d’hypermnésie du web : tous les événements, mêmes les plus anodins sont conservés.

Cependant, le déréférencement des données comme le propose Google n’empêche pas le travail des historiens, seulement, ils ne peuvent pas utiliser la recherche par mots-clés, ils doivent employer d’autres services qui vont leur permettre d’accéder aux données. Ils peuvent par exemple se servir des sites d’archivage du web. Ceux-ci sont entretenus par des mécènes, des fondations à but non lucratif qui financent l’archivage, comme la BNF (Bibliothèque Nationale de France) qui a lancé un projet d’archivage du web français.

 

Facebook est connu pour garder absolument tout en mémoire, même lorsque l’utilisateur demande à disparaître du réseau social.
Là aussi, comme pour Google, il n’est jamais vraiment possible de savoir ce que Facebook fait de vos données, vous êtes obligés de lui faire confiance pour utiliser son réseau. Cependant, Facebook ne garde pas forcément les données pour une utilisation malveillante comme peut le croire le grand public. Il y a tout d’abord un raison technique à cela : en effet, cela coûte cher d’effacer de manière sélective une petite quantité de données dans un gros serveur, cependant cet argument n’est pas forcément exposé au grand public puisque celui-ci pourrait rétorquer qu’il est du ressort de Facebook d’arriver à le faire quand même. Il serait très difficile d’effacer complètement le profil d’un utilisateur au vu de tous les liens qui le relient au reste du réseau : par exemple les authentifications sur les photos. Ce genre d’informations résiduelles restantes peut provoquer des bugs pour les autres utilisateurs sans la mise en place d’algorithmes spécifiques. Enfin il peut y avoir une raison de marketing : si un utilisateur décide de tout effacer sur un coup de tête, puis que finalement il revient sur le réseau il sera heureux de ne pas redémarrer de zéro !

 

Quelle devrait être la place de Google dans le débat ?
Pour le moment Google est au centre du débat puisqu’on peut dire qu’en règle générale l’accès à l’information passe par lui. On ne peut cependant lui demander d’effacer toute trace de la donnée. Prenons un exemple concret : vous-mêmes vous avez fait des projets en groupe au sein de l’école des Mines dont vous avez fait différentes sauvegardes sur votre ordinateur, que vous avez partagé avec divers systèmes comme Dropbox ou Drive, que vous avez mis sous clé USB… Pensez-vous réussir à effacer toute trace de ce projet ? Non seulement il sera difficile pour vous d’effacer vos propres traces, ce qui est compliqué, mais il faudra en plus que tous vos collègues fassent de même.

Dans le cas des bases de données, les entreprises elles-mêmes effectuent régulièrement des back-ups, qui sont des enregistrements de données hors réseau et qui sont des traces supplémentaires à détruire. On peut toujours demander à l’éditeur ayant délivré la première trace de l’information de l’effacer complètement, mais là encore il existe des entreprises faisant du référencement et de l’archivage, de plus Google conserve des informations dans son cache. En admettant que ce dernier fasse disparaître toutes ces traces, il existe encore d’autres index supports d’informations, comme Facebook par exemple.

 

Vous nous dites que les bases de données effectuent régulièrement des « back-ups ». Que sont-ils et à quoi servent-ils ?
Les back-ups sont un des principes fondamentaux des bases de données : il s’agit d’effectuer régulièrement des sauvegardes des données contenues par la base sur un support matériel comme des bandes magnétiques. En cas d’incident, par exemple l’incendie d’un entrepôt contenant les serveurs, les données sont ainsi sauvegardées en sécurité dans différents endroits. Sans aller jusqu’à l’incendie, les crashs de disques durs sont le quotidien des entreprises gérant les bases de donnée : elles ont donc un réel besoin de sauvegardes. De plus il ne s’agit pas seulement de gérer un éventuel problème technique. Les bases de données passent régulièrement des audits et elles doivent pouvoir fournir des preuves sur le travail qu’elles effectuent pour des questions légales. Ainsi elles doivent conserver 5 à 10 ans d’archives sur ce qu’elles ont stockées, ensuite elles peuvent tout à fait ne pas conserver les back-ups, tout comme une entreprise finit pas jeter ses papiers administratifs au bout d’un certain temps.

 

Nous ne pensions pas que les données étaient aussi fortement catégorisées sur Internet… N’y a-t-il aucun moyen d’y échapper ?
Le référencement est effectué automatiquement par des robots, les crolleurs, qui parcourent le web pour référencer toutes les pages existantes pour leurs moteurs de recherche ou pour archiver. Un moyen simple pour un développeur d’éviter que son site web soit référencé ou archivé sans qu’il le souhaite est d’utiliser « robot.txt ». Il s’agit d’un logiciel très simple, non contraignant qui permet de signaler aux crolleurs qu’on ne souhaite pas être référencé. Cependant, ne s’agissant pas d’une protection mais d’un simple message aux robots, ceux-ci peuvent très bien ne pas respecter la demande faite. Comme je vous l’expliquais plus tôt, au vu de tous les liens et supports qui existent sur le web, il extrêmement difficile de faire disparaître complètement une donnée puisqu’il faut contacter chaque éditeur pour négocier l’effacement et que cela prend un temps considérable. Certaines entreprises, dites d’e-réputation, se sont donc spécialisées dans ce domaine. Elles proposent à toute entité de changer son image internet en commençant par recueillir toutes les informations qu’elles trouvent sur elle, puis elles contactent chaque hébergeur et font ainsi disparaître les données légalement.

Lorsqu’on fait une demande à Google, celui-ci efface les données mais pas les back-ups en sa possession, en effet ils se réservent le droit de les conserver légalement pendant deux ans. De plus l’usager qui demande à effacer ses données peut éventuellement utiliser d’autres services qui requièrent ces données. Google pourrait alors les conserver pour satisfaire ce besoin, il faut leur demander quel est leur politique à ce sujet. Cependant même si comme vous j’utilise des services ayant implicitement besoin de données recueillies automatiquement, je n’ai jamais signé nulle part pour que ce soit fait. Il faudrait donc dans l’idéal peut-être plus de transparence de la part de Google.

 

Commentaires annexes
La grille de questions réalisée étant plus centrée sur les sciences humaines, celle-ci ne nous a pas beaucoup servie, puisque l’acteur nous a immédiatement dit que ses réponses vaudraient celle de n’importe quel autre non-spécialiste. Ce n’a cependant pas constitué un handicap et le dialogue s’est poursuivi sans difficulté sur la faisabilité technique du droit à l’oubli et au déréférencement.

Au vu de la problématique abordée, le chercheur nous a conseillé de bien signaler aux acteurs interviewés que le support de notre controverse sera un site web.