Anonymisation ou pseudonymisation des données de santé

Le terme d’anonymisation est réservé aux opérations irréversibles. On utilise le terme de pseudonymisation lorsque l’opération est réversible. Une anonymisation irréversible consiste à supprimer tout caractère identifiant à un ensemble de données. Concrètement, cela signifie que toutes les informations directement ou indirectement identifiantes sont supprimées ou modifiées, rendant impossible toute ré-identification des personnes.

La pseudonymisation est une technique qui consiste àremplacer un identifiant (ou plus généralement des données à caractère personnel) par un pseudonyme. Cette technique permet la ré-identification ou l’étude de corrélations en cas de besoin particulier.

Les jeux de données ré-identifiantes sont des ensembles de données dé-identifiées (ne comportant donc pas de nom, d’adresse, ni de NIR) mais permettant d’identifier la personne dès lors que l’on dispose par ailleurs d’informations sur cette personne qui figurent dans le jeu de données et qui, prises ensemble, lui sont propres (par exemple un parcours de soins, des dates d’hospitalisation, un code postal, un âge…). Si une seule personne, dans une base exhaustive, présente un ensemble de telles caractéristiques, elle peut être identifiée à coup sûr, mais seulement par un tiers disposant de l’information sur la personne et ayant accès aux données.

Ainsi lors d’une pseudonymisation, il faut être vigilant dans la mesure où une ré-identification peut intervenir à partir d’informations partielles (par exemple, la combinaison des données ville et date de naissance peut être suffisante).

Cependant, il est le plus souvent nécessaire de relier des données différentes relatives à la même personne, pour suivre et analyser les parcours de soins et mettre en évidence des liens de causalité. Ce « chaînage » implique que la même identité soit traduite par le même pseudonyme, donc le risque de ré-identification est toujours présent.
Nous pouvons citer le cas du PMSI, organisme décrit précédamment. En 1991, le ministère de la santé avait négocié avec la CNIL la définition du critère d’anonymat pour la PMSI. Ainsi il n’y figurait pas le nom ni le NIR, ni les dates précises d’hospitalisation (seulement le mois de sortie et la durée du séjour), avec le mois et l’année de naissance mais sans le jour, et avec un code géographique de résidence correspondant à au moins mille habitants. Néanmoins ces mesures ne s’avérèrent pas suffisantes puisqu’en 1998, on s’aperçut qu’il était possible de remonter jusqu’au patient à partir de certaines informations comme par exemple son âge, sexe, code postal du domicile et dates d’hospitalisation approximatives.
Toutefois, on a continué de considérer ces données comme « très indirectement nominatives » et donc peu dangereuses pour la vie privée de sorte que les données du PMSI ont été jusqu’en 2014 diffusées sur des supports aisément copiables (des CD-ROM), même si les utilisateurs devaient s’engager à ne pas le faire, et utilisées pour des fins dont l’intérêt public n’était pas toujours évident.

L’accès aux données du SNIIRAM présente des risques similaires même s’ils ont été jusqu’à présent plus limités : le rapport du Groupe de travail sur les risques de ré-identification, signale notamment les risques de ré- identification de personnes dans l’Échantillon des bénéficiaires (si ces personnes ont été hospitalisées) et le défaut de traçabilité des accès pour des jeux de données extraits du SNIIRAM auxquels la CNIL a autorisé un accès.

Le problème pour des bases de données indépendantes est déjà consternant, mais toute l’ampleur du problème se dévoile lorsque les bases de données sont chaînées, puisque si une personne est identifiée au sein d’une base, on peut retrouver son pseudonyme au sein de celle-ci et donc l’utiliser pour accéder à d’autres informations dans une base de données différente. Ainsi la centralisation des données de santé engrange un risque d’autant plus grand puisque les données son chaînées. C’est notamment pour cela que les procédures d’anonymisation de la CNIL sont aussi strictes, et que les organismes utilisateurs du SNDS sont pour l’instant assez restreints et que certains qualifient cette loi d’une « fermeture des données de santé » plutôt que d’une ouverture.

Sources :
Dossier Solidarité et Santé : Données de santé : anonymat et risque de ré-identification (juillet 2015).

Retour vers

Quelles données ouvrir ?

Continuer vers

Procédures d’accès aux données

Schéma général

Schéma général