Des données, beaucoup de données

Des données, beaucoup de données

La France possède une quantité exorbitante de données de santé, du fait de son système de santé unique au monde. En effet, elle possède environ 260 bases de données publiques dans le domaine de la santé. Ces données sont d’une grande diversité et d’une grande richesse. On peut par exemple distinguer les bases de données médico-administratives, les cohortes ou encore les données produites par les objets connectées.

Bases de données médico-administratives :

Elles contiennent des données concrètes et très exhaustives à l’échelle de larges populations. Leur principal avantage est qu’elles concernent des personnes qui sont rarement perdues en cours de route au contraire de certaines études spécifiques réalisées à court ou à moyen terme.
La plus célèbre d’entre elles est le SNIIRAM (Système national d’information inter-régimes de l’Assurance maladie). Elle contient tous les remboursements effectués par l’Assurance maladie pour chaque cotisant, tout au long de leur vie (biologie, médicaments, ambulances, consultations avec dates et noms des professionnels de santé vus…). Le SNIIRAM permet un suivi à long terme produisant des données fiables. Il existe beaucoup d’autres bases de données médico-administratives comme le CépiDc qui recense les causes médicales de décès en France. Ce sont ces bases de données qui vont principalement être concernées par une ouverture au public (voir Quelles données ouvrir ?).

Les cohortes :

Une cohorte est un groupe de personnes partageant un certain nombre de caractéristiques communes, que des chercheurs suivent pendant plus ou moins longtemps afin d’identifier la survenue d’évènements de santé et d’éventuels facteurs de risque ou de protection.
Les cohortes sont montées par des centres de recherche et regroupent jusqu’à plusieurs dizaines de milliers de personnes durant plusieurs années. C’est le cas par exemple de la cohorte Constances, en cours de constitution, qui inclura à terme 200 000 personnes âgées de 18 à 69 ans. Ces cohortes produisent des données qui permettent des études et une surveillance épidémiologique, potentiellement à fort impact dans le domaine de la santé publique.

Les études publiques :

Les laboratoires publics mènent également de nombreux travaux de recherche clinique sur la base de populations particulières de patients dont les risques et les états de santé sont analysés. Ces études sont aujourd’hui fécondes car le nombre d’informations que l’on peut recueillir chez un même individu est passé d’une dizaine il y a quelques années à plusieurs centaines aujourd’hui.
En oncologie, des dizaines de paramètres cliniques, biologiques, d’imagerie et de génétique sont systématiquement recueillis. C’est aussi le cas pour le développement des vaccins. Ainsi, dans le cadre de l’essai clinique DALIA réalisé par Vaccine Research Institute, destiné à évaluer un vaccin thérapeutique contre le VIH, toutes les cellules immunitaires des patients ont été comptées grâce à la reconnaissance des marqueurs de surface, et leur fonctionnalité a été testée. Le protocole a généré environ 800 mesures par patient et par visite, sans compter l’étude de l’expression génétique de nombreux marqueurs (47 000 sondes/patient/visite) et du séquençage à haut débit du virus lui-même.

Les objets connectés :

Les objets de santé connectés génèrent également de très nombreuses données transmissibles et partageables : appareils mesurant le nombre de pas, la fréquence cardiaque, la glycémie, la pression artérielle… Ces données sont le plus souvent stockées et gérées par des géants d’internet ou GAFAM : Google, Apple, Facebook, Amazon et Microsoft.

Devant l’apport croissant de ces données dont le nombre risque encore d’exploser à l’avenir, on comprend la nécessité de mettre en place des structures permettant un accès facilité et une exploitation efficace de celles-ci. C’est dans ce but que l’article 47 de la loi Touraine prévoit la création du SNDS qui sera géré conjointement par plusieurs organismes (voir Procédures d’accès aux données).

Source :
Thiebault R. (2016). Big data en santé. INSERM. Disponible ici

Retour vers

Notion d’intérêt public

Continuer vers

Histoire du Big Data en santé

Schéma général

Schéma général