Opportunités économiques ou menaces à la vie privée ?

Analyse de la documentation scientifique

L’essentiel de notre documentation scientifique provient de la consultation de bases de données. Nous avons effectué nos recherche sur Web of Science et Scopus. Ensuite, nous avons parfois été redirigé vers d’autres documentations via Google Books notamment. C’est ainsi que nous avons trouvé l’ouvrage: Enjeux et usages du Big Data de Christophe Brasseur.

Résultats généraux des explorations bibliographiques pour chaque base scientifique

Pour la partie scientifique, les recherches ont été effectuées sous Scopus et Web of Science essentiellement pour former deux corpus d’articles. Quelques recherches ont été faites sous Cairn.

Analyse croisée
L’équation de recherche entrée dans Web of Science est « big data » AND (privacy OR security), et « big data » (title) ; security OR privacy (keywords) pour Scopus. 257 articles ont été obtenus avec WoS et 409 avec Scopus
On a l’évolution chronologique suivante :

C4

 

La chute en 2015 étant liée au commencement de l’année, une augmentation du nombre de publications est observée au cours du temps. Deux explications peuvent justifier ce phénomène :

  • Les technologies permettant de traiter ces données massives commencent à se développer : il s’agirait alors d’un phénomène en pleine expansion, d’où le nombre croissant de parutions scientifiques.
  • Edward Snowden a révélé en juin 2013 le projet PRISM : la tendance observée peut s’expliquer par le bouleversement provoqué par une telle révélation. On a d’ailleurs observé que le nom Snowden revenait un certain nombre de fois dans les articles de presse. En cherchant une occurrence de Snowden dans les résumés d’articles scientifiques (n’ayant accès pour l’analyse sous Gargantext du texte intégral), un seul article a été trouvé. Il y a donc un sensationnalisme qui n’est sans doute pas recherché par les chercheurs sur ce sujet.

Il faudrait attendre le nombre d’articles parus en 2015 pour confirmer ou infirmer une de ces hypothèse.

Les articles commencent à paraître en 2011. Il se peut que le sujet ait été traité avant 2011, en considérant les big data sous une autre appellation. Mais il est plus probable que cet essor soit lié au développement des technologies et à la mise en place récente de systèmes permettant de collecter une quantité importante de données.

Les articles sont essentiellement américains et chinois : cela confirme en partie la tendance déjà observée pour les articles de presse (on note en plus la participation non négligeable des chinois dans cette controverse). Cependant, les bases de données regroupent essentiellement les articles écrits en anglais : elles ne représentent donc pas nécessairement l’ensemble des chercheurs et acteurs sur ce sujet.

Un acteur majeur ressort de l’analyse des deux corpus : l’IEEE ou Institute of Electrical and Electronics Engineers (20% des articles issus de la recherche sous Web of Science). Cet institut est basé aux Etats-Unis mais est international : des chercheurs du monde entier écrivent et publient pour cet institut. Cela dit, les articles publiés ont une forte composante technique, et les problématiques sociales sont sans doute traitées dans une moindre mesure. De même, les auteurs publiant le plus d’articles (Chen, J. (13), Liu, C. (10), Zhang, X. (10) sous Scopus et WoS) se focalisent sur des problèmes plus techniques.

Ces deux bases de données (Web of Science et Scopus) étant spécialisés dans l’archivage d’articles scientifiques, il n’est pas étonnant de retrouver un grand nombre d’articles à caractère technique. Les problématiques sociales sont tout de même étudiées dans les articles obtenus (au vu l’équation de recherche entrée notamment), mais dans une moindre mesure (Cairn semble plus adapté, mais ne permet pas de traitement quantitatif).

Certains articles n’ont pas été pris en compte car n’étudiant que l’aspect « pratique » des big data, à savoir les applications dans divers domaines (la médecine notamment) et ne prenant pas en compte les aspects problématiques liés à la vie privée ou à l’exploitation abusive des données.

Sous Web of Science :

Les articles les plus cités sont :

  • Boyd, D., Crawford, K., Critical Questions for Big Data : Provocations for a cultural, technological, and scholarly phenomenon, Information, Communication & Society, 2012
  • Kosinski, M, Stillwell, D, Graepel, T, Private traits and attributes are predictable from digital records of human behavior, Proceedings of the National Academy of Sciences, 2013

Disciplines traitées:

Domaines (nombre d’articles) Pourcentage d’articles (en %)
COMPUTER SCIENCE THEORY METHODS (72) 28
ENGINEERING ELECTRICAL ELECTRONIC (67) 26
COMPUTER SCIENCE INFORMATION SYSTEMS (64) 25
COMPUTER SCIENCE HARDWARE ARCHITECTURE (31) 12
TELECOMMUNICATIONS (29) 10

(on notera l’absence de catégorie Social Sciences sous Web of Science)

Origine des acteurs :

Pays (nombre d’articles) Pourcentage d’articles (en %)
United States (109) 42
China (38) 15
United Kingdom (18) 7
South Korea (15) 6
Australia (13) 5

Pour mieux cerner les problèmes que soulève le big data, nous avons utilisé l’outil graph de Gargantext pour déterminer dans un premier temps toutes les occurrences de privacy (cf graphe ci-dessous)

C5

 

Ensuite, nous avons cherché les plus proches voisins de ces occurrences : ce sont

  • predictive drug discovery
  • big science
  • intelligent processing
  • cloud-based augmentation
  • electronic identity
  • big data
  • large clouds
  • malicious domains
  • clinical trials
  • perturbed gibbs samplers
  • big data era
  • international geophysical year
  • streaming data collection
  • spatial footprints
  • cheater identification
  • big data analytics
  • transnational perspective
  • data science
  • cost-effective framework

De nouvelles perspectives sont ouvertes par une telle analyse : en effet, elle met en lumière les différentes formes que peuvent prendre le big data et les menaces qui les entourent (par exemple, on remarque la place que prend le cloud dans la problématique traitée : cf. graphe ci-dessous)

C6

Sous Scopus :

Les articles les plus cités sont :

  • Kosinski, M, Stillwell, D, Graepel, T, Private traits and attributes are predictable from digital records of human behavior, Proceedings of the National Academy of Sciences, 2013
  • Alvaro, P.a , Condie, T.a , Conway, N.a , Elmeleegy, K.b , Hellerstein, J.M.a , Sears, R.a, Boom analytics: Exploring data-centric, declarative programming for the cloud (Conference Paper),
  • EuroSys’10 – Proceedings of the EuroSys 2010 Conference, 2010

Disciplines traitées:

Domaines (nombre d’articles) Pourcentage d’articles (en %)
Computer Science (306) 75
Engineering (96) 23
Mathematics (52) 12
Social Sciences (41) 10

Origine des acteurs :

Pays (nombre d’articles) Pourcentage d’articles (en %)
United States (138) 33
China (94) 23
Australia (23) 6
United Kingdom (20) 5
South Korea (16) 4

L’outil graphe de Gargantext ne fonctionnant pas pour le corpus sous Scopus, nous n’avons pu mener l’étude faite précédemment pour Web of Science.

 

Analyse de quelques articles scientifiques

1 – Challenges of Privacy Protection in Big Data Analytics
Meiko Jensen
Independent Centre for Privacy Protection Schleswig-Holstein (ULD)
2013 IEEE International Congress on Big Data

2 – Big Data’s Big Unintended Consequences
Marcus R. Wigan, Swinburne University, and the University of Melbourne
Roger Clarke, University of New South Wales, and Australian National University
Published by the IEEE Computer Society,
June 2013

3 – Big data’s impact on privacy, security and consumer welfare
Nir Kshetri TELECOMMUNICATIONS POLICY Volume: 38 Issue: 11 Pages: 1134-1145 Published: DEC 2014

4 – Privacy, Anonymity and Big Data in the Social Sciences
JON P. DARIES COMMUNICATIONS OF THE ACM Volume: 57 Issue: 9 Pages: 56-63 Published: SEP 2014

5 – The changing privacy landscape in the era of big data
SCHADT, Eric. The changing privacy landscape in the era of big data. EMBOpress, 2012. ISSN 1744-4292.

6 – Big data’s impact on privacy, security and consumer welfare
KSHETRI, Nir. Big data’s impact on privacy, security and consumer welfare. Elsevier, 2014.

7 – Critical questions for Big Data : Provocations for a cultural, technological, and scholarly phenomenon
Boyd, D., Crawford, K., Critical Questions for Big Data : Provocations for a cultural, technological, and scholarly phenomenon, Information, Communication & Society, 2012

8 – The Big (Data) Bang : Policy, Prospects, and Challenges
McNeely, C., Hahm, J., The Big (Data) Bang : Policy, Prospects, and Challenges, Review of Policy Research, 2014