Vous êtes data scientist, en quoi cela consiste-t-il ?
L’analyste va faire des visualisation et analyses descriptives. Le data scientist va faire de la modélisation, donc de la prédiction et de la prescription et de l’explication.
Quel est votre lien avec les données ? Connaissez-vous les données avec lesquelles vous travaillez ? Ou est-ce des informations abstraites ?
C’est indispensable de très bien connaitre les données avec lesquelles on travaille. C’est une grande partie du travail de data scientist puis de bien savoir les transformer. On a des données brutes et ce qu’on veut c’est prédire au mieux un comportement, une casse, un taux … C’est comprendre ce que sont les informations que l’on manipule, si elles sont incomplètes les joindre avec d’autres informations.
Y at il une grosse différence dans le traitement de données selon leur types ? ou le procédé est général ?
Beaucoup de choses en commun effectivement, c’est pour cela que la data science est devenue un secteur à part entière. Pour la finance le e-commerce ou la e-santé, on a toujours la même approche qui est l’analyse de toute les données, la recherche de prédiction, le machine learning. Il y a un formalisme commun. Cependant il faut bien connaitre ses données pour mieux les rentrer dans tout ce processus d’apprentissage.
Les données que vous traitez sont-elles personnelles ou plus globales (échelle d’une société) ?
Une société est souvent considérée comme une entité. C’est de toute façon un data point.
Vous réfléchissez à d’où viennent vos données avant de les traiter ?
Parfois on a des données on se sait pas d’où elles viennent mais le modèle la prend donc on la considère. Savoir leur source permet de les traiter de manière plus intelligente. Je cherche toujours à savoir d’où viennent les données. Cependant cette source est parfois cachée derrière un label d’anonymisation, dans la santé par exemple. (Les concours data science anonymes). C’est plus difficile de créer le modèle d’exploitation.
(Questions algorithmiques et deep-learning)
A propos des législations, dans votre métier est-ce que vous êtes souvent bloqués par des institutions comme la CNIL ?
La législation est assez forte en Europe, pas forcément suffisante. C’est en tant que start-up que c’est plus dur, qu’on a le plus à faire face à ces problèmes avec des informations qu’on n’a pas le droit d’enregistrer, par exemple les cookies sans le constamment des utilisateurs et les start-up ne sont pas acceptés sur les sites hébergeant ces cookies. La législation nous contraint mais cela se comprend. Point de vue technique j’ai rencontré le problème quand je travaillais chez Yahoo, sur les moteurs de recherche, on nous imposait des règles administratives, sur la date de péremption des informations que l’on peut exploiter, c’était le début du droit à l’oubli. Il fallait totalement anonymiser les données. La législation variait selon les pays. Ce sont des choses qui sont biens pour la protection de l’utilisateur.
En ce moment je travaille beaucoup sur les données de facebook et twitter, qui sont à l’opposée en termes de confidentialité. Sur twitter, tout est libre, sur facebook tout est privé. Ils se les monétisent eux-mêmes. Je n’ai pas accès un grand nombre de données sur facebook. Même les informations visibles, nous n’avons pas le droit de les récupérer automatiquement. C’est un problème de confidentialité de données. L’information est disponible mais privée donc non exploitable massivement. Législation française très complexe sur les bases de données, qui dépendent de l’utilisation, de la fréquence de scrapping. Les start-ups du domaine doivent être épaulées par un arsenal législatif ne pas tomber hors la loi.
Quel est votre avis sur la conciliation entre vie privée et utilisation des données ?
On fait des choses intéressantes au point de vue statistique, c’est un sujet que je creuse ? Que peut-on savoir d’une personne avec ses tweets ? Beaucoup de recherches sortent à ce sujet-là. Récemment une étude reliant le nombre de crises cardiaques dans un état aux US en utilisant les informations tweeter, tentant de mettre en valeur le facteur stress dans la manière dont les gens s’expriment.
Nous cherchons un profil sociopsychodémographique, connaître l’âge, le sexe, savoir si c’est quelqu’un d’heureux, actif. Aujourd’hui intéressant au niveau de la compréhension d’un ensemble de personnes, on n’en est pas encore à savoir au point de vue personnel. Par contre, on y arrivera un jour, et ce sera trop fort, c’est là que la législation devra faire quelque chose. Grosses lacunes de confidentialité malgré l’anonymisation avec le cas AOL de 2007. Google sait tout, c’est sûr. Il sait même peut-être plus de choses sur nous nous même. Ils savent des choses sur nous que l’on ne connait pas. Ils sont déjà sur les données personnelles.
Comment sont acquises les données sur lesquelles vous travaillez ?
Nous avons deux parties, sur twitter c’est libre, il suffit d’aller les chercher. Quand tu parles de quelque chose ça te définis. Sur Facebook, on a l’accord de 15000 marques pour utiliser leurs données, mais ce ne sont pas des données d’utilisateurs. Ce sont les pages de marques qui nous fournissent leurs informations.
Pouvez-vous nous parler de votre entreprise ?
Le but est d’améliorer la communication des marques en se développant sur les réseaux sociaux. On cherche à se diversifier de twitter et Facebook.
Qu’est-ce que vendez à la marque?
La marque nous donne son contenu ou plusieurs contenus et on les aide, on dit quelle présentation est la plus adaptée, à quelle moment il faut la publier, si il faut la répéter.
Vous travaillez avec les données de twitter et facebook, quelles sont les différences? Comment les recouper?
Twitter est plus riche point de vue psycho démographique de l’audience et est libre d’accès mais Facebook a plus d’utilisateurs et on a 10 ou 100 fois plus de réactions. Sur Facebook les données sont privées et ne sont pas divulguées (on sait seulement combien de personnes ont vu une photo mais pas qui)
Les données sont anonymes?
Sur facebook et pas sur twitter (tout y est ouvert)
anonymat agrégé: pas de user id, pour une activité on sait qu’ il y en a eu tant (pareil sur google analytics). Les contraintes sont décidées par les entreprises, elles sont gardées et pas communiquées
Que deviennent ces données?
Cela dépend uniquement des conditions générales du site, par exemple facebook les garde et les valorise lui-même
Seriez vous prêt à payer pour des bases de données plus précises?
Des informations pourraient améliorer le modèle, comme likes des users de facebook.
Avez vous des contacts avec le trading de la data?
Je n’aime pas trop le concept, mais ils ne vendent pas de données personnelles en général, ils vendent des paquets de gens ciblés. Cependant ils font la qualification eux même et ne donnent pas les informations qu’ils ont utilisé pour réaliser le profilage
Tout repose sur les closes des sites sur lesquels on entre?
Oui, si facebook le décidait il pourrait revendre nos données. Le e-commerce le fait: revend les données aux traders de données : données personnelles de l’utilisateur, email…
Aucune institution ne régule ça?
Je ne sais pas trop je ne suis pas un pro, peut-être qu’en France c’est interdit mais je sais que ça existe
Vous êtes confronté à des problèmes de legislations?
Pas mon domaine, je suis dans les données publiques
Est-ce que les entreprises seraient capables de s’adapter à une nouvelle legislation?
Oui.. la legislation ne peut pas tout faire, il faut éduquer les gens (ne pas poster une photo de sa carte bancaire sur internet). Les gens doivent savoir que ce qu’ils postent dans un espace public est public et ce qu’ils postent dans un espace privé appartient à la boîte. Puis au niveau des legislations les parlementaires ne savent pas ce qu’est une base de données ou un cookie, il y a des chances qu’ils fassent n’importe quoi. Dès qu’il y une loi on trouve un contournement.
Consortium important: IAB groupement de publicitaires, chartes de bonne conduite, pourrait plus faire changer les choses (plus de pouvoir).
Pour vous, il y a une atteinte à la vie privée ou chacun est responsable des informations qu’il donne?
Les deux, sur twitter on est responsable mais sur une site où il faudrait aller voir les conditions générales, c’est un peu traître
Pour information, en Allemagne 60% des gens lisent les conditions et en France 0.6%. Il y a besoin de legislation mais pas trop finement. Mais les données sont internationales, ce n’est pas du droit français.
Protection des données avec la concentration de données?
C’est d’actualité, exemple du hack de Sony
Est-ce que si la confiance des utilisateurs est perdue tout s’effondre, par exemple pour google?
Beaucoup d’entreprises engagées par plus que de la confiance, de toute façon il n’y pas de choix qui protège la vie privée (apple ou google). Ce qui serait bien: les états doivent se mettre d’accord et en parler plus ouvertement mais aujourd’hui US ont les boîtes et les autres en pâtissent. Il faudrait nationaliser mondialement Google car c’est une boîte privée et ça fait un peu peur. Pas de clash qui renverse tout.
Travaillez vous avec des sociologues?
Pas du tout, mais je lis des études de sociologie: caractériser les émotions de quelqu’un sur twitter, la sociologie dans le big data je connais pas trop