Dataiku – Startup de développement d’un logiciel d’exploitation de Big Data
Interview de Pauline Brown – Responsable Marketing et Communication par Adrien Tardieu 10/01/2015
A – Quand la boîte a-t-elle été créée ?
P – La boîte a été créée en janvier 2013, on est un éditeur de logiciel, on ne fait pas du croisement de données, on produit un logiciel qui permet aux entreprises de faire eux-même le travail qu’ils ont à faire sur les données. Le logiciel est sorti en février 2014, ça a été développé très rapidement et très bien en fait. On a déjà plus de 25 clients, des grandes boîtes d’assurance à BlaBlaCar…
A- Combien d’empoyés ?
P – 23
A – Combien de fondateurs ?
P – 4, au départ Florian Douetteau, Marc Batty, Thomas Cabrol, Clément Stenac
A – Votre logiciel, DSS ?
P – Oui, Data Science Studio. Dans les médias on parle de Big Data comme si c’était un sujet facile avec lequel on peut tout découvrir. En réalité, pour exploiter les données, il y a beaucoup d’outils. Premièrement, se connecter aux données. En général, les données brutes c’est sale, logs web, excel, bases de données. L’architecture de comment on va les stocker, y accéder, ce sont des problèmatiques connues dans ce monde là, mais dans la vraie vie, les gens pensent que c’est simple et qu’on peut se connecter à plein de données facilement. Le formatage est également très compliqué. La deuxième étape est le nettoyage et l’enrichissement des données. Les données brutes sont incomplètes et très sales. Un être humain ne pourrait pas humainement les utiliser telles quelles. Du coup, on a des data scientists qui vont passer 80% de leur temps sur un projet à les nettoyer, les normaliser, les rendre exploitables pour la machine. Et pour faire ça, ils utilisent des scripts informatiques. Pour enrichir, croiser les données, on va utiliser des bases de données externes comme OpenStreetMap. Ça pareil, ce sont des problèmes de formatage. L’étape suivante, une fois que les données sont parfaites et exploitables, est la partie d’algorithmique et de création de modèles (prédictifs). Créer ces modèles se fait à la main en langage R, ce sont des scripts. Chez Dataiku, on a créer un studio où tout ce processus là est pris en compte.
A – Adapté à tous les clients ?
P- On a rarement eu de cas où les données ne sont pas adaptables dessus. Il faut voir le studio comme une couche que tu mets au dessus de tes données et avec lequel tu peux faire plein de choses.
A – Concrétement comment ça se passe ?
P – Le client va installer le studio sur leurs machines, sur leurs serveurs. Comme un photoshop, sauf que là c’est pas des photos, mais des données. Ils vont pouvoir se connecter à leurs logs web, historiques de produit. On peut les mettre ensemble avec le studio qui va en faire un flux. Ce flux va être nettoyé par un script de nettoyage automatique, puis ça passe par le modèle et qui affiche les résultats.
A – Qu’est-ce qu’un modèle ?
P – Par exemple, le churn. On peut analyser les clients qui quittent un site de e-commerce, on va regarder ce qu’ils ont en commun. Ensuite on va analyser toute la base de données et dire “tiens ces clients là ont le potentiel de churner” parce qu’ils ont des comportements similaires à ceux qui sont partis. Donc ça par exemple, c’est un algorithme prédictif qui va faire ça. On va créer un modèle par rapport à la base de rentrée. Le modèle il faut le voir comme un filtre de données.
A – Les modèles vous les développer spécifiquement pour des clients ?
P – Nous accompagnons les clients. Le studio a pour but d’être utilisé sans nous. Le marché du prédictif n’est pas très mature. Nous avons des data scientists qui les accompagnent au début pour faire des bons modèles. Ce n’est pas accessible à tout le monde.
A – Quels genres de prédictions faîtes-vous ?
P – Chaque client fait celles qu’il veut. Il y a plein d’exemples : churn, Parkeon a développer une application MeToSee, qui prédit en fonction de données passées les endroits où il y a des places disponibles pour se garer. Sinon Chronopost a optimisé son système de livraison, ils ont découpé le territoire français en petits carrés de 500m sur 500m et ils ont fait un calcul : Combien de camions chronopost passent par ces petits carrés à chaque instant de la journée. Et vis à vis de ça, ils ont fait un score des parcelles les plus faciles à livrer
A – Vous êtes en croissance importante ?
P – Oui
A – Vous ne stockez jamais les données ?
P – Non
A – Vous n’avez pas trop de problèmes avec le droit des données ?
P – Non, parce que les données sont toujours chez les clients.
A – Que faîtes-vous pour la sécurité ?
P – Le studio, il est sécurisé dans tout les cas. Et on l’installe en général, sur la propre machine du client. Donc c’est sa sécurité qui va protéger ses données.
A – Vous n’avez jamais eu de clients qui vous ont demandé de faire quelque chose de particulier parce que les données étaient sensibles ?
P – Si, mais c’est chez eux. Mais toutes leurs données sont sensibles. On a travaillé avec des e-commerçants, leurs données c’est une mine d’or pour eux. Si une information sur un client sort, c’est catastrophique. Ils font très très très attention à ça.
A – Quel genre d’entreprises d’intéressent au studio
P – On travaille avec des assurances, avec du e-commerce, avec chronopost. Avec toutes les entreprises qui ont de gros volumes de données et qui ne savent pas trop quoi en faire.
A – Et ça arrive que le client ne sache pas exactement ce qu’il peut en faire ?
P – Oui, totalement. C’est là que le data scientist accompagne le client pour les aider à trouver une utilité.
A – Combien de data scientists chez Dataiku ?
P – Aujourd’hui une dizaine
A – Il y a une formation pour être data scientist
P – Le but du studio est aussi de rendre des non-experts experts. C’est-à-dire que tu peux apprendre en l’utilisant. Il faut avoir des bases en programmation, stats… D’ailleurs, une version gratuite est disponible pour les étudiants en ligne, pour apprendre le métier de data scientist. Mais c’est un outil complet, on voit tout le processus de travail, très utile pour comprendre le métier data scientist
A – Y a-t-il déjà eu des rétiscences de clients ?
P – Cet outil a un coût. Ce n’est pas toujours facile de voir dans l’immédiat la valeur ajoutée d’utiliser un tel outil pour exploiter ses données. Ce sont des cas pour lesquels on n’a pas trouver de cas utiles pour le client.
A – Avez-vous d’autres projets ?
P – Non à par le studio, non. Mais on va s’installer aux Etats-Unis
A – Concurrents en France ?
P – En France, je pense qu’on est les seuls à concevoir un tel logiciel de traitement de données. Aux US, il y en a beaucoup, mais pas forcément end to end et aussi facile d’utilisation que le studio Dataiku
A – Faîtes-vous beaucoup de conférences ?
P – On essaie, on a un boulot monstre. Mais là, je pars à San Francisco dans un mois pour faire une conférence. On a été à Barcelone. Et Florian Douetteau, il est assez connu dans ce domaine là, très solicité.
A – Sur la CNIL, vous n’avez jamais eu à traiter avec elle ?
P – Non, nous, la beauté du truc, c’est qu’on développe un outil. Le marché des prédictions, je pense qu’on est en bas de vague, ça va vraiment explosé, on est juste au bon moment. De manière général, on parle souvent du cloud, mais en réalité beaucoup de clients refusent de mettre leurs données dans le cloud pour des raisons de sécurité. C’est rare que les boîtes avec des gros volumes de données qu’elles les stockent dans le cloud. On travaille à minutes près sur les données.
A – A mesure que vous trouvez de nouvelles prédictions, les proposez-vous aux clients ?
P – On fait des use-cases, oui