Accueil A la une Tout le monde pourra bientôt exploiter ses Big Data

Tout le monde pourra bientôt exploiter ses Big Data

par Etienne Henri
big data databricks

Vous souvenez-vous du Big Data ?

Il y a peu, ce domaine émergent devait être l’Eldorado de la tech. Sur le modèle de Google et Facebook qui font de la valorisation des informations recueillies leur fonds de commerce, les bases de données devaient être l’or noir virtuel des entreprises – jusqu’à devenir pour nombre d’entre elles un business-model en soi. 

“Nous allons vendre les données” : voilà comment les startups modernes espéraient devenir riches. La suite, vous la connaissez. N’est pas Google qui veut, et les données prétendument si précieuses se sont souvent avérées un poste de dépense plus que de profits.

Les trier et en faire quelque chose de profitable est bien plus compliqué.

La raison ? Recueillir des informations est facile, surtout lorsque l’on offre des services gratuits en échange de celles-ci. Les trier et en faire quelque chose de profitable est bien plus compliqué – et la plupart des jeunes pousses ont mis la clé sous la porte avant d’avoir sorti la moindre bribe d’information tangible de leurs bases de données.

Avec le temps, les entreprises ont compris que le métier de data scientist ne s’improvise pas. Interpréter, trier et filtrer les données relève d’un domaine de compétences bien particulier, surtout lorsque l’on ne sait pas, lors de la collecte, la manière la plus pertinente de les exploiter.

C’est suite à ce constat qu’est née Databricks. L’entreprise a conçu une solution intuitive d’analyse qui permet de créer automatiquement des modèles d’extraction de données. Sa plateforme logicielle est le chaînon manquant entre les montagnes d’informations recueillies par les entreprises du web et leur synthèse exploitable. Elle parvient à transformer, de façon automatisée, la boue des données brutes en pépites d’or de résultats pertinents. Grâce à elle, le Big Data pourrait – enfin – devenir une source de revenus crédible.

Et si une IA était chargée d’interpréter les données ?

Il existe deux raisons pour lesquelles l’exploitation de Big Data n’a été que très rarement rentable.

Tout d’abord, comme son nom l’indique, les entreprises font face à une quantité d’informations colossale. Ceci exclut toute possibilité de traitement manuel. De plus, le lien est souvent ténu entre les données recueillies et celles qui pourraient être commercialement valorisées. Trouver les points communs entre une montagne de données aléatoires et quelques valeurs précises relève plus de l’art que de la science.

Pas étonnant que les meilleures équipes s’avèrent dépassées lorsqu’il s’agit de transformer le Big Data en métriques à forte valeur ajoutée.

Si vous nous lisez régulièrement, vous reconnaissez toutefois dans ces deux problématiques des tâches dans lesquelles l’intelligence artificielle excelle. Traiter des montagnes de données et en tirer la substantifique moelle est un domaine de prédilection de l’IA – surtout lorsque personne n’a encore établi d’algorithme pour y parvenir.

C’est exactement ce que réalise la suite logicielle de Databricks. En se basant sur le machine learning, elle propose à ses clients un outil d’élaboration de modèles d’intelligence artificielle qui viendront piocher dans les données recueillies pour en tirer de façon automatisée un grand nombre de conclusions. L’entreprise n’a alors plus qu’à choisir (et valoriser) les métadonnées les plus intéressantes.

Automatisation traitement données Databricks

Automatisation du recueil et du traitement des données par la suite Databricks. Source : Databricks.

La mort prématurée du data scientist 

De la même manière que l’IA a dépassé les performances des meilleurs joueurs de Go (et a plus récemment battu les champions du jeu vidéo StarCraft II), elle pourrait rendre sous peu obsolète le métier de data scientist. 

Ces ingénieurs, actuellement très recherchés, sont chargés de concevoir, par leur analyse cartésienne autant que par leur intuition, des modèles de traitement de données. Leur valeur ajoutée pourrait être totalement annihilée par les logiciels de Databricks qui permettent, sans connaissance aucune en intelligence artificielle, de guider l’ordinateur dans l’auto-génération de modèles.

Le génie humain pourrait bientôt être remplacé par un logiciel accessible à toutes les entreprises – qui plus est, en open source. Les logiciels de Databricks vont être à l’intelligence artificielle et au Big Data ce que Microsoft Office fut à la bureautique : la promesse de banaliser un domaine de compétence autrefois spécifique.

Créer une IA de traitement de Big Data pourrait, demain, être aussi banal que d’écrire un mémo sous Word ou réaliser quelques diapositives PowerPoint.

Quand le Big Data vaut enfin des milliards

Les solutions développées par Databricks vont faire renaître de ses cendres l’industrie mort-née du Big Data. Les investisseurs ne s’y sont d’ailleurs pas trompés : l’entreprise vient de boucler un tour de table de 400 M$ qui porte sa valorisation à 6,2 Mds$.

Cette enveloppe servira principalement à améliorer la plateforme de machine learning utilisée en interne pour l’auto-génération des modèles. 100 M€ seront injectés dans le centre de R&D basé à Amsterdam qui devrait, aux dires d’Ali Ghodsi (fondateur et P-DG de l’entreprise), recruter les meilleurs éléments de la planète pour l’assister dans cette tâche gargantuesque qui représente “la problématique la plus difficile du monde [de l’informatique]”.

La valorisation de la startup, certes démesurée, n’est toutefois pas dépourvue de logique. Vous ne serez qu’à moitié surpris d’apprendre que les fondateurs de l’entreprise sont des anciens de la fondation Apache (qui publie le plus célèbre des logiciels de serveur web et a rédigé les plus répandues des licences open source), et plus particulièrement d’Apache Spark, la plateforme de référence dans le calcul distribué. Databricks n’est pas le premier standard informatique qu’ils élaborent et, si son succès est à la hauteur de celui des premiers projets de l’équipe, il devrait être promis à un grand succès.

Pas étonnant, vue la légitimité de l’équipe et le marché potentiel, que les plus grands noms de l’industrie informatique aient participé aux tours de table successifs. Le dernier en date a rassemblé BlackRock, Microsoft ou encore Tiger Global Management. Ils ont payé fort cher leurs actions, mais font le pari que l’essor du Big Data géré par IA ne fait que commencer.

Soyez le premier informé des dernières Opportunités Technos directement dans votre boîte mail

Articles similaires

Laissez un commentaire