Comment Databricks devient une plateforme d'IA
A l'origine orientée big data, la plateforme permet désormais d'entraîner et déployer des modèles de machine learning. Portée par des levées de fonds records, la société fondée par les créateurs de Spark a une feuille de route ambitieuse.
Question à un milliard ou plutôt à 2,6 milliards de dollars. Que faire quand on a levé une telle somme d'argent ? 2,6 milliards de dollars, c'est le financement obtenu par Databricks en deux tours de table l'an dernier, valorisant la société 38 milliards de dollars. Fondée par les créateurs d'Apache Spark, de Delta Lake et de MLflow, l'éditeur californien se positionne, de fait, sur le créneau porteur des data modern plateforms démocratisant l'accès à la fois à la donnée et à l'IA. Son concurrent direct, Snowflake, a mis le feu à Wall Street lors de son introduction en bourse en septembre 2020.
Databricks qui emploie plus de 3 000 personnes dans le monde revendique un chiffre d'affaires de quelque 800 millions de dollars pour son exercice fiscal 2021, en hausse de 80% sur un an. L'éditeur aurait convaincu plus de 7 000 entreprises clientes, dont 40% sont des groupes du Fortune 500. Parmi ses références figurent ABN AMRO, Condé Nast ou H&M. En France, Total Energies, Schneider Electric et Sanofi utilisent sa plateforme.
Leader de deux quadrants magiques
A l'origine très orienté big data avec son concept de lakehouse, Databricks a évolué vers l'IA pour intégrer en 2020 le carré des "leaders" du quadrant magique du Gartner dédié aux plateformes de machine learning et de data science. L'Américain s'y retrouve aux côtés de Dataiku, Sas ou IBM. Il était déjà leader dans un autre quadrant magique consacré aux "cloud database management systems".
Nativement cloud, sa plateforme répond, de fait, aux défis à la fois du big data et de l'intelligence artificielle. S'appuyant sur Spark, elle peut absorber des Po de données issues des data warehouses, des data lakes ou des clouds publics. Depuis l'acquisition de la technologie de Redash, elle donne aussi la possibilité aux utilisateurs d'interroger des bases relationnelles par requêtage SQL. Après avoir ingéré les flux de données, la plateforme va, via les briques MLFlow et Runtime for ML, créer et entraîner des modèles algorithmiques avant de les déployer.
"Les lakehouses rendront
les data warehouses obsolètes"
"Chez Total Energies, notre plateforme est utilisée pour prédire en temps réel la quantité d'eau, de gaz et de pétrole qui doit être produite", explique Nicolas Maillard, senior director field engineering central & SEMEA de l'éditeur. L'énergéticien a créé sa digital factory à Paris en faisant appel aux technologies de Microsoft Azure et Databricks. Schneider Electric a créé, lui, une data factory qui s'adosse à Databricks pour tirer parti des données et de l'IA dans les domaines de l'énergie et de l'automatisation.
Cap sur le no code
A la différence d'un Snowflake qui s'adresse à une population de business analysts, Databricks lorgne davantage sur les experts en data science. L'acquisition en octobre dernier de 8080 Labs devrait toutefois changer la donne. Cette start-up allemande propose une interface graphique reposant sur l'outil d'analyse Pandas permettant d'explorer les données sans avoir à écrire de code. Cette approche low code / no code a vocation à rendre Databricks accessible aux experts métiers et citizen data scientist. "Désormais, n'importe qui, avec seulement une compréhension très élémentaire en machine learning, peut entraîner des modèles avancés via notre offre", se réjouit Nicolas Maillard.
Databricks s'est aussi lancé dans une politique de verticalisation de sa plateforme. Après le monde du retail en janvier dernier, l'éditeur a annoncé un lakehouse dédié aux services financiers en février. D'autres lancements sont à prévoir cette année en ligne avec cette stratégie. Un moyen de répondre aux différents cas d'usage propres à chaque industrie.
Par ailleurs, l'éditeur entend se constituer un écosystème avec la création, en décembre, d'un fonds d'investissement. Databricks Ventures se concentrera sur "le financement des start-up qui étendent les fonctionnalités de son lakehouse ou utilisent une architecture lakehouse pour créer la prochaine génération d'entreprises basées sur l'IA", complète Nicolas Maillard. "Nous sommes convaincus que les lakehouses rendront les data warehouses obsolètes."
La concurrence des hyperscalers
Dans la dernière édition de son quadrant magique, Gartner émettait deux avertissements concernant Databricks. Le cabinet d'études note que l'éditeur faisant face à une concurrence croissante, avec la montée en puissance sur son créneau des hyperscalers jusqu'alors ses partenaires comme Microsoft Azure et AWS. Avec BigQuery Omni, Google reprend, par exemple, à son compte l'approche de la data multicloud.
Par ailleurs, Gartner estime que Databricks devrait apporter une attention plus prononcée au volet gouvernance, gestion des risques et conformité réglementaire. Son appel semble avoir été entendu. Databricks a annoncé depuis Unity Catalog. Comme son nom l'indique, il s'agit d'une interface qui permet d'auditer et de sécuriser l'accès aux données. Un gestionnaire qui peut, depuis le lakehouse, répondre aux exigences de conformité et de confidentialité. Toujours la gouvernance des données, Databricks a par ailleurs lancé l'an dernier le projet open source Delta Sharing, un protocole d'échange de données sécurisé et temps réel entre organisations.