Benoît Dageville (Snowflake) "Snowflake a pour objectif de créer un écosystème sur le modèle de l'App Store"
A l'occasion du Snowflake Summit qui se tient du 26 au 29 juin, le cofondateur français et président produit de la cloud data platform détaille sa stratégie pour 2023.
JDN. Quelles sont les priorités stratégiques de Snowflake en 2023 ?
Benoît Dageville. La priorité est de faire en sorte que Snowflake puisse exécuter de manière complète les applications dans notre data cloud. Cela implique de supporter tous les types de data : les contenus structurés du monde des bases de données, mais aussi les données semi-structurées tels les logs ou les data de l'IoT ou encore les informations au format Json. Sans oublier les données non-structurées de type fichier, ce qui est critique pour les projets d'IA avancés. Dans le même temps, nous supportons toutes les sources, que ce soient les sources internes à l'entreprise ou externes. Cela passe par notre marketplace qui permet historiquement le partage et la commercialisation de data set.
Vous annoncez cette année la possibilité de containériser les applications...
C'est notre annonce la plus importante. Cette démarche a commencé avec SnowPark qui permet de programmer des scripts sur les données en Python, en Java, en Scala. Cette démarche s'étend avec la possibilité que nous annonçons également à l'occasion du Snowflake Summit d'exécuter entièrement des services applicatifs sous forme de containers à l'intérieur de notre data cloud, avec toute la gouvernance et la sécurité que Snowflake peut apporter.
Ces data applications pourront être propulsées par les éditeurs via notre marketplace en vue de les distribuer et de les commercialiser. Les utilisateurs de Snowflake pourront ensuite les installer dans leur propre environnement. Sachant que les données du provider et celle du consommateur seront respectivement protégées et isolées.
Vous lancez une stratégie d'écosystème ?
Tout à fait. Nous ouvrons la porte aux éditeurs qui souhaitent exploiter notre environnement. Ils pourront ainsi commercialiser des applications utilisables ensuite à l'intérieur comme à l'extérieur de l'entreprise. Notre objectif est de créer un écosystème autour de Snowflake sur le modèle de l'App Store de l'Apple.
Comment gérez-vous le machine learning ?
Il est d'abord tout à fait possible de porter ses propres modèles de machine learning dans Snowflake, puis de les embarquer dans des applications. Ensuite nous fournissons toute une série de fonctions clés que les applicatifs pourront directement venir consommer. C'est le cas de fonctions prédictives ou de détection d'anomalie par exemple. Via la nouvelle solution Document AI, nous sommes par ailleurs capables de parser des documents en utilisant le machine learning pour en intégrer les données de manières semi-structurée.
Dans la même logique, nous souhaitons aussi donner la possibilité de générer du SQL automatiquement en langage naturel, ou encore des visualisations de données. L'objectif étant de permettre à tout un chacun d'utiliser l'IA sur notre plateforme sans pour autant maitriser le machine learning.
Comment vous positionnez-vous par rapport à ChatGPT ? Comptez-vous développer un plugin pour l'intégrer ?
ChatGPT est un LLM public. Il est tout à fait possible d'appeler les API de ChatGPT depuis Snowflake pour exploiter ce service via ce qu'on appelle les external functions. Un plugin n'est pas nécessaire. Nous allons néanmoins probablement créer un plugin ChatGPT pour faire en sorte que cette intégration soit plus simple.
"Il est fort probable que l'émergence des modèles open source s'accentue"
Le problème ici, c'est qu'il n'y a aucune gouvernance des données. Les data sont envoyées via les API de ChatGPT qui se charge ensuite de les gérer. Or, beaucoup de nos clients préfèrent conserver la maitrise de leurs données. Certes, il est toujours possible de bénéficier d'instances privées de ChatGPT. Mais la vraie solution reste d'exécuter les LLM à l'intérieur de Snowflake pour maitriser les données de A à Z.
Que pensez-vous des LLM open source ?
Les grands modèles de langue open source ne sont pas aussi puissants (que les modèles propriétaires, ndlr). Mais leur énorme avantage réside dans leur possibilité de fine tuning. Si vous fine tunez un modèle moins sophistiqué qu'un autre, il pourra devenir potentiellement beaucoup plus puissant. Dans le même temps, il sera beaucoup moins cher à entrainer et à exécuter.
Du coup, il est fort probable que l'émergence des modèles open source s'accentue. Parallèlement, on verra se développer des modèles moins puissants et plus spécialisés, voire des successions de modèles spécialisés emboités les uns dans les autres pour répondre à des cas d'usage plus larges. Ces architectures pourraient à terme rivaliser avec les LLM.
Allez-vous poursuivre votre stratégie d'acquisition ?
Oui. Notre stratégie de rachats nous permet d'accélérer le développement de notre plateforme sur des fonctionnalités que nous jugeons clés. Les dernières opérations réalisées ont eu pour but d'enrichir notre Data Cloud sur le terrain du machine learning. Récemment, l'acquisition de Neeva nous a permis par exemple de mettre la main sur une brique de recherche intelligente. Le rachat d'Applica (fin 2022, ndlr) a donné naissance à Document AI, celui de Myst AI (début 2023, ndlr) à une couche de forecasting, etc.
Après un doctorat en sciences informatiques à l'Université Paris 6, Benoit Dageville débute sa carrière comme chercheur au sein de l'European Computer Research Center. Il se spécialise dans la simulation des bases de données parallèles multi-thread. Après deux ans passés chez Bull, il est recruté par Oracle. Il est d'abord nommé consultant de l'équipe technique au sein du Parallel SQL Execution Group. Il rejoint ensuite le SQL Manageability Group comme architecte. En août 2012, il crée Snowflake avec Thierry Cruanes, un autre Français également titulaire d'un doctorat à Paris 6 qui l'avait accompagné chez Oracle, et Marcin Zukowski, le fondateur de Vectorwise.