Patrick Pérez (Kyutai) "Kyutai espère partager d'importantes innovations au cours de l'année 2024"
Patrick Pérez est le CEO de Kyutai, laboratoire d'intelligence artificielle indépendant soutenu par Xavier Niel, Rodolphe Saadé (PDG de CMA CGM) et Eric Schmidt (ex-CEO de Google).
JDN. Quelle est la mission première de Kyutai ?
Patrick Pérez. Nous sommes un laboratoire de recherche en intelligence artificielle. Nous sommes actuellement six chercheurs, une septième nous rejoindra prochainement. Notre objectif premier est de faire avancer l'état des connaissances et des techniques en IA. Cette recherche se veut à but non lucratif et nos travaux sont destinés à être partagés avec l'ensemble de l'écosystème.
Nous faisons partie de la grande communauté scientifique de l'intelligence artificielle, mais pas seulement. Nos modèles ouverts s'adresseront également aux développeurs, aux entrepreneurs et à tous les acteurs intéressés par des modèles d'IA libres d'accès. Conformément à notre slogan de "science ouverte", notre objectif est de diffuser l'intégralité de notre production scientifique et technique. S'y ajoute une seconde mission de formation de jeunes chercheurs et futurs ingénieurs. Cela passe par l'encadrement de stagiaires de master, le lancement de thèses, l'accueil de doctorants extérieurs.
Quels types de modèles développez-vous ?
Le langage est évidemment le fondement des grands modèles d'intelligence artificielle actuels. Une partie des connaissances et des capacités de raisonnement de ces modèles est acquise via le langage. Nous nous intéressons aussi aux défis techniques liés à l'amélioration de ces grands modèles pour les rendre plus utilisables, utiles et bénéfiques pour la société.
Mener des recherches de pointe sur les grands modèles généralistes nécessite de concevoir, d'entraîner et d'évaluer de tels modèles. Mettre à disposition les résultats de cette recherche implique non seulement le partage des modèles finaux ou pré-entraînés, mais aussi des techniques d'entraînement elles-mêmes ainsi que le prétraitement des données. Nous pourrons également partager des checkpoints et tout ce qui permet de reproduire le plus fidèlement possible la conception, l'entraînement et l'évaluation des modèles.
Sur quelle taille concentrez-vous vos efforts de développement ?
Nous travaillons progressivement sur des modèles de différentes tailles, que l'on peut qualifier de "petits" ou "grands" selon le point de vue. Un modèle à 7 milliards de paramètres, bien que relativement petit dans la famille des modèles généralistes, nécessite déjà beaucoup de savoir-faire et de ressources calculatoires pour jouer dans la cour des grands. Cet ordre de grandeur de quelques milliards de paramètres fait donc partie de la gamme qui nous intéresse.
Sur quels aspects de l'optimisation focalisez-vous votre attention ?
La multimodalité est un des aspects importants pour accroître les capacités et l'utilité des modèles d'intelligence artificielle. Un autre aspect concerne leur efficacité, qui ne se limite pas à la seule inférence mais englobe également l'entraînement. Il s'agit de développer des modèles économes en données et en calcul au moment de l'apprentissage. Un autre élément important est "l'utilisabilité" du modèle, c'est-à-dire sa capacité à être finement ajusté et déployé on-device plutôt que sur des GPU dans le cloud.
Ces différents points techniques, qui incluent la compression des modèles ou leur capacité à être facilement et rapidement spécialisés, sont importants pour nous et couvrent de nombreux aspects de nos recherches à venir. L'objectif est d'obtenir des modèles à la fois efficaces, fiables et utilisables concrètement dans différents contextes. Notre équipe de recherche n'a pas vocation à étudier des cas d'usage spécifiques à ce stade, nous souhaitons travailler sur des modèles et des problématiques les plus génériques possibles.
Quand prévoyez-vous de livrer vos premiers modèles ?
Nous espérons pouvoir partager avec l'écosystème d'importantes innovations au cours de l'année 2024.
Vous travaillez également sur l'architecture des modèles ?
C'est également un aspect qui nous intéresse. En tant que laboratoire de recherche nous avons la liberté d'explorer de nouvelles pistes, en particulier en termes d'architectures. De sortir des sentiers battus, même si certaines voies se révèlent moins prometteuses. Cela fait partie du jeu.
Avez-vous développé des partenariats externes ?
Nous allons commencer par mettre en place des partenariats académiques autour du lancement de thèses. Au-delà de la mission de formation déjà évoquée, ces thèses nous permettront de bénéficier de l'apport de jeunes chercheurs prometteurs tout en nouant des collaborations scientifiques avec des laboratoires publics français de tout premier plan. Par la suite, il pourrait également y avoir des partenariats avec d'autres acteurs académiques hors de France, européens en particulier.
Meta, DeepMind... Pourquoi est-il si important de s'entourer de profils issus des meilleurs laboratoires du monde en intelligence artificielle ?
Le niveau d'expertise et de technicité requis pour être un acteur important, reconnu et pertinent dans la recherche en intelligence artificielle est très élevé. Il est donc important de s'entourer de profils passés par des laboratoires de pointe.
Les laboratoires privés que vous évoquez ont joué un rôle crucial dans le développement et les progrès rapides de l'IA ces 10-15 dernières années. Ils rassemblent des chercheurs extrêmement qualifiés, dont certains rejoignent ensuite des startups ou d'autres acteurs, y compris académiques, du domaine. Par ailleurs, ces laboratoires ont longtemps favorisé une recherche très ouverte, tout en fournissant à leurs chercheurs d'importantes ressources informatiques, devenues indispensables en IA. S'y sont donc développés des talents de tout premier ordre. Pouvoir compter sur certains d'entre eux est donc précieux.
Pensez-vous que la France et plus généralement l'Europe ont le potentiel de devenir leaders dans l'IA ?
Je suis convaincu que la France, et plus généralement l'Europe, en ont le potentiel. La France possède des talents et une expertise de très haut niveau, comme en témoignent certaines start-up ou centres de recherche français à la pointe dans le domaine.
Des choses très prometteuses sont en train de se passer à Paris notamment, où l'écosystème IA évolue rapidement. L'exemple d'OpenAI, startup américaine devenue en quelques années un acteur majeur bouleversant les équilibres établis face aux géants du secteur, est révélateur selon moi. L'Europe a les atouts pour voir émerger ce type d'acteurs "perturbateurs", et nous commençons à avoir les premiers exemples allant dans ce sens.
Quels seront les sujets centraux de la recherche en intelligence artificielle dans les prochains mois ?
La multimodalité et la compacité des modèles seront des tendances, avec des modèles plus petits et spécialisés pour répondre à des besoins spécifiques, ainsi que des modèles facilement utilisables sur device. Un autre aspect intéressant est la taille du contexte. Comme les architectures actuelles, à base de transformers avec leur mécanisme dits d'attention, voient leur coût d'entraînement et d'inférence croître quadratiquement avec cette taille d'entrée, de nouvelles architectures seront nécessaires pour manipuler efficacement des centaines de milliers voire des millions de tokens. C'est un vrai défi technique, et c'est important dans certains cas d'usage nécessitant d'ingérer des documents volumineux. Bien sûr, dans de nombreuses situations, l'exploration de documents à grande échelle se fera non pas par extension du contexte mais à l'aide d'autres outils, notamment la retrieval-augmented generation.
L'évaluation fiable et complète des modèles est aussi une question complexe mais importante avec la multiplication et le déploiement effectif de ces modèles. De meilleurs benchmarks et protocoles seront nécessaires, éventuellement avec des données de test non accessibles.