Michel-Marie Maudet (OpenLLM France) "L'objectif d'OpenLLM est de faire émerger un modèle open source dans sa conception et dans son utilisation"
Le directeur général de Linagora est à l'initiative de la communauté OpenLLM France qui envisage de développer un grand modèle de langage souverain et open source.
JDN. Comment l'idée d'OpenLLM France a-t-elle germé ?
Michel-Marie Maudet. Il y a trois mois, lorsqu'une prise de conscience a émergé au niveau de la direction générale des entreprises concernant la nécessité d'agir sur le domaine des IA génératives, nous avons été consultés tout comme d'autres sociétés telles Aleia, LightOn et Mistral. Après les annonces du président de la République lors de VivaTech, où il a mentionné qu'il était nécessaire d'avoir des common lyrics en matière d'IA générative, j'ai publié le manifesto du projet. Le sujet de l'IA générative est beaucoup trop important en France pour que nous restions simplement dans une position attentiste. Après l'appel de l'exécutif, nous avons essayé de créer un espace neutre de discussion. L'objectif est d'identifier les forces en présence, tant du côté académique que du côté du secteur privé, de l'industrie ou des start-up. Notre ambition est de faire émerger un modèle de fondation digne de confiance, avec une transparence concernant les données d'apprentissage. Le résultat doit être un modèle open source à la fois dans sa conception et dans sa licence d'utilisation.
Comment la communauté est-elle organisée ?
Ce qui nous unit et fédère, c'est un serveur Discord. Nous sommes aujourd'hui environ 200 participants d'origines diverses, partagés à parts égales entre la recherche publique et le secteur privé. L'initiative a moins de trois semaines.
Actuellement, sur le serveur Discord, nous avons structuré des canaux de discussion par grandes thématiques. Parmi celles-ci, la collecte et la gestion des jeux de données, la structuration du modèle (questionnement sur la taille du modèle, le recours au Federated learning, etc., ndlr), la gestion des ressources matérielles d'apprentissage et l'accès aux GPUs. Nous avons ensuite organisé un meetup inaugural le 28 juin à la Villa Good Tech. Environ 30 personnes ont assisté physiquement à l'événement, tandis que 30 autres ont participé à distance. Nous avons pu rassembler des individus qualifiés, en particulier des personnes en charge des centres de calcul nationaux. Des membres du personnel de la Direction générale des entreprises se sont également présentés, pour discuter des annonces de l'exécutif et des divers appels à projets lancés dans la recherche publique et pour les acteurs industriels. Ces derniers jours, des personnes d' OVH se sont inscrites et sont venues discuter avec nous de leur capacité qu'ils pourraient mettre à notre disposition.
Nous avons également un sujet dédié à l'évaluation de la performance des modèles et à leur mise en service. Et nous travaillons sur un projet de gouvernance globale. Nous sommes actuellement en train de définir les lead et co-lead du projet.
Envisagez-vous de vous appuyer sur un modèle préexistant ou de créer un modèle à partir de zéro ?
Si l'on se base sur un modèle, l'objectif est de capitaliser sur les travaux de Bloom. Rien n'est encore décidé. Aujourd'hui, y compris en ce qui concerne Bloom, ce qui nous questionne, c'est qu'il existe bel et bien des problèmes de droit d'auteur sur les données d'apprentissage. Ainsi, même si nous reprenions le travail à partir de Bloom, nous effectuerions un examen complet de leur ensemble de données. Nous le compléterions ensuite avec un jeu de données que nous sommes en train de consolider, avant d'entamer un nouvel apprentissage. Finalement, ce serait une version enrichie de Bloom que nous utiliserions.
Comment peut-on créer un ensemble de données souverain qui respecte le droit d'auteur ?
Pour l'heure, nous discutons avec les détenteurs des données. J'étais mercredi 5 juillet à l'Assemblée nationale car cette chambre détient tous les discours et tous les échanges dans l'hémicycle depuis 1789, ce qui constitue un bon jeu de données décrivant notre fonctionnement, notre identité, les lois... Depuis les années 1970, une transcription audio est établie, nous avons donc une donnée libre de droits et qualitative de par sa rédaction grammaticale et orthographique. C'est extrêmement riche.
"Nous avons déjà récupéré 8 000 heures d'enregistrements audio, pour réaliser un fine-tuning sur un algorithme existant"
Nous avons également initié une démarche avec le ministère de la Culture et avec l'Ina. Pour l'Ina, c'est beaucoup plus compliqué puisque ce qui tombe dans le domaine public, au-delà des droits, c'est tout ce qui a plus de 70 ans. Ces données ne reflètent pas nos faits de société actuels. Les ensembles de données de l'Assemblée nationale, certains sont déjà en open data. Nous avons déjà récupéré 8 000 heures, pour réaliser un fine-tuning sur un algorithme existant. Aujourd'hui, nous sommes en train de structurer l'apprentissage du modèle de fondation. Pour l'instant, nous prenons des modèles existants que nous essayons de comparer entre eux. Enfin, nous réalisons du fine-tuning sur des données que nous maîtrisons.
Comment prévoyez-vous de rassembler le monde francophone des secteurs public et privé dans ce projet ?
Nous travaillons avec nos amis québécois. Nous allons essayer d'étendre le projet à l'ensemble de la francophonie. Nous avons pris contact de manière informelle avec l'Unesco. Partout où nous allons, avec toutes les personnes que nous rencontrons, nous relayons l'objectif du projet. Aujourd'hui, il y a plusieurs initiatives en cours et nous souhaiterions une coopération globale. Ce n'est pas une question de concurrence ou de moyens, c'est une question de temps. Pour réaliser un modèle de fondation, cela va nous coûter du temps de calcul sur des capacités importantes, entre trois et quatre mois.
"Soit nous parvenons à démarrer une initiative majeure d'ici fin septembre, soit la guerre sera derrière nous"
Par exemple, si LightOn utilise les capacités de Jean Zay (supercalculateur, ndlr) pendant plusieurs mois, pendant ce temps, nous attendons. Le but est de rassembler et de coopérer. Je suis agréablement surpris par l'accueil du projet. Je revois les gens d'Aleia et de LightOn jeudi 13 juillet. Tout le monde est conscient que le nerf de la guerre sera l'accès aux ressources GPU. Nous ne pourrons pas les mobiliser chacun à notre tour. Nous sommes vraiment dans une démarche de coopération. Soit nous parvenons à démarrer une initiative majeure d'ici fin septembre, soit la guerre sera derrière nous.
Quels sont vos plans pour le financement de l'apprentissage et de la maintenance opérationnelle du modèle ?
Si l'on tient compte de l'appel à projet lancé par le gouvernement (environ 40 millions, ndlr), il n'y a pas véritablement de fonds. Les acteurs qui gravitent autour de l'IA en France sont de taille petite ou intermédiaire (à l'exception de Mistral, ndlr). En termes d'estimation, le modèle Bloom coûte environ 800 mille euros pour simplement réaliser le run final. Avec l'ensemble des ajustements, il faut compter entre 1 et 1,5 million pour l'apprentissage, et uniquement pour du langage. Cette problématique budgétaire fait partie de nos discussions. Faut-il mieux développer un modèle de texte directement ou un modèle multimodal ? Concrètement, les moyens distribués par l'Etat ne sont pas suffisants. Actuellement, je tente de structurer le projet avec un acteur économique - comme Mistral - ou un mode de coopération qui nous permettrait de tenir financièrement. Quoi qu'il en soit, nous allons très probablement structurer une société. Nous allons ouvrir le capital, y compris aux organismes de recherche publique. Désormais, des acteurs publics tels que l'Inria ou le CNRS peuvent entrer dans le capital des sociétés.
Comment convaincre les entreprises d'utiliser un modèle d'IA open source alors qu'elles utilisent en majorité des technologies d'IA américaines propriétaires ?
Il y a deux aspects fondamentaux : l'innovation et la régulation. En ce qui concerne les modèles de langage de grande taille, nous sommes déjà dans la phase suivante. Si nous considérons EDF R&D, je doute que cette entreprise veuille mettre sa base de connaissances à la disposition de ChatGPT et d'OpenAI. Nous passerons inévitablement par la case de l'apprentissage fédéré, avec un modèle de base maîtrisé. L'objectif est de disposer de capacités d'ajustement fin afin que les entreprises puissent entraîner leurs propres données dans un environnement maîtrisé et sécurisé. En ce qui concerne la régulation, le Data Act a été adopté. L'IA Act est en cours de rédaction. Ce dernier texte - s'il est voté en l'état - obligera les modèles de langage fonctionnant en Europe à utiliser des données d'apprentissage open source. Mécaniquement, un certain nombre d'acteurs seront exclus. Personnellement, je mise davantage sur l'innovation que sur la régulation. Même s'ils ne sont ni souverains ni dits de confiance, et dès lors qu'ils sont adoptés par le plus grand nombre, les outils d'IA sont utilisés massivement.
Quelles sont les prochaines échéances pour OpenLLM ?
Nous allons très certainement organiser un hackathon sur deux ou trois jours à la rentrée. Pour le moment, nous sommes en train de définir nos spécifications de manière collaborative avec tous les acteurs au sein du serveur Discord, de façon transparente et publique. L'idée du hackathon est de pouvoir matérialiser les différentes étapes sur une feuille de route stratégique et de lancer les travaux en les répartissant. Nous travaillons également à structurer le groupe sous la forme d'une entreprise pour soutenir la poursuite des travaux. On attend également des réponses du côté de Mistral dans le but d'une éventuelle collaboration. Nous envisageons de constituer un consortium pour répondre à l'appel à projet qui a été lancé par la BPI et la DGE sur les IA génératives, avec une approche la plus large possible.
"La grande inconnue de notre côté, c'est Mistral"
Nous nous posons la question d'une coopération. Il y a certainement pas mal de choses que l'on peut mettre en commun, sur les cas d'usage et sur la distribution de l'innovation. Dans les prochaines semaines, j'ai plusieurs réunions très importantes. Je vais prochainement rencontrer la Direction interministérielle du numérique. La grande inconnue de notre côté, c'est Mistral. Je passe par différents canaux pour avoir un échange avec l'équipe fondatrice pour savoir exactement ce qu'ils veulent faire. Qu'est-ce qu'ils appellent un modèle open source ? Nous essayons de voir si on peut coopérer avec eux. L'idée c'est d'être dans un domaine de coopération et d'élargissement de cette communauté. Le but n'est pas de refaire deux fois le même travail. Nous n'en avons ni les moyens, ni le temps.