Modèle open source ou propriétaire : quelle stratégie d'IA adopter pour ses projets ?
Coût, confidentialité, performance... Le choix entre un modèle source ou propriétaire nécessite de définir avec clarté les objectifs et les contraintes inhérentes à son projet.
Libre ou propriétaire ? Mixtral, Llama, Zephyr... Les grands modèles de langage open source tendent à rattraper l'écart de performances des modèles propriétaires traditionnels (GPT-4, Claude 2...). Pour les entreprises, le choix peut s'avérer complexe. Il existe toutefois des grandes lignes qui peuvent orienter en amont le choix du modèle.
Quel besoin de performance ?
La décision finale dépendra en très grande partie de la nature du cas d'usage. Certains projets d'IA générative exigent des performances qu'actuellement seuls les modèles propriétaires peuvent apporter. "Tout dépend de la complexité et de la finesse des analyses que le modèle doit effectuer. Par exemple, pour la documentation technique d'entreprises, si les raisonnements sont très complexes, un modèle fermé et propriétaire comme GPT-4 sera peut-être plus performant. Typiquement, pour les cas d'usage les plus complexes, comme une analyse de contrat, nous avons besoin d'un modèle très performant", argumente Nicolas Gaudemet, chief AI officer chez Onepoint.
Quelle base de connaissances ?
Pour des cas d'usages ayant recours au RAG (retrieval augmented generation), où le modèle appuie ses réponses sur une base documentaire, les performances se dégradent rapidement sur les très longs corpus. Il peut alors être nécessaire d'opter pour un modèle open source fine-tuné. "La limite que nous avons constatée concrètement, chez nos clients comme en interne dans l'utilisation que nous en faisons, est que ces modèles ne peuvent traiter efficacement que des documents de 160 pages au maximum. Au-delà, nous observons des pertes d'informations et de précision. Certaines parades existent, comme la personnalisation des embeddings (représentations vectorielles des mots, ndlr), qui repoussent un peu cette limite, mais celle-ci reste de l'ordre de 200 pages au maximum dans les faits", analyse Didier Gaultier, head of AI au sein d'Orange Business.
Une fois cette limite atteinte, il devient préférable de scinder sa base documentaire, selon les cas d'usage. "Si nous prenons l'exemple de cas d'usage en ressources humaines, marketing et juridique, cela représente trois usages distincts et nécessite donc la création de trois bases documentaires séparées", illustre l'expert. S'il est tout de même nécessaire de dépasser les 300 pages de documentation pour un cas d'usage spécifique, il est recommandé de passer directement sur un fine-tuning, avec des modèles open source.
Quel volume d'utilisation pour quel coût ?
Un autre aspect à considérer réside dans la phase de mise en place du projet. Pour des outils en phase d'expérimentation (proof of concept, MVP, Pilote...), avec peu d'appels aux modèles, "j'ai plutôt intérêt à prendre un modèle que je vais payer au token. C'est le cas de tous les modèles fermés", analyse Nicolas Gaudemet. Pour les développeurs la mise en place est beaucoup plus simple et permet d'avancer rapidement. Il est également possible, depuis peu, de passer sur des modèles open source via des APIs. C'est le cas des modèles développés par Mistral ou LightOn notamment en France.
Pour des projets qui passent en production, la réflexion est toute autre. Si l'outil développé génère un flux de requêtes important, les couts peuvent rapidement exploser avec un modèle propriétaire. "Si nous avons plusieurs milliers d'employés effectuant une dizaine de requêtes par jour sur un même cas d'usage, il devient alors pertinent d'opter pour un modèle open source où seul le coût fixe d'hébergement est facturé, et non le volume de requêtes. Au-delà d'un certain seuil d'utilisation, le passage à une solution open source dont on maîtrise les coûts d'infrastructure présente ainsi un intérêt économique certain par rapport à des modèles propriétaires facturant à la requête", estime le spécialiste en IA de Onepoint.
L'important est de réaliser avec précision le calcul pour être certain de la rentabilité économique d'une solution open source. Utiliser un modèle open source exige des ressources matérielles conséquentes. "Aujourd'hui, vous êtes obligés d'avoir au minimum deux H100 (GPU Nvidia, NDL.) par modèle, voire trois avec du Rag. Cela représente un investissement d'environ 300 000 euros une fois intégré de façon optimale (rack dédié avec capacités GPU, RAM et stockage adéquates). Un tel déploiement permet certes de servir les besoins de plusieurs centaines d'utilisateurs, mais nécessite un investissement initial conséquent en infrastructure", prévient Didier Gaultier.
Quelle latence ?
Le choix du modèle peut également impacter, plus ou moins, significativement le temps de réponse du programme. "En termes de rapidité d'exécution, les modèles open source sont actuellement les plus performants. Grâce aux efforts conséquents réalisés pour optimiser la compacité de ces modèles, leur poids réduit permet une inférence très rapide. Leur latence est ainsi imbattable en comparaison des modèles propriétaires", argue Nicolas Gaudemet.
Pour les cas d'usage nécessitant la génération de texte en français, mieux vaut éviter les modèles ouverts de petites tailles. "On considérera par exemple les modèles 8x7B de Mistral ou 70B de Meta. D'autant plus que nous sommes en France et avons besoin de modèles parlant correctement français, ce qui n'est pas le cas des petits modèles comme le Mistral 7B ou le Llama 2 7B. L'open source se justifie avec des modèles suffisamment grands pour gérer la complexité de la langue française", note l'expert d'Orange Business.
Open source ou propriétaire, l'important est de calibrer avec précision l'ensemble des variables susmentionnées sur la durée. La mise en place d'une stratégie d'IA générative exige une grande préparation et un suivi rigoureux. Il convient de réaliser des tests réguliers pour évaluer la pertinence, la qualité, l'efficacité et la fiabilité des modèles choisis, et de les ajuster ou les remplacer si besoin.