Gemini 1.5 Pro, 1.0 Ultra… Quel modèle Google choisir ?
Présenté en décembre 2023, la nouvelle famille de LLM made in Google évolue rapidement. Contexte, modalité, vitesse… Le JDN vous aide à y voir plus clair.
Comment se repérer dans la jungle des modèles Gemini ? Depuis la publication du premier modèle Gemini, Google a rapidement fait évoluer sa gamme. Le géant de Mountain View entend devenir leader du marché sur MLLM, ces nouveaux modèles capables de comprendre une flopée de modalités (vidéo, son, image…). A l'heure actuelle, quatre versions différentes de Gemini sont proposées au public : Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 1.0 Pro et Gemini 1.0 Pro Vision.
Pour donner un peu plus de sens à ce naming complexe, et comprendre quel est LE modèle adapté à vos besoins, voici un petit guide pour vous aider à faire votre choix. Vous devriez y trouver le modèle qui correspond le mieux à vos attentes en termes de performances, de vitesse et de cas d'usage.
Modèle | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|---|
Code | X | X | ||
Tâches complexes | X | X | ||
Tokens de contexte | 1 million | 1 million ou 2 millions sur liste d'attente | 32 000 | 12 288 |
Modalité (input) | Texte, image, vidéo, audio | Texte, image, vidéo, audio | Texte | Texte et image |
Latence | Faible | Modérée | Importante | Importante |
Support du JSON | X | X | ||
Dernière MAJ | avril-24 | avril-24 | février-24 | NC |
Disponibilité sur GCP | Preview | Preview | Publique | Publique |
Nous avons délibérément choisi de ne pas inclure Gemini 1.0 Ultra, maintenant déprécié et non disponible dans Vertex AI. De même Gemini Nano n'est disponible que pour certains clients de Google Cloud pour une utilisation exclusivement on-premise (sur mobile). La famille Google Gemma open source fera quant-à-elle l'objet d'un prochain comparatif.
Un pricing pour le moins complexe
Qui dit multimodalité dit pricing compliqué. Les MLLM de Google sont facturés au token et selon la nature de l'input adressé au modèle. A noter également que Google, pour complexifier un peu plus, propose une tarification supérieure pour les inputs dépassant les 128 000 tokens.
Modèle | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro |
Gemini 1.0 Pro Vision |
---|---|---|---|---|
Tarif texte (input) | 0,000125 $ | 0,00125 $ | 0,000125 $ | 0,000125 $ |
Tarif texte (ouput de 1 000 caractères) | 0,000375 $ | 0,00375 $ | 0,000375 $ | 0,000375 $ |
Tarif image (input par image) | 0,0001315 $ | 0,001315 $ | NP | 0,0025 $ |
Tarif vidéo (input par seconde) | 0,0001315 $ | 0,001315 $ | NP | NP |
Tarif audio (input par seconde) | 0,0000125 $ | 0,000125 $ | NP | NP |
Modèle | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
Tarif texte (input de 1 000 caractères) | 0,00025 $ | 0,0025 $ |
Tarif texte (ouput de 1 000 caractères) | 0,00075 $ | 0,0075 $ |
Tarif image (input par image) | 0,000263 $ | 0,00263 $ |
Tarif vidéo (input par seconde) | 0,000263 $ | 0,00263 $ |
Tarif audio (input par seconde) | 0,000025 $ | 0,00025 $ |
La clé : arbitrer entre performance et coût
Google propose désormais une gamme complète de modèles de langage multimodaux Gemini, adaptés à différents besoins et cas d'usage. Les versions 1.5, plus récentes, offrent les meilleures performances en termes de compréhension multimodale (texte, image, vidéo, audio) et de capacité de contexte, avec un avantage en rapidité pour la déclinaison "Flash". Les modèles 1.0 restent pertinents pour des applications plus basiques ne nécessitant que du texte en entrée, avec éventuellement des images pour la version "Vision". Le pricing, bien que complexe, s'avère globalement proportionnel aux capacités de chaque modèle.
Pour choisir la bonne version de Gemini, il faut donc bien analyser ses besoins en termes de modalités traitées, de taille de contexte, de temps de réponse souhaité et de budget. Un arbitrage est nécessaire entre performance et coût.