Tous les articles
Plateformes··12 min de lecture

Choisir son LLM en 2026 — Claude, Gemini, Mistral, OpenAI par cas d'usage

Ne choisissez pas sur les benchmarks. Choisissez par cas d'usage. Voici l'arbre de décision que nous appliquons à chaque nouveau produit IA, avec le modèle que nous livrons réellement pour chaque tâche.

Ikki
Dernière vérification · 9 mai 2026
Choisir son LLM en 2026 — Claude, Gemini, Mistral, OpenAI par cas d'usage

Pourquoi les benchmarks mentent

Prenez n'importe quel classement. Les trois modèles du haut sont à moins d'un point d'écart en score agrégé. Prenez une vraie tâche en production — un classifieur de routage, un pipeline OCR, un chatbot ops, un agent long-terme — et la différence entre eux sur votre tâche peut atteindre 30 %.

Les benchmarks agrégés mesurent une compétence agrégée. Ils ne mesurent pas le coût par décision, la latence au 95e centile, la fiabilité des sorties structurées sous charge, les cas limites multilingues ou la précision des tâches vision sur des inputs réels bruités. Ce sont ces dimensions qui décident si un modèle convient à votre produit.

Sur les produits IA que nous avons livrés, nous ne choisissons jamais un seul modèle. Nous routons par cas d'usage. Les différentes couches d'un même produit tournent sur des fournisseurs différents, parce que chaque fournisseur excelle sur un axe précis. Cet article présente l'arbre de décision qui a survécu à la production.

La shortlist en 2026

Six familles réalistes pour la production aujourd'hui :

  • Anthropic Claude — Opus 4.7, Sonnet 4.6, Haiku 4.5
  • Google Gemini — 3 Pro, Flash, Nano
  • OpenAI GPT — famille 4o, le raisonnement allégé o4-mini
  • Mistral — Large, Medium, Small, plus Pixtral (vision) et Voxtral (STT)
  • Meta Llama 3 / 4 — pour les déploiements auto-hébergés
  • Fournisseurs spécialisés — Voyage (embeddings), Cohere (reranking), Deepgram (STT), Whisper (STT)

Cet article se concentre sur les quatre premiers ; les autres apparaissent dans des contextes précis (conformité auto-hébergée, pipelines de retrieval).

Les cas d'usage qui comptent pour les produits IA

Sur notre portefeuille, les tâches récurrentes de la couche LLM se réduisent à une dizaine de formes distinctes. Chaque forme a un gagnant différent.

1. Chat orienté utilisateur (le ton compte, la latence compte, les erreurs sont visibles)

Par défaut : Claude Sonnet 4.6.

Le ton de Sonnet est le plus naturel en production pour le français et l'anglais, avec un registre par défaut qui n'est ni trop enjoué ni trop rigide. La fiabilité des appels d'outils est élevée. Le forced tool calling (tool_choice: { type: 'any' }) fonctionne de façon robuste, ce qui est décisif pour le pattern de forced tool calling que nous appliquons sur les agents à forts enjeux.

Gemini Pro a beaucoup progressé en 2026 ; le ton est plus proche qu'avant. C'est la bonne alternative quand la longueur de contexte prime sur le ton (documents longs dans le prompt système) ou quand vous êtes déjà sur Google Cloud et souhaitez consolider la facture.

GPT-4o convient pour le chat en anglais uniquement. Pour le français, le français canadien ou d'autres langues européennes, Claude s'impose sur le registre de façon constante.

2. Routage / classification (la vitesse compte, le coût compte, la précision prime)

Par défaut : Claude Haiku 4.5.

Haiku à 0,80 $/4 $ par Mtok est le modèle le plus rapide qui comprend encore les nuances. Nous l'utilisons pour :

  • Les vérifications de sélection d'outils (le re-check de sécurité dans le pipeline de forced-tool)
  • La classification spam / abus sur les inputs utilisateur
  • La détection d'intention sur les messages entrants
  • La détection du type de document

Pour une classification purement structurelle (oui/non binaire, choisir parmi cinq), Mistral Small est compétitif et moins cher. Nous privilégions Haiku quand la classification comporte de la nuance ("ce message contient-il un signal actionnable que le classifieur précédent a supprimé ?") et Mistral Small quand c'est une tâche d'étiquetage propre.

3. Analytique batch sur de longs inputs (la taille de contexte compte, le coût compte à volume)

Par défaut : Gemini 3 Pro.

La fenêtre de contexte de Gemini (plus d'1 million de tokens au moment d'écrire ces lignes) et son tarif batch en font la bonne réponse quand vous traitez un document à la fois mais que le document est long. Exemples : analyser un corpus d'appels d'offres de 200 pages, résumer un trimestre d'enregistrements, extraire des données structurées de contrats.

Le paramètre thinking_level de Gemini permet d'arbitrer explicitement entre latence et précision. Sur les jobs batch où le temps réel n'est pas contraint, thinking_level: 'high' vaut vraiment l'attente supplémentaire pour les tâches d'analyse qui bénéficient d'un raisonnement plus long.

Claude Opus est l'alternative quand l'analyse doit raisonner sur de nombreuses sources simultanément ; son chaînage de raisonnement multi-documents est parfois plus fiable. Le coût est plus élevé — réservez-le aux batches à forts enjeux.

4. OCR et extraction de structure documentaire (PDF → champs structurés)

Par défaut : Mistral Pixtral (batch) pour le coût ; Gemini Pro media_resolution: high pour la précision.

Les PDFs réels sont désordonnés : scannés, multi-colonnes, notes de bas de page intégrées dans des tableaux, mélange français/anglais. Pixtral gère bien les PDFs réglementaires français à un prix difficile à battre pour le traitement batch. Gemini Pro à media_resolution: high est plus précis sur les cas limites mais coûte plus par page.

N'utilisez pas un appel vision GPT-4o généraliste comme première option OCR en 2026 — ça marche, mais le coût par page est matériellement plus élevé que les modèles dédiés à la forme OCR pour la même précision.

5. Speech-to-text (STT) — agents vocaux, ingestion de transcriptions

Par défaut : ElevenLabs (quand intégré à leur agent vocal) ou Mistral Voxtral (batch standalone).

Pour le STT conversationnel en temps réel, la plateforme vocale utilisée (ElevenLabs Conversational AI, Vapi, Retell) gère le STT à l'intérieur de son pipeline — voir notre comparatif des plateformes vocales.

Pour la transcription batch (analyse post-appel, ingestion de webinaires enregistrés, traitement asynchrone de transcriptions), Voxtral est le meilleur STT français/anglais que nous ayons benchmarké à ce niveau de prix. Whisper-large-v3 auto-hébergé est compétitif sur la précision, mais la facture GPU en fait un moins bon choix pour les PME sauf si vous faites déjà tourner des GPUs.

6. Extraction de données structurées depuis du texte (transcriptions → JSON)

Par défaut : Claude Sonnet 4.6 avec forced tool calling, ou Gemini avec structured output mode.

Les deux gèrent ça bien. Claude avec tool_choice: { type: 'tool', name: 'extract' } et un schéma JSON strict produit quasi zéro violation de schéma. Le response_mime_type: 'application/json' de Gemini combiné à response_schema donne le même résultat.

Choisissez en fonction de ce que fait le reste de votre pipeline. Nous privilégions Claude quand l'extraction s'inscrit dans une chaîne qui utilise déjà Claude ; Gemini quand nous sommes déjà sur Google pour l'étape d'analyse. Évitez de mélanger les fournisseurs pour une même opération si possible — les bénéfices du cache ne se transfèrent pas d'un fournisseur à l'autre.

7. Génération de code (assister les humains, pas écrire du code produit)

Par défaut : Claude Opus 4.7 ou Sonnet 4.6 dans l'IDE.

La qualité de code de Claude en 2026 est la plus constante sur les langages et frameworks (TypeScript, Python, Go, Rust, Vue, React). Pour les cas d'usage de pair programming — corriger ce bug, refactoriser cette fonction, scaffolder ce composant — Claude l'emporte sur la précision et le suivi des instructions.

GPT-4o est compétitif, notamment sur les notebooks Python data science. Gemini a rattrapé son retard mais reste en dessous sur les patterns TypeScript / Vue idiomatiques.

Le cadrage compte : nous ne livrons pas de code généré par un LLM en production sans supervision. Le LLM est un pair programmer ; l'humain est l'intégrateur et le reviewer.

8. Agents autonomes long-terme (plans multi-étapes, appels d'outils sur plusieurs heures)

Par défaut : Claude Opus 4.7 via claude-agent-sdk avec MCP.

Quand l'agent doit planifier, exécuter des étapes, observer les résultats et s'adapter sur de nombreux tours — Opus + le claude-agent-sdk est la stack la plus fiable que nous ayons livrée. Le SDK gère la boucle d'outils, MCP vous offre un moyen propre d'exposer des serveurs comme outils, et Opus est le seul modèle Anthropic dont l'auto-correction converge de façon fiable sur des tâches complexes sur 20+ étapes.

Sonnet fonctionne pour les chaînes plus courtes (2–6 étapes). Au-delà, Opus se rentabilise par un nombre moindre de runs gaspillés.

LangGraph comme orchestrateur : nous ne l'utilisons pas en production aujourd'hui. Le pattern forced-tool-calling + claude-agent-sdk couvre nos cas d'usage avec une complexité moindre.

9. Embeddings sémantiques (RAG, recherche par similarité)

Par défaut : OpenAI text-embedding-3-small pour l'anglais ou le mixte ; Mistral mistral-embed pour les contenus majoritairement en français.

text-embedding-3-small offre un excellent rapport qualité-prix. text-embedding-3-large est sensiblement meilleur uniquement pour des tâches multilingues de niche ou des domaines spécifiques. La famille voyage-3 est une alternative solide, notamment si vous utilisez déjà le reranker de Voyage.

N'auto-hébergez pas BGE-M3 à moins d'avoir une obligation de confidentialité ou des millions de QPS. Le rapport prix-performance des offres managées est difficile à battre.

10. Reranking (post-retrieval)

Par défaut : ne rerankez pas en dessous de 50 candidats.

Si vous avez besoin de reranker : un petit appel "juge" (Haiku, gpt-4o-mini) pour les scénarios à faible volume, ou le reranker de Cohere pour la production haute throughput avec des budgets de latence.

Nous avons traité la logique de seuil dans notre guide d'implémentation RAG.

La matrice de décision

Une version condensée de ce qui précède — le modèle que nous choisirions en premier pour chaque tâche en 2026 :

TâcheModèle par défautPourquoi
Chat orienté utilisateurClaude Sonnet 4.6Meilleur registre, appels d'outils, multilingue
Routage forced-toolClaude Sonnet 4.6Comportement tool_choice: any fiable
Classifieur économiqueClaude Haiku 4.5Équilibre vitesse + nuance
Classification binaire pureMistral SmallLe moins cher avec une qualité suffisante
Analyse de documents longsGemini 3 ProContexte 1M + niveaux de thinking
Raisonnement multi-sourcesClaude Opus 4.7Fiabilité du chaînage de raisonnement
OCR (batch)Mistral PixtralMeilleur €/page en 2026
OCR (critique sur la précision)Gemini Pro media_resolution: highPlafond de précision
STT (voix temps réel)ElevenLabs / Vapi interneIntégré à la plateforme vocale
STT (batch)Mistral VoxtralQualité FR + coût
Extraction structuréeClaude Sonnet 4.6Conformité au schéma
Assistance codeClaude Opus / SonnetIdiomatique sur toutes les stacks
Agent long-termeClaude Opus 4.7 + agent-sdkAuto-correction sur 20+ tours
Embeddings (général)OpenAI 3-smallMeilleur rapport qualité-prix
Embeddings (FR majoritaire)Mistral embedQualité FR
Reranker (au-dessus de 50 candidats)CohereThroughput + latence

Le pattern de fallback chain

En production, chaque appel LLM est encapsulé dans une fallback chain déclarative. Chaque point d'appel déclare : modèle primaire, modèle secondaire, comportement en cas d'échec.

const result = await llm.completion({
  task: 'classify_intent',
  primary: 'claude-haiku-4-5',
  fallback: 'gpt-4o-mini',
  on_fallback: 'log_and_continue',
  input,
})

Trois raisons pour lesquelles ça compte :

  • Les pannes fournisseur arrivent. Anthropic et OpenAI ont tous les deux connu des pannes partielles en 2026. Un fallback transforme "l'agent est hors service deux heures" en "l'agent tourne à 95 % de précision deux heures".
  • Les rate limits. Quand vous atteignez le plafond par minute d'Anthropic, le fallback absorbe le pic.
  • A/B testing entre fournisseurs. Quand vous voulez comparer Gemini et Claude sur une tâche, la fallback chain devient le harnais d'expérimentation.

Notre abstraction interne est légère (~150 LOC) et vit dans un package partagé. La fallback chain émet un événement model_used pour que le dashboard suive la part des appels sur le primaire vs le fallback. Si le taux de fallback dépasse ~5 %, le primaire nécessite une investigation.

Coût par tâche — ordres de grandeur

Pour la planification de budget en 2026 (soumis à évolution) :

TâcheCoût par appel (centimes USD)
Classification de routage Haiku0,01–0,05
Chat utilisateur Sonnet (avec cache)0,5–1,5
Chat utilisateur Sonnet (sans cache)2–6
Étape d'agent long-terme Opus5–20
Analyse long-doc Gemini (thinking élevé)10–60
OCR Pixtral (par page)0,2–1
Embedding OpenAI (par chunk de texte)<0,001

Multipliez par votre volume projeté pour estimer la facture. La plus grosse erreur que nous voyons dans les prévisionnels de coût : oublier d'inclure les coûts en tokens d'entrée du prompt système, des outils et du contexte, et ne compter que la sortie. Avec le cache, ça s'approche de la réalité ; sans cache, vous serez décalé d'un facteur 3 à 10.

La question du budget de thinking

Plusieurs modèles 2026 exposent des budgets de thinking explicites : Anthropic via thinking: { type: 'enabled', budget_tokens: N }, Gemini via thinking_level, OpenAI via la famille o4. Le compromis est cohérent entre fournisseurs : plus de thinking → meilleure précision sur les problèmes difficiles, latence bien plus élevée, coût plus élevé.

Règles empiriques qui ont survécu à la production :

  • Chat orienté utilisateur : thinking désactivé. Le budget de latence est trop serré ; la différence de qualité est rarement perceptible.
  • Analytique batch : thinking activé, élevé. Le temps réel n'est pas visible par l'utilisateur, le gain de précision se cumule sur l'ensemble des données.
  • Agents long-terme : thinking activé, moyen. L'agent est déjà lent par tour ; le budget de thinking se rentabilise en moins d'étapes gaspillées.
  • Forced tool calling : thinking désactivé. La sortie structurée fait que le thinking ajoute du coût sans changer l'outil sélectionné.

Quand utiliser le multi-modèle en production

La plupart de nos produits font tourner deux à quatre modèles simultanément en production :

  • Un pour le chat orienté utilisateur
  • Un plus petit pour la couche de re-check de sécurité / classifieur
  • Un spécialiste pour l'OCR ou la vision le cas échéant
  • Un pour les embeddings si le RAG est dans la boucle

C'est normal en 2026 et pas une optimisation de coût dont il faudrait avoir honte. Le lock-in chez un seul fournisseur coûte plus cher que la coordination multi-fournisseurs, et le meilleur fournisseur sur chaque axe est rarement le même.

La taxe de complexité : chaque fournisseur a son propre SDK, son modèle d'erreur, ses rate limits, sa facturation et ses règles de cache. Encapsulez chacun dans une abstraction légère pour que les points d'appel n'aient pas à s'en préoccuper. Le wrapper représente ~200 lignes par fournisseur et se rentabilise dès le premier swap.

Quand choisir un seul modèle et arrêter d'optimiser

Pour les prototypes et MVP en dessous de 1 000 appels quotidiens, choisissez ce que vous utilisez déjà et livrez. Le coût de tourner sur un modèle légèrement sous-optimal deux semaines est bien inférieur au coût de pré-optimiser la sélection de modèle sur une fonctionnalité sur laquelle vous pourriez pivoter.

Pour les projets personnels et demos, defaultez sur Claude Sonnet 4.6 sauf raison précise. Il est suffisamment bon sur presque tout, le SDK est le plus propre, et votre volume ne justifie pas de s'inquiéter des coûts.

L'arbre de décision ci-dessus entre en jeu quand vous livrez des systèmes de production où l'écart de coût, de latence ou de précision se cumule. En dessous de cette échelle, choisissez-en un et avancez.

Pour conclure

La bonne réponse en 2026 n'est pas un modèle — c'est une stratégie de routage. Des tâches différentes méritent des fournisseurs différents, et les couches d'abstraction entre eux sont courtes. Nous réévaluons la matrice ci-dessus chaque trimestre ; certaines entrées bougent, d'autres non.

Si vous démarrez un projet et ne savez pas quel fournisseur mettre sur quelle tâche, contactez-nous. Un appel de découverte de 15 minutes, nous écoutons, puis nous vous orientons vers le modèle qui a remporté le dernier benchmark que nous avons fait sur votre type de problème.


Travailler avec Ikki

Pas sûr de quel LLM choisir ?

Envoyez-nous vos 3 cas d'usage principaux. Nous attribuons à chacun le bon modèle avec projection de coût et chemin de migration.

Autres articles

SHIP LOG

SHIP-0247·CODEMACHIA·v1.4.22026-06-12 14:22 UTC