En 2022, faire tourner un LLM en local relevait du bricolage pour chercheurs. En 2026, c'est devenu une option crédible, parfois préférable, à OpenAI ou Anthropic pour une entreprise. Les raisons s'empilent : souveraineté des données, prévisibilité des coûts, compatibilité avec l'AI Act, indépendance vis-à-vis d'un fournisseur unique.
Le problème : le paysage est devenu riche au point d'être confusément abondant. Mistral, Llama, Qwen, DeepSeek, Gemma, Phi. Chaque famille publie plusieurs tailles, plusieurs variants (généraliste, code, raisonnement, multimodal), plusieurs licences. Un DSI qui regarde ça pour la première fois perd souvent deux mois à trier.
Ce guide donne les repères pour trancher vite. Pas un benchmark absolu (les scores bougent tous les trimestres, nous en parlerons), mais un cadre d'analyse stable. À la fin, on explique comment on procède chez GettIA pour installer le bon LLM local chez nos clients.
Le paysage en un coup d'œil
| Famille | Origine | Licence typique | Forces clés | À surveiller |
|---|---|---|---|---|
| Mistral | 🇫🇷 France | Apache 2.0 (la plupart) | Français natif, AI Act friendly, écosystème européen | Modèles phares fermés (Large, Medium) |
| Llama | 🇺🇸 Meta | Llama Community License | Écosystème mature, tooling massif, multilingue | Licence restrictive au-delà de 700M MAU |
| Qwen | 🇨🇳 Alibaba | Apache 2.0 (la plupart) | Versatilité, très bons benchmarks, multilingue fort | Origine chinoise, question géopolitique selon le secteur |
| DeepSeek | 🇨🇳 DeepSeek | MIT (weights) | Raisonnement top-tier, excellent coût/performance | Même question géopolitique que Qwen |
| Gemma | Gemma Terms | Multilingue, variantes edge (2B, 4B), multimodal | Licence avec clauses d'usage | |
| Phi | 🇺🇸 Microsoft | MIT | Petits modèles très efficaces pour leur taille | Majoritairement anglophone |
Ce tableau résume la toile de fond. Maintenant détaillons par famille ce qui compte vraiment pour une décision d'entreprise.
Mistral : le choix naturel pour un contexte français
Mistral AI est la référence européenne, et ça pèse bien au-delà du marketing. La plupart de leurs modèles (Mistral 7B, Mistral Small, les Mixtral historiques, Codestral pour le code, Ministral pour l'edge) sont publiés en Apache 2.0, licence ultra-permissive qui convient à tout usage commercial sans clause cachée.
Ce qu'on utilise en pratique :
- Mistral 7B Instruct et Ministral pour l'edge (laptops, postes utilisateurs) en Q4_K_M. VRAM ~5 Go, fait tourner un chatbot FR correctement sur un portable moderne.
- Mistral Small (≈24B) en Q4_K_M pour un serveur d'entreprise avec GPU milieu de gamme. ~15-17 Go VRAM. Bonne précision FR et raisonnement pour un prompt structuré de résumé ou d'analyse.
- Codestral pour les use cases code (complétion, documentation, revue).
À surveiller : Mistral a monté en gamme avec des modèles fermés (Mistral Large, Mistral Medium) commercialisés via leur API. Ces versions-là ne sont pas téléchargeables et nécessitent un contrat commercial avec Mistral. Donc si votre brief dit « 100% on-premise, rien chez un tiers », restez sur les versions open-weight.
Pourquoi on aime pour nos clients FR : Mistral est entraîné avec une proportion significative de français, ce qui se ressent sur la qualité des résumés, l'orthographe, la formulation administrative. Et l'AI Act considère favorablement les modèles publiés par des acteurs EU.
Llama : l'écosystème mature, avec un astérisque licence
Meta publie les modèles Llama sous une licence communautaire qui autorise l'usage commercial sauf si votre entreprise dépasse 700 millions d'utilisateurs actifs mensuels (disons : sauf si vous êtes Meta ou quatre de leurs concurrents directs). Pour 99,9 % des entreprises, c'est donc utilisable sans friction.
Ce qu'on utilise en pratique :
- Llama 3.3 70B Instruct en Q4_K_M (~45 Go VRAM) : notre go-to pour un serveur avec GPU data center (A100 80GB, H100, L40S). Qualité de raisonnement comparable à GPT-4o 2024 sur la majorité des use cases.
- Llama 3.1 8B Instruct en Q4_K_M : la version légère pour déploiements edge ou multi-utilisateurs parallèles.
- Llama 3.2 11B Vision pour les use cases multimodaux (extraction d'infos depuis documents scannés, audit d'images).
Points forts : écosystème tooling massif (llama.cpp, vLLM, MLX, Ollama, LM Studio…), quantifications disponibles dans tous les formats, communauté active pour le fine-tuning.
Points d'attention : les modèles Llama sont multilingues mais biaisés anglais dans l'entraînement. Sur du français métier pointu, vous verrez parfois des tournures moins naturelles qu'un Mistral. À tester sur vos propres données avant d'arbitrer.
Qwen : le dark horse qui rivalise sur les benchmarks
Alibaba a poussé Qwen (en particulier Qwen 2.5 et les versions récentes Qwen 3) à un niveau où ils contestent souvent Llama et Mistral sur les leaderboards publics. Et avec une licence Apache 2.0 pour la plupart des variants, c'est un choix commercial propre.
Ce qu'on utilise en pratique :
- Qwen 2.5 14B et Qwen 2.5 32B Instruct : très bon compromis taille/perf pour un serveur PME.
- Qwen 2.5 72B Instruct : équivalent Llama 3.3 70B, parfois meilleur sur les benchmarks raisonnement et math.
- Qwen 2.5-Coder : spécialisé code, très compétitif face à Codestral.
La question géopolitique : Qwen est développé par Alibaba, entreprise chinoise. Pour l'immense majorité des entreprises privées, ça ne change rien (les poids sont open-weight et tournent 100% sur votre infra, il n'y a ni télémétrie ni dépendance serveur). Mais pour un client de la défense, du nucléaire, de la sécurité nationale ou dans les administrations publiques souveraines, la provenance chinoise peut être un point bloquant en revue de sécurité. À arbitrer en amont avec le RSSI.
Le multilingue est un vrai point fort : Qwen est explicitement entraîné multilingue avec un effort sur les langues européennes. Sur des jeux de tests français, il se tient très honorablement.
DeepSeek : le spécialiste du raisonnement à petit prix
DeepSeek (entreprise chinoise) a secoué le marché début 2025 avec DeepSeek V3 (architecture MoE, 671B paramètres totaux, 37B actifs) et surtout DeepSeek R1, un modèle de raisonnement entraîné à coût très réduit qui rivalise avec les modèles de raisonnement OpenAI (o1, o3) sur plusieurs benchmarks.
Les poids sont publiés en licence MIT, ultra-permissive.
Ce qu'on utilise en pratique :
- DeepSeek R1 (ou ses distillations plus petites) quand le client a un use case de raisonnement pointu : analyse de contrats, résolution de problèmes complexes multi-étapes, planification.
- DeepSeek V3 pour les chatbots généralistes qualité GPT-4o sur une infra assez costaude (MoE nécessite beaucoup de VRAM même si les actives sont limitées).
Points forts : rapport qualité/coût d'inférence imbattable sur les use cases raisonnement. La recherche DeepSeek est très prolifique.
Points d'attention : mêmes questions géopolitiques que Qwen sur la provenance. Et l'architecture MoE demande beaucoup plus de VRAM totale que son équivalent dense (il faut charger tous les experts, même si l'inférence n'en active qu'une partie).
Les outsiders qui comptent : Gemma et Phi
Gemma 2 et Gemma 3 (Google) sont publiés en petites tailles (2B, 9B, 27B pour Gemma 2 ; 1B, 4B, 12B, 27B pour Gemma 3 avec des variantes multimodales). La licence Gemma impose quelques conditions d'usage (usages interdits listés) qu'il faut passer en revue avec votre juridique, mais qui n'empêchent pas l'usage commercial standard.
Phi-4 (Microsoft, ~14B paramètres) est un petit modèle remarquablement efficace pour sa taille, avec licence MIT. Excellente option quand le hardware est contraint et que l'usage est principalement anglophone.
Pour les deux, on les retient surtout quand le use case impose des modèles très petits (edge, IoT, laptops moyens) ou quand la contrainte RAM est forte.
Les vrais critères de décision (pas les benchmarks)
Les leaderboards type OpenLLM / Artificial Analysis / LMSYS bougent chaque mois. Suivre une course aux benchmarks est une perte de temps en entreprise. Ce qui décide vraiment :
1. Licence compatible avec votre usage
- Apache 2.0 / MIT : le top, aucune restriction commerciale. Mistral (variantes open), Qwen, DeepSeek, Phi.
- Llama Community License : OK sauf si vous êtes un géant du tech (>700M MAU).
- Gemma Terms : OK avec revue juridique légère.
- Modèles "weights closed" ou API only : exclus d'emblée pour un projet vraiment on-premise.
2. Capacité en français (si c'est la langue principale)
Sur les tests qu'on fait systématiquement côté GettIA (résumé de réunions, rédaction administrative, analyse de contrats FR), l'ordre de préférence est grosso modo :
- Mistral Small / Mistral 7B : vocabulaire et tournures les plus naturelles
- Qwen 2.5 : très bon, parfois des tournures un peu plus rigides
- Llama 3.3 : correct mais avec quelques anglicismes non souhaités
- DeepSeek V3 : correct, surtout bon en raisonnement quelle que soit la langue
- Gemma 3 : acceptable mais pas son terrain principal
- Phi-4 : à éviter pour du français métier
3. Hardware disponible (et son coût)
Un arbre de décision rapide :
- Laptop utilisateur (CPU moderne, pas de GPU dédié) → 3B à 8B en Q4_K_M (Mistral 7B, Llama 3.1 8B, Ministral, Phi-4-mini)
- Poste pro avec GPU consumer (RTX 4090, ~24 Go VRAM) → 14B à 24B en Q4_K_M (Mistral Small, Qwen 14B, Gemma 27B sur edge)
- Serveur avec 1× H100 ou équivalent (80 Go) → 70B-72B en Q4_K_M (Llama 3.3 70B, Qwen 72B)
- Cluster multi-GPU (2× H100 / B200) → modèles MoE (DeepSeek V3, Qwen 3 235B)
En 2026, louer du H100 chez un hébergeur souverain français (Scaleway, OVHcloud, Outscale) coûte entre 2 et 4 €/h selon l'engagement. À l'achat, un H100 80 Go tourne autour de 25-30 k€. Un B200 (Blackwell) est nettement plus coûteux mais démultiplie le throughput.
4. Use case spécifique
- Chatbot généraliste interne / RAG → Mistral Small, Llama 3.3, Qwen 32B (selon hardware)
- Code et développement → Codestral ou Qwen 2.5-Coder
- Raisonnement pointu (analyse, planification) → DeepSeek R1 ou distillations
- Multimodal (texte + image) → Llama 3.2 Vision, Gemma 3 Vision, Qwen 2-VL
- Edge / contraintes extrêmes → Phi-4-mini, Ministral, Gemma 3 4B
5. Contraintes réglementaires et géopolitiques
- Secteur défense, gouvernement souverain, infra critique → Mistral (européen) en priorité, éviter Qwen et DeepSeek en raison de leur provenance chinoise
- Soumis à l'AI Act en catégorie haut risque → privilégier les modèles avec documentation publique robuste et équipe de provenance identifiable
- Client international avec présence US → Llama peut être naturellement retenu pour des raisons d'alignement stack
L'arbre de décision simple, en pratique
Si vous deviez trancher en 30 secondes, voilà ce qu'on conseillerait :
« Client français, grande entreprise, use case généraliste FR » → Mistral Small 3 ou Llama 3.3 70B selon le hardware
« Secteur souverain ou défense » → Mistral exclusivement
« Projet raisonnement complexe » → DeepSeek R1 (ou distillation si hardware contraint)
« Projet code développement » → Codestral ou Qwen 2.5-Coder
« Projet multilingue 10+ langues » → Qwen 2.5 72B (meilleur rapport couverture/qualité)
« Déploiement edge sur laptops utilisateurs » → Mistral 7B ou Ministral
Ce n'est pas une matrice universelle, c'est un point de départ qu'on affine toujours avec les contraintes spécifiques du projet.
Ce qu'on fait chez GettIA
Installer un LLM local chez un client, ce n'est pas cocher une case dans un tableau. C'est un enchaînement qu'on a rodé sur nos projets récents (chatbot RAG pour Peps Digital, note-taker souverain pour un acteur du spatial, et d'autres) :
- Audit du besoin : use case prioritaire, volumes d'usage attendus, langue, contraintes RGPD, AI Act, sectorielles. On ressort avec un shortlist de 2 à 3 modèles candidats.
- Benchmarks sur vos données : on fait tourner les candidats sur un échantillon de vos propres inputs (conversations, documents, requêtes métier) et on compare la qualité des sorties côté métier, pas sur MMLU.
- Setup avec quantification adaptée : selon votre hardware cible, on choisit Q4_K_M, Q5, Q8 ou FP16 pour maximiser le ratio perf/VRAM.
- Pipeline d'évaluation continue : on met en place un jeu de tests reproductibles pour détecter les régressions quand vous mettrez à jour le modèle dans 6 mois.
- Formation de votre équipe : le modèle vit dans votre environnement. Vos devs doivent savoir le redéployer, le mettre à jour, le monitorer sans nous.
- Abstraction qui facilite la migration : on utilise des couches d'abstraction (llama.cpp, vLLM avec adaptateurs OpenAI-compatible) qui font qu'un jour, si un meilleur modèle sort, vous changez juste un paramètre.
Vous avez un projet LLM local en réflexion ? Réservez un créneau, on bloque 30 minutes pour comprendre votre contexte (use case, hardware, secteur, langue) et vous orienter vers le bon choix. Consultation gratuite, on ne vend rien qui ne serve pas.