Beaucoup d'organisations estiment le coût de leur agent IA en additionnant les appels API. Un calcul rapide, quelques centimes par requête, un total mensuel qui semble gérable, et la décision de partir se prend sur cette base. Six mois plus tard, la facture réelle est deux à quatre fois supérieure à l'estimation initiale, et personne dans l'équipe ne sait exactement où est passé l'argent.
Le problème n'est pas l'API. Le coût d'inférence LLM est aujourd'hui le poste le plus visible et, dans la plupart des déploiements de taille intermédiaire, loin d'être le plus lourd. Ce qui génère les dépassements, ce sont les couches que l'équipe n'a pas budgétisées : l'infrastructure RAG, le développement d'intégration, la maintenance évolutive, le monitoring de production. Ces postes ne sont pas nouveaux, ils sont simplement rarement chiffrés en amont avec la même rigueur que le coût API.
Cet article présente une décomposition complète sur un cas réel anonymisé : une ETI industrielle de 200 collaborateurs qui a déployé un agent de traitement et d'analyse de contrats fournisseurs. On passe chaque ligne de coût en revue, on compare l'année 1 à l'année 2, et on examine le cas particulier de l'autohébergement sur GPU. L'objectif n'est pas de décourager, c'est de budgétiser correctement.
Le cas concret : une ETI, un agent contractuel, 50 utilisateurs actifs
Le contexte : une entreprise industrielle sous-traitante, 200 salariés, 3 acheteurs et une équipe juridique de 2 personnes. Avant l'agent, la revue des contrats fournisseurs impliquait de rechercher manuellement dans 8 000 documents PDF stockés sur SharePoint, avec un temps de réponse moyen de 30 à 45 minutes par requête.
L'agent déployé est un agent RAG conversationnel. Un utilisateur pose une question en langage naturel ("Quel est le délai de préavis dans le contrat Dupont Industrie ?"), l'agent retrouve les passages pertinents dans la base documentaire, les synthétise et répond avec les références de source. Le périmètre de la v1 : recherche, extraction et synthèse. Pas d'action sur les systèmes tiers.
Volume en production : 50 utilisateurs actifs, 250 requêtes par jour en moyenne, 8 000 documents indexés (environ 40 millions de tokens d'embeddings au démarrage). L'agent tourne sur GPT-4o via l'API OpenAI. La base vectorielle est hébergée sur Pinecone Serverless. L'orchestration est assurée par LangChain. Le monitoring passe par Langfuse en mode cloud.
L'inférence LLM : le poste le plus visible, rarement le plus lourd
GPT-4o est tarifé à 2,50 dollars par million de tokens en entrée et 10 dollars par million en sortie. Pour un agent RAG bien conçu, une requête utilisateur mobilise environ 800 tokens de prompt système, 2 000 tokens de contexte récupéré (4 à 5 passages de 400 tokens), 300 tokens de question et d'historique de conversation, et 700 tokens de réponse générée. Soit 3 100 tokens en entrée et 700 en sortie par appel LLM. Un agent multi-étapes réalise en moyenne 3 appels par requête utilisateur : reformulation de la question, récupération et reclassement, synthèse finale.
Coût par requête utilisateur : 3 x ((3 100 x 2,50 / 1 000 000) + (700 x 10 / 1 000 000)) = 3 x (0,00775 + 0,007) = 0,044 dollar.
250 requêtes par jour x 0,044 dollar = 11 dollars par jour, soit environ 330 dollars par mois, soit 4 000 euros par an au taux de change courant.
Ce chiffre monte si l'usage augmente, mais aussi si le contexte s'allonge sans discipline. Un agent qui injecte des chunks longs sans filtrage de pertinence, qui ne compresse pas l'historique de conversation, ou qui multiplie les appels LLM inutilement multiplie sa facture par deux à trois sans améliorer la qualité. Le prompt engineering a un impact direct et mesurable sur ce poste.
Note sur l'optimisation modèle : utiliser Claude Haiku 4.5 (1 dollar / 5 dollars par million de tokens en entrée / sortie) pour les appels de reformulation et de récupération, en conservant GPT-4o uniquement pour la synthèse finale, réduit le coût d'inférence de 40 à 50% sans dégradation notable de la qualité perçue. C'est l'un des premiers ajustements que l'on documente en mission.
Les couches invisibles : RAG, infrastructure et monitoring
Embeddings. L'indexation initiale de 8 000 documents, soit environ 40 millions de tokens, avec text-embedding-3-small à 0,02 dollar par million de tokens coûte 0,80 dollar à l'initialisation. Les embeddings à l'inférence, c'est-à-dire la vectorisation de chaque question utilisateur, représentent quelques centimes par mois à ce volume. Ce poste est négligeable.
Base vectorielle. 8 000 documents découpés en 4 à 5 chunks par document donnent environ 35 000 à 40 000 vecteurs stockés. À cette échelle, Pinecone Serverless facture entre 20 et 40 dollars par mois selon les lectures. C'est un coût stable, qui n'évolue que si la base documentaire grossit significativement.
Infrastructure applicative. L'agent tourne sur un backend Python hébergé sur une instance cloud légère (2 à 4 vCPUs). Coût : 80 à 150 dollars par mois. Une base PostgreSQL pour les sessions et les métadonnées ajoute 40 à 60 dollars. Total infrastructure : 150 à 200 dollars par mois, soit 2 000 euros par an.
Monitoring et observabilité. Langfuse Cloud en version Team est tarifé à 59 dollars par siège et par mois. Pour une équipe de 3 personnes qui opère l'agent (2 développeurs et 1 responsable métier), le coût mensuel est de 177 dollars, soit environ 2 100 euros par an. L'alternative open source est Langfuse auto-hébergé : zéro coût de licence, mais une infrastructure supplémentaire à opérer et du temps de setup.
Total des couches invisibles hors développement : 4 500 à 5 500 euros par an. Sur ce montant, la composante API représente environ 70 à 75%. C'est gérable, c'est prévisible, et c'est modulable à la hausse comme à la baisse selon les arbitrages techniques.
Le vrai poste dominant : développement et intégration
C'est ici que les estimations initiales déraillent. Le coût API est calculable à la requête, il est tangible et mesurable. Le coût de développement est diffus, il s'étale sur des mois, et il est systématiquement sous-estimé en début de projet.
Pour ce cas concret, le chantier de développement couvre plusieurs phases distinctes.
Architecture et conception (2 à 3 semaines) : choix du modèle, de la stratégie de découpage documentaire, de la stratégie de récupération hybride, des outils de l'agent, du plan d'intégration SharePoint.
Développement du pipeline RAG (3 à 4 semaines) : ingestion des documents, chunking sémantique, indexation, pipeline de récupération, évaluation de la qualité de récupération sur un golden set de 200 questions représentatives.
Développement de l'agent et du système de prompt (3 à 4 semaines) : structuration du prompt système, logique multi-étapes, gestion des cas d'erreur, guardrails de réponse, filtrage des requêtes hors périmètre.
Intégration SharePoint et SSO (3 à 4 semaines) : c'est presque toujours la partie la plus longue et la moins anticipée. Les connecteurs documentaires existants sont rarement réutilisables tels quels. La gestion des permissions à la source, c'est-à-dire s'assurer que l'agent ne répond qu'avec les documents auxquels l'utilisateur a accès, ajoute une couche de complexité qui ne figure dans aucun tutoriel.
Tests, validation métier et mise en production (2 à 3 semaines) : constitution du jeu d'évaluation avec les acheteurs, itérations de qualité, tests de charge, déploiement en environnement de production.
Total : 14 à 18 semaines de développement. Avec une équipe de 2 développeurs seniors à 550 euros par jour en prestation externe :
- Scénario bas : 14 semaines x 2 devs x 5 jours x 550 euros = 77 000 euros
- Scénario haut : 18 semaines x 2 devs x 5 jours x 550 euros = 99 000 euros
À ce budget de prestation s'ajoute le temps de l'équipe interne (chef de projet, responsable métier, DSI) : 0,3 à 0,5 ETP pendant 4 mois, soit 15 000 à 25 000 euros de coût chargé.
Budget de développement année 1 : 90 000 à 125 000 euros.
L'année 2, ce poste chute radicalement. La maintenance évolutive d'un agent stabilisé (mises à jour de prompts, ajout de nouvelles sources documentaires, ajustements suite à des dérives qualité détectées par le monitoring) représente 1 à 2 mois de développement par an, soit 10 000 à 22 000 euros.
Récapitulatif : ce que coûte vraiment un agent IA sur deux ans
Le tableau ci-dessous compile les coûts pour le cas décrit. Développement en euros, exploitation en dollars ramenés à l'euro à parité approximative.
| Poste | Année 1 | Année 2 |
|---|---|---|
| Inférence LLM | ~4 000 €/an | ~5 500 €/an |
| Embeddings | moins de 100 €/an | moins de 100 €/an |
| Base vectorielle | ~400 €/an | ~400 €/an |
| Infrastructure applicative | ~2 000 €/an | ~2 000 €/an |
| Monitoring (Langfuse) | ~2 100 €/an | ~2 100 €/an |
| Développement initial | 90 000-125 000 € | 0 |
| Maintenance et évolutions | ~5 000 € (stabilisation) | 10 000-22 000 € |
| Total indicatif | 103 000-138 000 € | 20 000-32 000 € |
Ce tableau révèle deux réalités que les équipes découvrent souvent trop tard.
Première réalité : le coût d'exploitation (infrastructure, API, monitoring) ne dépasse pas 8 000 à 9 000 euros par an. Il est prévisible, il est modulable, et il baisse si l'usage est optimisé. Ce n'est pas ce qui plombe les projets.
Deuxième réalité : le développement représente 85 à 90% du budget de l'année 1. C'est structurel. Un agent correctement intégré à un SI existant, avec une qualité de récupération réellement testée, des guardrails opérationnels et un jeu d'évaluation propriétaire, c'est 3 à 5 mois de travail qualifié. Quiconque promet de livrer cela en 3 semaines à 15 000 euros livre un POC, pas un système de production.
L'année 2 change fondamentalement la lecture. Le développement est absorbé, le ROI commence à s'exprimer. Sur ce cas concret, les acheteurs ont estimé avoir réduit de 60 à 70% leur temps de recherche contractuelle. Trois acheteurs à 50 000 euros de coût chargé annuel qui gagnent chacun 4 heures par semaine représentent 30 semaines d'équivalent ETP récupérées, soit environ 75 000 euros de valeur créée. La rentabilité est atteinte en milieu d'année 2.
Quand l'autohébergement GPU change l'équation (et quand il ne la change pas)
La question revient régulièrement : "Plutôt que de payer l'API OpenAI, ne serait-il pas plus économique d'héberger un modèle open source sur nos propres GPU ?"
La réponse dépend entièrement du volume. Dans le cas présenté, la facture LLM est de 330 dollars par mois. Louer un H100 sur Lambda Labs coûte environ 2,50 à 3,44 dollars par heure, soit 1 800 à 2 500 dollars par mois si la machine tourne en continu. L'autohébergement revient 5 à 8 fois plus cher que l'API pour ce niveau de charge. La question ne se pose pas.
L'autohébergement commence à être pertinent quand la facture API dépasse 5 000 à 7 000 dollars par mois de façon stable. La FinOps Foundation l'a quantifié : pour les charges inférieures à 500 000 tokens par jour, l'API publique reste quasi-systématiquement moins chère que l'autohébergement sur GPU loué. Au-dessus de 2 à 3 millions de tokens par jour avec un taux d'utilisation supérieur à 70%, la balance commence à s'inverser.
À ces volumes, un modèle open source comme Mistral Large 2 ou Llama 4 Scout hébergé sur un cluster GPU dédié permet de réduire le coût marginal par token de 60 à 80%. Mais il faut additionner : le coût GPU (1 800 à 5 000 euros par mois selon la configuration), le coût d'exploitation (0,3 à 0,5 ETP d'ingénieur MLOps), et les cycles de mise à jour de modèle. L'autohébergement n'est pas une économie par défaut. C'est une option avancée, qui a du sens dans des contextes précis de volume élevé ou de contrainte de souveraineté.
Ce qu'on met en place en mission
Quand on accompagne une organisation sur le budget d'un agent IA, on commence toujours par distinguer trois horizons temporels qui ont des structures de coût très différentes.
Le POC (4 à 8 semaines) : coût quasi-nul en infrastructure, coût de développement faible, pas de monitoring structuré, pas d'intégration profonde au SI. C'est un outil de validation, pas un produit. Budget typique : 15 000 à 30 000 euros.
Le pilote de production (3 à 6 mois) : intégration réelle au SI, monitoring en place, golden set d'évaluation constitué, tests de charge réalisés. C'est ici que le budget saute. Budget typique : 70 000 à 130 000 euros selon la complexité des intégrations.
La mise à l'échelle (à partir de l'année 2) : le développement initial est amorti, les coûts d'exploitation dominent et restent faibles. C'est aussi le moment où les questions d'optimisation FinOps deviennent pertinentes : peut-on router certaines requêtes vers un modèle moins coûteux ? Doit-on activer le cache de prompt ? Certains appels sont-ils batchables ?
Ce que les organisations sous-estiment presque systématiquement au démarrage : le coût de l'intégration au SI existant. Sur les projets que l'on reprend, ce poste représente en moyenne 35 à 45% du budget de développement total. Le connecteur SharePoint, le SSO d'entreprise, la gestion des permissions documentaires à la source : ce sont des chantiers qui prennent du temps, qui doivent entrer dans l'estimation initiale, pas apparaître en surprise à mi-projet.
Le deuxième enseignement que l'on tire de ces décompositions : le ROI d'un agent IA ne se mesure pas en économies sur la facture API. Il se mesure en temps humain récupéré, en décisions mieux informées, en processus accélérés. Cela implique de définir, avant de démarrer, les indicateurs de valeur métier que l'on va mesurer en production. Sans cet ancrage, le projet reste un poste de coût sans contrepartie visible. Avec lui, l'amortissement sur deux ans est presque toujours démontrable.
Vous voulez qu'on regarde votre cas ensemble ? Réservez un créneau, on bloque 30 minutes pour décomposer les coûts réels de votre projet agent IA et valider si le budget prévu est aligné avec la réalité du marché.