Brancher l'IA à votre doc.
Un assistant IA qui interroge vos documents internes en temps réel, cite ses sources, respecte vos ACL. Confluence, Notion, SharePoint, Google Drive, votre propre base : on indexe ce que vous avez, on ne vous demande pas de migrer.
Ce qui coince.
La connaissance d'une boîte est éclatée entre dix outils. Les wikis sont morts, les drive overflowent, le savoir tacite part avec les seniors. Les solutions SaaS clés en main (Glean, Mendable, Microsoft Copilot for M365) sont soit chères soit hors-UE, et les RAG bricolés en interne stagnent au stade prototype. Voici les trous qu'on rencontre en mission.
- 01
Vos collaborateurs perdent 1 heure par jour à chercher l'info
Études McKinsey et Gartner convergent : un knowledge worker passe 19 à 25% de son temps à chercher de l'information. Sur une boîte de 100 personnes, c'est l'équivalent de 20 ETP qui font de la recherche au lieu de produire.
- 02
Les knowledge bases sont des cimetières
Tout le monde sait qu'il faut documenter. Personne ne sait comment retrouver. La barre de recherche du wiki interne est universellement détestée. Les pages utiles datent de 2022 et personne ne les met à jour.
- 03
Le savoir part avec les gens
Quand un sénior quitte la boîte, son expertise tacite (les arbitrages historiques, les pourquoi-on-fait-comme-ça) n'est nulle part dans la doc. Trois mois après, l'équipe n'arrive plus à reproduire ses décisions et tâtonne.
- 04
Les solutions SaaS ne passent pas la conformité
Glean, Mendable, Notion AI, Microsoft Copilot for M365 sont en SaaS souvent hors UE, avec des conditions de traitement des données qui ne tiennent pas la route pour les ETI régulées. Et la mise en conformité d'une plateforme tierce est rarement possible.
- 05
80% des RAG faits maison stagnent en POC
Chunking mal pensé, embeddings inadaptés, pas de reranking, pas d'eval set propre. Les RAG bricolés marchent en démo et s'effondrent en prod : 50% de hallucinations, 5 secondes de latence, ACL ignorées. C'est le cimetière des projets IA internes.
Comment on fait.
Le RAG est un projet de qualité de données, pas un projet IA. Le LLM est presque interchangeable, ce qui fait la différence c'est tout ce qu'il y a en amont. Voici comment on aborde le sujet.
70% du travail est en amont du LLM
Ingestion, nettoyage, chunking sémantique, enrichissement par métadonnées, déduplication. C'est ce qui fait la qualité du RAG. Le choix du LLM derrière (GPT, Claude, Mistral) compte pour 10% du résultat final.
Indexation incrémentale, pas batch
Votre doc change tous les jours. L'index doit suivre en temps réel. On branche les webhooks Confluence, Notion, Drive, Slack pour réindexer dès qu'un document est modifié. Pas de cron de minuit qui décale d'un jour les nouveautés.
Hybride retrieval + reranking obligatoire
La similarité vectorielle pure rate trop souvent les requêtes courtes ou techniques. On mixe BM25 (lexical) avec du dense retrieval, puis on rerank avec Cohere, Voyage, ou un modèle local. Gain typique : 20 à 30% de précision sur les top-K.
Évaluation systématique avec votre équipe métier
On construit avec vos experts un eval set propriétaire de 100 à 500 questions de référence. Precision@k, hallucination rate, latence : tout est mesuré sur cet eval à chaque déploiement. Pas de régression silencieuse possible.
Souverain par défaut
Vector store self-hosted (Qdrant, Weaviate, pgvector) ou cloud de confiance SecNumCloud. Embeddings locaux disponibles (BGE-M3, Mistral Embed). LLM en local sur GPU on-premise possible. Aucune donnée ne sort de l'UE si c'est votre exigence.
Respect natif de vos ACL
Filtrage à l'indexation et au query time. L'agent ne voit que les documents auxquels l'utilisateur courant a accès dans la source d'origine. Synchronisation des permissions via SSO ou via les API natives des sources (Confluence, SharePoint).
Vu en mission.
Pour Peps Digital, on a déployé un assistant RAG branché à toute la documentation produit. Indexation incrémentale, citation systématique des sources, garde-fous contre les hallucinations. 80% des questions trouvent une réponse sans humain, et l'index suit en temps réel les évolutions du produit.
80% du support client digitalisé
Un chatbot IA en RAG intégré à la plateforme Peps Digital, qui répond aux questions des PSDM directement depuis l'interface, 24h/24.
Notre process.
Inventaire et cartographie des sources
On liste vos sources documentaires, on mesure leur volume, leur qualité, leur cycle de mise à jour. On identifie les sources prioritaires et celles à exclure (doc obsolète, périmètre confidentiel). Vous repartez avec une cartographie exploitable, indépendamment du projet IA.
Pipeline d'ingestion et d'indexation
Construction du pipeline qui extrait, nettoie, chunke, embed et indexe. Choix du vector store, du modèle d'embeddings, de la stratégie de chunking sémantique. Mise en place du reranking et des métadonnées (auteur, date, type, ACL).
Build de l'eval set avec votre équipe métier
Atelier de 2 à 3 jours avec vos experts pour construire un jeu de questions-réponses de référence. C'est la grille de mesure pour tous les déploiements futurs. Sans eval set, on pilote à l'aveugle.
Pilote, instrumentation, industrialisation
Déploiement sur un canal restreint (une équipe, un segment de doc). Instrumentation complète (latence, hallucinations, satisfaction utilisateur). Itération sur les chunks et le retrieval. Extension progressive aux autres sources.
Questions fréquentes.
Une question avant d'aller plus loin ? On est joignables directement.
01Quelles sources documentaires peut-on indexer ?
Tout ce qui est texte ou structuré. Confluence, Notion, SharePoint, Google Drive, GitHub wiki, messages Slack, Linear, Jira, notes Salesforce, fichiers PDF ou DOCX sur un NAS, votre propre base de données. On a déjà fait toutes les combinaisons en mission.
02Quel volume de doc est gérable ?
De quelques milliers à plusieurs millions de documents sans souci d'architecture. Au-delà, on passe sur du sharding et du hierarchical retrieval, mais c'est faisable. Le coût d'infra scale linéairement avec le volume indexé.
03Comment vous gérez les permissions et les ACL ?
Filtrage à deux niveaux : à l'indexation (les docs sensibles ne sont jamais indexés ou sont marqués), et au query time (l'agent ne voit que les documents auxquels l'utilisateur a accès dans la source d'origine). Synchronisation via SSO et API des sources. Aucun risque de fuite latérale.
04Comment vous garantissez la conformité RGPD ?
Vector store self-hosted (Qdrant, Weaviate, pgvector) ou cloud certifié SecNumCloud. Embeddings calculés localement avec BGE-M3 ou Mistral Embed pour ne rien exposer. LLM en local sur GPU on-premise possible. Aucune donnée ne sort de l'UE si c'est votre exigence.
05Combien de temps pour livrer ?
Pour un POC fonctionnel sur une source unique avec un canal de consultation simple, 3 à 4 semaines. Pour un déploiement multi-source en production, avec eval set propre et instrumentation, compter 8 à 12 semaines selon la complexité.
06Quels modèles utilisez-vous ?
Pour le LLM : GPT-4o, Claude Sonnet ou Mistral Large selon le cas. Pour les embeddings : OpenAI text-embedding-3 ou BGE-M3 en local. Pour le reranking : Cohere Rerank, Voyage Rerank, ou un modèle local. Le choix est instruit pendant l'audit en fonction de vos contraintes (RGPD, latence, budget).
07Comment vous limitez les hallucinations ?
Citation systématique des sources. Refus explicite de répondre quand le contexte récupéré n'est pas pertinent. Mesure du taux d'hallucination dans l'eval set à chaque déploiement. Sur des cas similaires en mission, on tourne sous 2% en production. Voir aussi notre insight sur la sécurité des agents IA en 2026.
LLM local en 2026 : quel modèle open-source choisir pour votre entreprise
Mistral, Llama, Qwen, DeepSeek, Gemma : le paysage des LLMs locaux est riche, mais complexe à naviguer. Notre guide d'achat pragmatique pour les entreprises qui veulent déployer un LLM sur leur infra.
Note-taker souverain : pourquoi les grandes entreprises veulent du 100% local
Les grandes entreprises refusent les note-takers SaaS grand public, qui envoient leurs données sensibles à des LLMs publics. On leur construit des alternatives 100% locales, sur mesure.
Sécurité des agents IA : la surface d'attaque réelle en 2026
Prompt injection, tool poisoning, exfiltration silencieuse, empoisonnement RAG. Ce qui peut casser un agent IA en production aujourd'hui, et le cadre de défense par couches qu'on applique en mission.
Prêt à tout
automatiser ?
On écoute. On analyse. On construit. Avec vous.