← Toutes nos expertises
Expertise · RAG sur documents internes

Brancher l'IA à votre doc.

Un assistant IA qui interroge vos documents internes en temps réel, cite ses sources, respecte vos ACL. Confluence, Notion, SharePoint, Google Drive, votre propre base : on indexe ce que vous avez, on ne vous demande pas de migrer.

70-85%
Précision après reranking
5-15s
Latence par requête
8-12 sem.
Du brief à la prod
Le problème

Ce qui coince.

La connaissance d'une boîte est éclatée entre dix outils. Les wikis sont morts, les drive overflowent, le savoir tacite part avec les seniors. Les solutions SaaS clés en main (Glean, Mendable, Microsoft Copilot for M365) sont soit chères soit hors-UE, et les RAG bricolés en interne stagnent au stade prototype. Voici les trous qu'on rencontre en mission.

  • 01

    Vos collaborateurs perdent 1 heure par jour à chercher l'info

    Études McKinsey et Gartner convergent : un knowledge worker passe 19 à 25% de son temps à chercher de l'information. Sur une boîte de 100 personnes, c'est l'équivalent de 20 ETP qui font de la recherche au lieu de produire.

  • 02

    Les knowledge bases sont des cimetières

    Tout le monde sait qu'il faut documenter. Personne ne sait comment retrouver. La barre de recherche du wiki interne est universellement détestée. Les pages utiles datent de 2022 et personne ne les met à jour.

  • 03

    Le savoir part avec les gens

    Quand un sénior quitte la boîte, son expertise tacite (les arbitrages historiques, les pourquoi-on-fait-comme-ça) n'est nulle part dans la doc. Trois mois après, l'équipe n'arrive plus à reproduire ses décisions et tâtonne.

  • 04

    Les solutions SaaS ne passent pas la conformité

    Glean, Mendable, Notion AI, Microsoft Copilot for M365 sont en SaaS souvent hors UE, avec des conditions de traitement des données qui ne tiennent pas la route pour les ETI régulées. Et la mise en conformité d'une plateforme tierce est rarement possible.

  • 05

    80% des RAG faits maison stagnent en POC

    Chunking mal pensé, embeddings inadaptés, pas de reranking, pas d'eval set propre. Les RAG bricolés marchent en démo et s'effondrent en prod : 50% de hallucinations, 5 secondes de latence, ACL ignorées. C'est le cimetière des projets IA internes.

Notre approche

Comment on fait.

Le RAG est un projet de qualité de données, pas un projet IA. Le LLM est presque interchangeable, ce qui fait la différence c'est tout ce qu'il y a en amont. Voici comment on aborde le sujet.

70% du travail est en amont du LLM

Ingestion, nettoyage, chunking sémantique, enrichissement par métadonnées, déduplication. C'est ce qui fait la qualité du RAG. Le choix du LLM derrière (GPT, Claude, Mistral) compte pour 10% du résultat final.

Indexation incrémentale, pas batch

Votre doc change tous les jours. L'index doit suivre en temps réel. On branche les webhooks Confluence, Notion, Drive, Slack pour réindexer dès qu'un document est modifié. Pas de cron de minuit qui décale d'un jour les nouveautés.

Hybride retrieval + reranking obligatoire

La similarité vectorielle pure rate trop souvent les requêtes courtes ou techniques. On mixe BM25 (lexical) avec du dense retrieval, puis on rerank avec Cohere, Voyage, ou un modèle local. Gain typique : 20 à 30% de précision sur les top-K.

Évaluation systématique avec votre équipe métier

On construit avec vos experts un eval set propriétaire de 100 à 500 questions de référence. Precision@k, hallucination rate, latence : tout est mesuré sur cet eval à chaque déploiement. Pas de régression silencieuse possible.

Souverain par défaut

Vector store self-hosted (Qdrant, Weaviate, pgvector) ou cloud de confiance SecNumCloud. Embeddings locaux disponibles (BGE-M3, Mistral Embed). LLM en local sur GPU on-premise possible. Aucune donnée ne sort de l'UE si c'est votre exigence.

Respect natif de vos ACL

Filtrage à l'indexation et au query time. L'agent ne voit que les documents auxquels l'utilisateur courant a accès dans la source d'origine. Synchronisation des permissions via SSO ou via les API natives des sources (Confluence, SharePoint).

Cas concret

Vu en mission.

Pour Peps Digital, on a déployé un assistant RAG branché à toute la documentation produit. Indexation incrémentale, citation systématique des sources, garde-fous contre les hallucinations. 80% des questions trouvent une réponse sans humain, et l'index suit en temps réel les évolutions du produit.

Logo Peps Digital
Peps Digital  ·  SaaS · Santé (PSDM)

80% du support client digitalisé

Un chatbot IA en RAG intégré à la plateforme Peps Digital, qui répond aux questions des PSDM directement depuis l'interface, 24h/24.

Lire l'étude de cas
Méthodologie

Notre process.

01

Inventaire et cartographie des sources

On liste vos sources documentaires, on mesure leur volume, leur qualité, leur cycle de mise à jour. On identifie les sources prioritaires et celles à exclure (doc obsolète, périmètre confidentiel). Vous repartez avec une cartographie exploitable, indépendamment du projet IA.

02

Pipeline d'ingestion et d'indexation

Construction du pipeline qui extrait, nettoie, chunke, embed et indexe. Choix du vector store, du modèle d'embeddings, de la stratégie de chunking sémantique. Mise en place du reranking et des métadonnées (auteur, date, type, ACL).

03

Build de l'eval set avec votre équipe métier

Atelier de 2 à 3 jours avec vos experts pour construire un jeu de questions-réponses de référence. C'est la grille de mesure pour tous les déploiements futurs. Sans eval set, on pilote à l'aveugle.

04

Pilote, instrumentation, industrialisation

Déploiement sur un canal restreint (une équipe, un segment de doc). Instrumentation complète (latence, hallucinations, satisfaction utilisateur). Itération sur les chunks et le retrieval. Extension progressive aux autres sources.

FAQ

Questions fréquentes.

Une question avant d'aller plus loin ? On est joignables directement.

  • 01Quelles sources documentaires peut-on indexer ?

    Tout ce qui est texte ou structuré. Confluence, Notion, SharePoint, Google Drive, GitHub wiki, messages Slack, Linear, Jira, notes Salesforce, fichiers PDF ou DOCX sur un NAS, votre propre base de données. On a déjà fait toutes les combinaisons en mission.

  • 02Quel volume de doc est gérable ?

    De quelques milliers à plusieurs millions de documents sans souci d'architecture. Au-delà, on passe sur du sharding et du hierarchical retrieval, mais c'est faisable. Le coût d'infra scale linéairement avec le volume indexé.

  • 03Comment vous gérez les permissions et les ACL ?

    Filtrage à deux niveaux : à l'indexation (les docs sensibles ne sont jamais indexés ou sont marqués), et au query time (l'agent ne voit que les documents auxquels l'utilisateur a accès dans la source d'origine). Synchronisation via SSO et API des sources. Aucun risque de fuite latérale.

  • 04Comment vous garantissez la conformité RGPD ?

    Vector store self-hosted (Qdrant, Weaviate, pgvector) ou cloud certifié SecNumCloud. Embeddings calculés localement avec BGE-M3 ou Mistral Embed pour ne rien exposer. LLM en local sur GPU on-premise possible. Aucune donnée ne sort de l'UE si c'est votre exigence.

  • 05Combien de temps pour livrer ?

    Pour un POC fonctionnel sur une source unique avec un canal de consultation simple, 3 à 4 semaines. Pour un déploiement multi-source en production, avec eval set propre et instrumentation, compter 8 à 12 semaines selon la complexité.

  • 06Quels modèles utilisez-vous ?

    Pour le LLM : GPT-4o, Claude Sonnet ou Mistral Large selon le cas. Pour les embeddings : OpenAI text-embedding-3 ou BGE-M3 en local. Pour le reranking : Cohere Rerank, Voyage Rerank, ou un modèle local. Le choix est instruit pendant l'audit en fonction de vos contraintes (RGPD, latence, budget).

  • 07Comment vous limitez les hallucinations ?

    Citation systématique des sources. Refus explicite de répondre quand le contexte récupéré n'est pas pertinent. Mesure du taux d'hallucination dans l'eval set à chaque déploiement. Sur des cas similaires en mission, on tourne sous 2% en production. Voir aussi notre insight sur la sécurité des agents IA en 2026.

Let's build together

Prêt à tout
automatiser ?

On écoute. On analyse. On construit. Avec vous.