5 mai 2026

Pourquoi nous avons dépassé le RAG à l'exécution

Le RAG runtime échoue : la récupération répétée gaspille du calcul. Pourquoi les Knowledge Briefs Copyl déplacent le raisonnement hors requête.

L’architecture que la plupart des équipes utilisent pour ancrer les agents IA a été conçue pour un autre problème. Voici ce qui a changé lorsque nous avons cessé de raisonner au moment de la requête.

Le schéma qui fonctionnait — jusqu’à ce qu’il ne fonctionne plus

Pendant deux ans, la génération augmentée par récupération était la méthode standard pour donner à un modèle linguistique l’accès à des données privées. Découper les documents, les intégrer, les stocker dans une base vectorielle, récupérer les meilleurs résultats au moment de la requête et les coller dans le prompt. Ça marchait. Ça marche encore pour des questions ponctuelles sur des documents statiques.

Les charges agentiques cassent le schéma.

Un agent ne pose pas une seule question. Il enchaîne des dizaines d’appels d’outils, chacun redécouvrant le même contexte depuis le début. Chaque session repart de zéro. Chaque récupération réinterprète les mêmes fragments. Chaque réponse est un nouveau passage de raisonnement sur du texte brut que le modèle a déjà traité mille fois.

Selon les estimations du secteur, 80 à 85 % du calcul agentique sert à redécouvrir plutôt qu’à accomplir la tâche. On peut débattre du chiffre exact, mais le schéma est réel : la même base de connaissances, interrogée par le même agent, avec des questions structurellement proches, refaisant le même travail interprétatif encore et encore.

Ce n’est pas un problème de récupération. C’est un problème d’architecture.

Ce que le RAG runtime ne peut pas faire à l’échelle

Trois choses cassent à grande échelle.

Déterminisme. Exécutez deux fois la même tâche sur les mêmes documents et un agent peut renvoyer des réponses différentes, sans trace de la source ayant conduit chaque résultat. Pour tout flux touchant conformité, audit, finance ou RH, c’est une disqualification structurelle. Vous ne pouvez pas livrer un agent qui donne un chiffre différent le mardi du lundi.

Coût. Raisonner au moment de la requête signifie payer des tokens d’inférence pour un travail qui n’avait pas besoin d’avoir lieu à ce moment-là. Ce qu’une section de politique signifie ne change pas entre sessions. Le redériver à chaque appel est une taxe sur chaque utilisateur.

Sincérité des citations. Les citations au niveau document — « cette réponse provient de ce PDF » — ne suffisent pas lorsque l’affirmation de l’agent s’appuie sur trois phrases réparties sur deux chapitres. Les acheteurs dans les secteurs réglementés veulent une provenance au niveau de l’affirmation avec scores de confiance. La similarité vectorielle seule ne produit pas cela.

Le basculement : déplacer le raisonnement vers le temps de compilation

Un changement architectural net est en cours. Formulé simplement :

Cessez d’interpréter les données sources au moment de la requête. Interprétez une fois, au moment de la compilation, et stockez le résultat.

L’index vectoriel ne disparaît pas. Il devient le filet pour les questions longue traîne, pas la porte d’entrée. Devant lui se trouve une couche d’artefacts précompilés : résumés distillés, index d’entités, cartes de structure, graphes d’affirmations avec citations, registres de conflits. L’agent lit d’abord la connaissance compilée et ne revient à la récupération brute que lorsque la question ne correspond à aucun artefact compilé.

Ce n’est pas une idée nouvelle en logiciel. Vues matérialisées, pipelines de build, compilation anticipée — toute plateforme mature finit par sortir le travail d’interprétation coûteux du chemin chaud. L’infrastructure IA rattrape enfin.

Comment Copyl le traite — nativement

Une couche de connaissance compilée peut être assemblée à partir de pièces disparates : un stockage vectoriel ici, un outil d’orchestration là, un pipeline sur mesure pour coller le tout. Ça fonctionne — jusqu’à ce qu’il faille scaler tenants, agents, politiques, langues et exigences d’audit simultanément. À ce moment-là, les coutures deviennent le travail.

Chez Copyl, la compilation fait partie intégrante de la plateforme, pas une rustine.

La base de connaissances — Livres, Chapitres et documents rédigés en markdown — se compile en Knowledge Briefs : représentations optimisées pour la tâche, liées à un profil d’agent spécifique. Un Brief contient :

Un résumé distillé calibré sur la portée et la persona de l’agent
Un index d’entités extrait une fois, non redérivé à chaque requête
Une carte de structure des Livres et Chapitres sous-jacents
Un graphe de citations reliant chaque affirmation à la section source avec un score de confiance
Un registre de conflits où les contradictions entre documents sont détectées et résolues via les politiques et SOP de l’agent

Ce qui rend cela viable n’est pas l’étape de compilation isolément — c’est l’intégration autour.

Les profils d’agent sont la spécification de tâche. Chaque agent Copyl déclare déjà sa portée, sa persona et ses objectifs. Les Briefs se compilent directement contre ce profil. Il n’y a pas de couche séparée de définition de tâche à maintenir.

Les politiques et SOP pilotent la résolution des conflits. Lorsque deux documents se contredisent, la règle n’est pas ad hoc : elle provient des politiques et SOP que le client a déjà rédigées. La conformité n’est pas ajoutée à la fin ; c’est la source de vérité contre laquelle le compilateur s’exécute.

Le CIP automatise l’invalidation. Lorsqu’un document, un chapitre ou un livre change, le bus d’événements de la plateforme invalide les Briefs concernés et met en file la recompilation. Pas d’outil d’orchestration externe, pas de vidage manuel du cache.

« Forker, ne pas casser » s’applique aussi à la connaissance compilée. Les agents modèle sont livrés avec des Briefs modèle. Lorsqu’un client personnalise son agent ou sa base de connaissances, le Brief bifurque par tenant — l’original n’est jamais corrompu et la connaissance compilée d’un client ne fuit pas dans le runtime d’un autre.

Versionné et prêt pour l’audit par défaut. Chaque Brief est versionné, chaque affirmation est sourcée, chaque résolution de conflit est enregistrée. La piste d’audit est l’artefact, pas une reconstruction a posteriori.

Ce qui compte vraiment pour les acheteurs

L’histoire technique est intéressante. L’histoire acheteur est plus courte.

La même réponse deux fois. La reproductibilité cesse d’être une liste de souhaits.

Coût par requête plus bas. Les artefacts compilés sont plus petits et plus ciblés que les charges de récupération brutes.

Citations auditables. Chaque affirmation renvoie à une section source avec score de confiance. Les équipes conformité et juridiques peuvent valider.

Sécurité multi-tenant sans plomberie supplémentaire. L’isolation des tenants est appliquée à la couche de compilation, pas improvisée au runtime.

Multilingue sans traduction au runtime. La compilation produit des Briefs dans les langues réellement parlées par la base et l’utilisateur — pas de taxe de traduction à la volée.

Ce ne sont pas des fonctionnalités. C’est la différence entre un agent que l’on peut démontrer et un agent que l’on peut déployer.

Ce que nous ne disons pas

Les couches de connaissance compilée ne sont pas une baguette magique. Il y a du surcoût : les jobs de compilation consomment des tokens en amont, les Briefs se dégradent si l’invalidation n’est pas correctement câblée, et l’architecture ne rentabilise qu’à volume de requêtes significatif. Les équipes avec quelques requêtes par jour et par agent devraient d’abord améliorer la récupération hybride et le reranking.

Nous ne pensons pas non plus que le RAG runtime va disparaître. Il devient une couche de secours plutôt que la principale — ce qui, rétrospectivement, était toujours sa place.

Où cela mène

Les équipes qui livrent des agents en production tout au long de 2026 ressembleront davantage à des équipes d’infrastructure de données disciplinées qu’à des équipes de pipelines de prompts astucieux. La prime de nouveauté pour « nous avons un agent IA » est terminée. La prime désormais va aux agents peu coûteux, reproductibles, prêts pour l’audit et ancrés dans une connaissance que leurs créateurs peuvent défendre.

C’est la barre.

Chez Copyl, la Knowledge Compilation Layer est notre façon de la franchir — et comme elle est intégrée à la même plateforme qui possède déjà agents, politiques, données et événements, vous n’avez pas à l’assembler vous-même.

Tous les articles