5 mei 2026

Waarom we voorbij runtime-RAG zijn gegaan

Runtime-RAG breekt bij agent-workloads: herhaalde retrieval verspilt compute. Waarom Copyl Knowledge Briefs redeneren uit het querytijdpad halen.

De architectuur die de meeste teams gebruiken om AI-agents te verankeren is gebouwd voor een ander probleem. Zo veranderde alles toen we stopten met redeneren op querytijd.

Het patroon dat werkte — tot het dat niet meer deed

Twee jaar lang was retrieval-augmented generation de standaard om een taalmodel toegang tot privédata te geven. Documenten opdelen, embedden, opslaan in een vectordatabase, top-k matches op querytijd ophalen en in de prompt plakken. Het werkte. Het werkt nog steeds voor eenmalige vragen over statische documenten.

Agentische workloads doorbreken het patroon.

Een agent stelt niet één vraag. Die voert tientallen tool-aanroepen uit en bij elke wordt dezelfde context opnieuw ontdekt. Elke sessie begint leeg. Elke retrieval interpreteert dezelfde chunks opnieuw. Elk antwoord is een verse redeneerpas over ruwe tekst die het model al duizend keer heeft verwerkt.

Naar schattingen uit de sector gaat 80–85 % van agent-compute naar herontdekking in plaats van taakvoltooiing. Het exacte getal is bespreekbaar, maar het patroon is echt: dezelfde kennisbank, bevraagd door dezelfde agent, structureel vergelijkbare vragen, steeds hetzelfde interpretatiewerk.

Dat is geen retrieval-probleem. Het is een architectuurprobleem.

Wat runtime-RAG niet kan op schaal

Drie dingen breken bij opschaling.

Determinisme. Voer dezelfde taak twee keer uit tegen dezelfde documenten en een agent kan verschillende antwoorden geven, zonder registratie welke bron welk resultaat stuurde. Voor workflows met compliance, audit, finance of HR is dat structureel ongeschikt. Je kunt geen agent leveren die op dinsdag een ander getal geeft dan op maandag.

Kosten. Redeneren op querytijd betekent inferentietokens betalen voor werk dat niet op querytijd hoefde te gebeuren. Wat een policy-sectie betekent, verandert niet tussen sessies. Het bij elke aanroep opnieuw afleiden is een belasting op elke gebruiker.

Eerlijkheid van citaten. Citaten op documentniveau — “dit antwoord kwam uit deze PDF” — zijn niet genoeg als de claim van de agent uit drie zinnen over twee hoofdstukken bestaat. Kopers in gereguleerde sectoren willen provenance op claimniveau met confidence scores. Alleen vectors gelijkenis levert dat niet.

De verschuiving: verplaats redeneren naar compile-tijd

Er is een duidelijke architectuurverschuiving gaande. Kort gezegd:

Stop met brongegevens interpreteren op querytijd. Interpreteer een keer op compile-tijd en sla het resultaat op.

De vectorindex verdwijnt niet. Die wordt de fallback voor long-tail vragen, niet de hoofdingang. Ervoor ligt een laag voorgecompileerde artefacten: gedestilleerde samenvattingen, entiteitsindexen, structuurkaarten, grafen met claims en citaten, conflictregisters. De agent leest eerst gecompileerde kennis en valt alleen terug op ruwe retrieval als de vraag bij geen enkel artefact past.

Het is geen nieuw idee in software. Gematerialiseerde views, build-pipelines, ahead-of-time compilatie — elk volwassen platform verplaatst vroeg of laat dure interpretatie uit het hot pad. AI-infrastructuur haalt eindelijk bij.

Hoe Copyl dit aanpakt — native

Een gecompileerde kennislaag kun je uit losse onderdelen bouwen: vectoropslag hier, orchestratietool daar, een eigen pipeline als lijm. Dat werkt — tot het tegelijk tenants, agents, policies, talen en audit-eisen moet schalen. Dan worden de naden het werk.

Bij Copyl is compilatie first-class onderdeel van het platform, geen bolt-on.

De Knowledge Base — Boeken, Hoofdstukken en documenten in markdown — compileert naar Knowledge Briefs: taak-geoptimaliseerde representaties gekoppeld aan een specifiek Agentprofiel. Een Brief bevat:

Een gedestilleerde samenvatting afgestemd op scope en persona van de agent
Een entiteitsindex eenmalig geëxtracteerd, niet per query opnieuw afgeleid
Een structuurkaart van de onderliggende Boeken en Hoofdstukken
Een citatiegrafiek die elke claim koppelt aan de bronsectie met een confidence score
Een conflictregister waar tegenstrijdigheden tussen documenten worden gedetecteerd en opgelost met de eigen policies en SOP’s van de agent

Wat dit werkbaar maakt is niet de compilatiestap op zich — het is de integratie eromheen.

Agentprofielen zijn de taakspecificatie. Elke Copyl-agent declareert al scope, persona en doelen. Briefs compileren direct tegen dat profiel. Er is geen aparte taakdefinitielaag om te onderhouden.

Policies en SOP’s sturen conflictresolutie. Als twee documenten elkaar tegenspreken, is de regel niet ad hoc — die komt uit de policies en SOP’s die de klant al heeft geschreven. Compliance plak je niet achteraf; het is de waarheid waar de compiler tegen draait.

CIP maakt invalidatie automatisch. Als een document, hoofdstuk of boek wijzigt, invalideert het eventbusplatform de getroffen Briefs en zet recompilatie in de wachtrij. Geen externe orchestratietool, geen handmatige cache-flush.

“Fork, niet breken” geldt ook voor gecompileerde kennis. Template-agents hebben template-Briefs. Past een klant agent of KB aan, dan fork de Brief per tenant — het origineel raakt niet corrupt en gecompileerde kennis van de ene klant lekt niet naar de runtime van een andere.

Versiebeheer en audit-klaar standaard. Elke Brief is versiebeheerd, elke claim heeft bron, elke conflictresolutie wordt vastgelegd. Het auditspoor is het artefact, niet achteraf gereconstrueerd.

Waar kopers echt om geven

Het technische verhaal is interessant. Het kopersverhaal is korter.

Hetzelfde antwoord twee keer. Reproduceerbaarheid is geen verlanglijstje meer.

Lagere kosten per query. Gecompileerde artefacten zijn kleiner en gerichter dan ruwe retrieval-payloads.

Auditeerbare citaten. Elke claim koppelt aan een bronsectie met confidence score. Compliance en legal kunnen akkoord geven.

Multi-tenant veiligheid zonder extra leidingwerk. Tenantisolatie wordt afgedwongen in de compilatielaag, niet geïmproviseerd op runtime.

Meertaligheid zonder runtime-vertaling. Compilatie produceert Briefs in de talen die de KB en gebruiker echt spreken — geen vertaalbelasting in flight.

Dit zijn geen features. Het is het verschil tussen een agent die je kunt demo’en en een agent die je kunt deployen.

Wat we niet zeggen

Gecompileerde kennislagen zijn geen zilveren kogel. Er is overhead: compilatietaken kosten vooraf tokens, Briefs verouderen als invalidatie niet goed is aangesloten, en de architectuur betaalt pas terug bij serieus queryvolume. Teams met een handvol queries per dag per agent moeten eerst hybrid retrieval en reranking verbeteren.

We denken ook niet dat runtime-RAG verdwijnt. Het wordt een fallback-laag in plaats van de primaire — wat achteraf altijd zijn plek was.

Waar dit naartoe gaat

Teams die in 2026 productie-agents uitrollen, lijken meer op teams met gedisciplineerde datainfrastructuur dan op teams met slimme prompt-pipelines. Het novelty-premium op “we hebben een AI-agent” is weg. Het premium vooruit ligt bij agents die goedkoop, reproduceerbaar, audit-ready en verankerd zijn in verdedigbare kennis.

Dat is de lat.

Bij Copyl is de Knowledge Compilation Layer hoe we die halen — en omdat hij in hetzelfde platform zit dat agents, policies, data en events al bezit, hoeft u het niet zelf in elkaar te zetten.

Alle berichten