5 maj 2026

Varför vi gick vidare bortom runtime-RAG

Runtime-RAG brister för agentflöden: upprepad hämtning slösar compute. Varför Copyls Knowledge Briefs flyttar resonemang från frågetiden.

Arkitekturen de flesta team använder för att förankra AI-agenter byggdes för ett annat problem. Så här förändrades allt när vi slutade göra resonemang vid frågetid.

Mönstret som fungerade — tills det inte gjorde det

I två år var retrieval-augmented generation standardsättet att ge en språkmodell åtkomst till privat data. Dela upp dokumenten i stycken, bädda in dem, lagra dem i en vektordatabas, hämta de bästa träffarna vid frågetid och klistra in dem i prompten. Det fungerade. Det fungerar fortfarande för engångsfrågor över statiska dokument.

Agentiska arbetsbelastningar bryter mönstret.

En agent ställer inte en fråga. Den kör dussintals verktygsanrop, och vid varje tillfälle återupptäcks samma kontext från grunden. Varje session börjar tom. Varje hämtning tolkar om samma stycken. Varje svar är ett nytt resonemang över råtext som modellen redan bearbetat tusentals gånger tidigare.

Enligt branschuppskattningar går 80–85 % av agentberäkning till återupptäckt i stället för att slutföra uppgiften. Vi kan diskutera exakt siffra, men mönstret är verkligt: samma kunskapsbas, frågad av samma agent, med strukturellt liknande frågor, som gör samma tolkningsarbete om och om igen.

Det är inte ett hämtningsproblem. Det är ett arkitekturproblem.

Vad runtime-RAG inte klarar vid skala

Tre saker brister i stor skala.

Determinism. Kör samma uppgift två gånger mot samma dokument och en agent kan ge olika svar, utan att det finns spår av vilken källa som drev vilket resultat. För arbetsflöden som berör regelefterlevnad, revision, ekonomi eller HR är det en strukturell diskvalificering. Ni kan inte leverera en agent som ger ett annat tal på tisdag än på måndag.

Kostnad. Resonemang vid frågetid betyder att ni betalar inferenstokens för arbete som inte behövde ske vid frågetid. Vad en policytext betyder ändras inte mellan sessioner. Att härleda om det vid varje anrop är en skatt på varje användare.

Citeringsärlighet. Citering på dokumentnivå — “detta svar kom från denna PDF” — räcker inte när agentens påstående byggs från tre meningar över två kapitel. Köpare i reglerade branscher vill ha proveniens på påståendenivå med konfidenspoäng. Vektors likhet ensamt ger inte det.

Skiftet: flytta resonemang till kompileringstid

Ett tydligt arkitektoniskt skift är på gång. Formulerat enkelt:

Sluta tolka källdata vid frågetid. Tolka en gång, vid kompileringstid, och lagra resultatet.

Vektorn försvinner inte. Den blir reserv för långsvansfrågor, inte huvudingången. Framför den ligger ett lager av förkompilerade artefakter: destillerade sammanfattningar, entitetsindex, strukturkartor, grafer med påståenden och citeringar, konfliktregister. Agenten läser kompilerad kunskap först och faller tillbaka till rå hämtning bara när frågan inte passar någon kompilerad artefakt.

Det är inte en ny idé i mjukvara. Materialiserade vyer, byggpipelines, ahead-of-time-kompilering — varje mogen plattform flyttar så småningom dyr tolkningsarbete ur den heta vägen. AI-infrastrukturen hinner äntligen ikapp.

Hur Copyl hanterar det — inbyggt

Ett kompilerat kunskapslager kan sättas ihop från olika delar: en vektorlagring här, ett orchestreringsverktyg där, en anpassad pipeline som limmar ihop det. Det fungerar — tills det måste skalas över tenants, agenter, policys, språk och revisionskrav på en gång. Då blir skarvarna själva arbetet.

I Copyl är kompilering en förstaklassdel av plattformen, inte ett pålimmat tillägg.

Kunskapsbasen — Böcker, Kapitel och Dokument skrivna i markdown — kompileras till Knowledge Briefs: uppgiftsoptimerade representationer bundna till en specifik Agentprofil. En Brief innehåller:

En destillerad sammanfattning justerad för agentens omfång och persona
Ett entitetsindex extraherat en gång, inte omhärlett per fråga
En strukturkarta över underliggande Böcker och Kapitel
En citeringsgraf som kopplar varje påstående till källsektion med konfidenspoäng
Ett konfliktregister där motsägelser mellan Dokument upptäcks och löses med agentens egna policys och SOP:ar

Det som gör detta hållbart är inte kompileringssteget isolerat — det är integrationen runt det.

Agentprofiler är uppgiftsspecifikationen. Varje Copyl-agent deklarerar redan sitt omfång, sin persona och sina mål. Briefs kompileras direkt mot den profilen. Det finns inget separat uppgiftsdefinitionslager att skriva och underhålla.

Policys och SOP:ar driver konfliktlösning. När två Dokument motsäger varandra är lösningsregeln inte ad hoc. Den kommer från de policys och SOP:ar kunden redan skrivit. Regelefterlevnad är inte pålimmad i slutet; den är sanningen kompilatorn körs mot.

CIP gör ogiltigförklaring automatisk. När ett Dokument, Kapitel eller Bok ändras ogiltigförklarar plattformens händelsebuss berörda Briefs och köar omkompilering. Inget externt orchestreringsverktyg, ingen manuell cache-rensning.

“Forka, förstör inte” gäller också kompilerad kunskap. Mallagenter kommer med mall-Briefs. När en kund anpassar sin agent eller sin KB forgas Briefen per tenant — originalet förstörs aldrig, och en kunds kompilerade kunskap läcker aldrig in i en annan kunds runtime.

Versionshanterad och revisionsredo som standard. Varje Brief är versionshanterad, varje påstående har källa, varje konfliktlösning registreras. Revisionsspåret är artefakten, inte något som rekonstrueras i efterhand.

Vad köpare faktiskt bryr sig om

Den tekniska berättelsen är intressant. Köparberättelsen är kortare.

Samma svar två gånger. Reproducerbarhet slutar vara en önskelista.

Lägre kostnad per fråga. Kompilerade artefakter är mindre och mer fokuserade än råa hämtningsnyttolaster.

Revisionssäkra citeringar. Varje påstående knyts till en källsektion med konfidenspoäng. Compliance- och juridiska team kan faktiskt godkänna.

Multi-tenant-säkerhet utan extra rör. Tenantisolering upprätthålls vid kompileringsskiktet, inte improviseras vid runtime.

Flerspråk utan översättning vid runtime. Kompilering producerar Briefs på de språk kunskapsbasen och användaren faktiskt talar — ingen översättningsskatt i flyktet.

Det är inte funktioner. Det är skillnaden mellan en agent ni kan demonstrera och en agent ni kan driftsätta.

Vad vi inte säger

Kompilerade kunskapslager är inte en silver bullet. Det finns overhead: kompileringsjobb kostar tokens i förväg, Briefs blir inaktuella om ogiltigförklaring inte är kopplad rätt, och arkitekturen ger lönsamhet först vid meningsfull frågevolym. Team som kör ett fåtal frågor per dag per agent bör först förbättra hybridhämtning och ommrankning innan de rör detta.

Vi tror inte heller att runtime-RAG försvinner. Den blir ett reservlager i stället för det primära — vilket i efterhand är där den alltid hörde hemma.

Vart det leder

Team som levererar produktionsagenter genom 2026 kommer att likna team som kör disciplinerad datainfrastruktur mer än team som kör smarta promptpipelines. Noveltypremien för “vi har en AI-agent” är borta. Premien framåt ligger på agenter som är billiga, reproducerbara, revisionsredo och förankrade i kunskap som byggarna faktiskt kan försvara.

Det är ribban.

I Copyl är Knowledge Compilation Layer hur vi möter den — och eftersom den är inbyggd i samma plattform som redan äger agenterna, policys, data och händelser behöver ni inte sätta ihop den själva.

Alla inlägg