5. Mai 2026

Warum wir über Runtime-RAG hinausgegangen sind

Runtime-RAG bricht bei Agenten-Workloads: wiederholtes Retrieval verschwendet Compute. Warum Copyl Knowledge Briefs Schlussfolgern aus der Abfragezeit nehmen.

Die Architektur, die die meisten Teams nutzen, um KI-Agenten zu verankern, wurde für ein anderes Problem gebaut. So hat sich geändert, als wir aufgehört haben, zur Abfragezeit zu schlussfolgern.

Das Muster, das funktionierte — bis es nicht mehr funktionierte

Zwei Jahre lang war Retrieval-Augmented Generation der Standardweg, einem Sprachmodell privaten Daten zugänglich zu machen. Dokumente chunken, einbetten, in einer Vektordatenbank speichern, zur Abfragezeit die Top-k-Treffer abrufen, in den Prompt einfügen. Es funktionierte. Es funktioniert weiterhin für Einzelfragen über statische Dokumente.

Agentische Workloads brechen das Muster.

Ein Agent stellt nicht eine Frage. Er durchläuft Dutzende Tool-Aufrufe, bei jedem wird derselbe Kontext von Grund auf neu „entdeckt“. Jede Sitzung beginnt leer. Jede Abrufoperation interpretiert dieselben Chunks neu. Jede Antwort ist ein frischer Schlussfolgerungslauf über Rohtext, den das Modell schon tausendmal verarbeitet hat.

Nach Branchenschätzungen entfallen 80–85 % der Agent-Compute auf Wiederentdeckung statt Aufgabenerfüllung. Über die genaue Zahl lässt sich streiten, aber das Muster ist real: dieselbe Knowledge Base, abgefragt vom selben Agenten, strukturell ähnliche Fragen, dieselbe Interpretationsarbeit immer wieder.

Das ist kein Retrieval-Problem. Das ist ein Architekturproblem.

Was Runtime-RAG im großen Maßstab nicht leistet

Drei Dinge brechen bei Skalierung ein.

Determinismus. Führen Sie dieselbe Aufgabe zweimal gegen dieselben Dokumente aus, kann ein Agent unterschiedliche Antworten liefern — ohne Aufzeichnung, welche Quelle welches Ergebnis getrieben hat. Für Workflows mit Compliance, Audit, Finance oder HR ist das strukturell ausgeschlossen. Sie können keinen Agenten ausliefern, der am Dienstag eine andere Zahl liefert als am Montag.

Kosten. Schlussfolgern zur Abfragezeit bedeutet, Inferenz-Tokens für Arbeit zu zahlen, die nicht zur Abfragezeit hätte passieren müssen. Was ein Abschnitt einer Policy bedeutet, ändert sich nicht zwischen Sitzungen. Es bei jedem Aufruf neu abzuleiten, ist eine Steuer auf jeden Nutzer.

Zitations-Wahrheit. Zitate auf Dokumentebene — „diese Antwort kam aus diesem PDF“ — reichen nicht, wenn die Behauptung des Agenten aus drei Sätzen über zwei Kapitel besteht. Käufer in regulierten Branchen wollen Provenance auf Behauptungsebene mit Konfidenzwerten. Vektorähnlichkeit allein liefert das nicht.

Der Shift: Schlussfolgern zur Compile-Zeit verschieben

Ein klarer architektonischer Wandel ist im Gange. Kurz gesagt:

Hören Sie auf, Quelldaten zur Abfragezeit zu interpretieren. Interpretieren Sie einmal zur Compile-Zeit und speichern Sie das Ergebnis.

Der Vektorindex verschwindet nicht. Er wird zum Fallback für Long-Tail-Fragen, nicht zur Haustür. Davor liegt eine Schicht vorkompilierter Artefakte: verdichtete Zusammenfassungen, Entitätsindizes, Strukturkarten, Graphen mit Behauptungen und Zitaten, Konfliktregister. Der Agent liest zuerst kompiliertes Wissen und fällt nur zurück auf rohes Retrieval, wenn die Frage zu keinem Artefakt passt.

Das ist keine neue Idee in der Software. Materialisierte Sichten, Build-Pipelines, Ahead-of-Time-Kompilierung — jede reife Plattform verschiebt irgendwann teure Interpretationsarbeit aus dem Hot Path. Die KI-Infrastruktur holt nach.

Wie Copyl das nativ löst

Eine kompilierte Wissensschicht lässt sich aus heterogenen Teilen zusammensetzen: Vektorspeicher hier, Orchestrierung dort, eigene Pipeline als Klebstoff. Das funktioniert — bis Skalierung über Mandanten, Agenten, Policies, Sprachen und Audit-Anforderungen gleichzeitig nötig wird. Dann wird die Naht zur Arbeit.

Bei Copyl ist Kompilierung Erste-Klasse-Plattform, kein Anbau.

Die Knowledge Base — Bücher, Kapitel und in Markdown verfasste Docs — kompiliert zu Knowledge Briefs: aufgabenoptimierte Repräsentationen, gebunden an ein Agentenprofil. Ein Brief enthält:

Eine verdichtete Zusammenfassung, abgestimmt auf Umfang und Persona des Agenten
Einen einmal extrahierten Entitätsindex, nicht pro Abfrage neu abgeleitet
Eine Strukturkarte der zugrunde liegenden Bücher und Kapitel
Einen Zitationsgraphen, der jede Behauptung mit Quellabschnitt und Konfidenzwert verknüpft
Ein Konfliktregister, in dem Widersprüche zwischen Docs erkannt und mit den Policies und SOPs des Agenten gelöst werden

Entscheidend ist nicht der Kompilierungsschritt isoliert — sondern die Integration drumherum.

Agentenprofile sind die Aufgabenspezifikation. Jeder Copyl-Agent definiert bereits Umfang, Persona und Ziele. Briefs kompilieren direkt gegen dieses Profil. Es gibt keine separate Aufgabendefinitions-Schicht zu pflegen.

Policies und SOPs steuern Konfliktlösung. Widersprechen sich zwei Docs, ist die Regel nicht ad hoc — sie kommt aus den bereits geschriebenen Policies und SOPs des Kunden. Compliance ist nicht nachträglich angeklebt; sie ist die Wahrheit, gegen die der Compiler läuft.

CIP macht Invalidierung automatisch. Ändert sich ein Doc, Kapitel oder Buch, invalidiert der Event-Bus der Plattform die betroffenen Briefs und stellt Rekompilierung in die Warteschlange. Kein externes Orchestrierungstool, kein manuelles Cache-Leeren.

„Forken statt kaputtmachen“ gilt auch für kompiliertes Wissen. Template-Agenten haben Template-Briefs. Passt ein Kunde Agent oder KB an, wird der Brief pro Mandant geforkt — das Original bleibt intakt, kompiliertes Wissen eines Kunden leckt nicht in die Runtime eines anderen.

Standardmäßig versioniert und auditierbar. Jeder Brief ist versioniert, jede Behauptung belegt, jede Konfliktlösung protokolliert. Der Audit-Trail ist das Artefakt, keine nachträgliche Rekonstruktion.

Worauf Käufer wirklich achten

Die technische Geschichte ist interessant. Die Käufergeschichte ist kürzer.

Zweimal dieselbe Antwort. Reproduzierbarkeit wird kein Wunschpunkt mehr.

Niedrigere Kosten pro Abfrage. Kompilierte Artefakte sind kleiner und fokussierter als rohe Retrieval-Nutzlasten.

Auditierbare Zitate. Jede Behauptung verbindet sich mit einem Quellabschnitt und Konfidenzwert. Compliance und Legal können zustimmen.

Multi-Tenant-Sicherheit ohne Extra-Piping. Mandantenisolation wird in der Kompilierungsschicht durchgesetzt, nicht improvisiert zur Laufzeit.

Mehrsprachigkeit ohne Übersetzung zur Laufzeit. Kompilierung erzeugt Briefs in den Sprachen, die KB und Nutzer wirklich sprechen — keine Übersetzungssteuer im Flug.

Das sind keine Features. Das ist der Unterschied zwischen einem Agenten zum Demonstrieren und einem zum Deployen.

Was wir nicht behaupten

Kompilierte Wissensschichten sind kein Allheilmittel. Es gibt Overhead: Kompilierungsjobs kosten vorab Tokens, Briefs veralten, wenn Invalidierung nicht verdrahtet ist, und die Architektur amortisiert sich erst bei nennenswertem Abfragevolumen. Teams mit wenigen Abfragen pro Tag und Agent sollten zuerst Hybrid-Retrieval und Reranking verbessern.

Wir glauben auch nicht, dass Runtime-RAG verschwindet. Es wird zur Fallback-Schicht statt zur primären — was im Nachhinein immer seine Rolle war.

Wohin die Reise geht

Teams, die 2026 Produktions-Agenten ausliefern, werden eher wie Teams mit disziplinierter Dateninfrastruktur wirken als wie Teams mit cleveren Prompt-Pipelines. Der Novelty-Premium für „wir haben einen KI-Agenten“ ist weg. Der Premium liegt auf Agenten, die günstig, reproduzierbar, audit-ready und verankert in verteidigbarem Wissen sind.

Das ist die Messlatte.

Bei Copyl ist die Knowledge Compilation Layer unsere Antwort — und weil sie in derselben Plattform steckt, die Agenten, Policies, Daten und Events bereits besitzt, müssen Sie sie nicht selbst zusammenbauen.

Alle Beiträge