5 de mayo de 2026

Por qué fuimos más allá del RAG en tiempo de ejecución

El RAG en runtime falla con cargas de agentes: recuperación repetida desperdicia cómputo. Por qué los Knowledge Briefs de Copyl sacan el razonamiento.

La arquitectura que la mayoría de los equipos usan para anclar agentes de IA se construyó para otro problema. Esto es lo que cambió cuando dejamos de razonar en el momento de la consulta.

El patrón que funcionó — hasta que dejó de hacerlo

Durante dos años, la generación aumentada por recuperación fue la forma estándar de dar a un modelo lingüístico acceso a datos privados. Fragmentar documentos, incrustarlos, almacenarlos en una base vectorial, recuperar los mejores resultados en tiempo de consulta y pegarlos en el prompt. Funcionó. Sigue funcionando para preguntas puntuales sobre documentos estáticos.

Las cargas agénticas rompen el patrón.

Un agente no hace una sola pregunta. Ejecuta docenas de llamadas a herramientas, y en cada una redescubre el mismo contexto desde cero. Cada sesión empieza en blanco. Cada recuperación reinterpreta los mismos fragmentos. Cada respuesta es un nuevo paso de razonamiento sobre texto bruto que el modelo ya procesó mil veces.

Según estimaciones del sector, el 80–85 % del cómputo del agente va al redescubrimiento en lugar de completar la tarea. Podemos debatir la cifra exacta, pero el patrón es real: la misma base de conocimiento, consultada por el mismo agente, con preguntas estructuralmente parecidas, repitiendo el mismo trabajo interpretativo una y otra vez.

Eso no es un problema de recuperación. Es un problema de arquitectura.

Lo que el RAG en tiempo de ejecución no puede hacer a escala

Tres cosas fallan a escala.

Determinismo. Ejecuta la misma tarea dos veces contra los mismos documentos y un agente puede devolver respuestas distintas, sin registro de qué fuente impulsó cada resultado. Para flujos que tocan cumplimiento, auditoría, finanzas o RRHH, eso descalifica de forma estructural. No puede desplegar un agente que dé un número distinto el martes que el lunes.

Coste. Razonar en tiempo de consulta significa pagar tokens de inferencia por trabajo que no tenía que ocurrir en ese momento. Lo que una sección de política significa no cambia entre sesiones. Re derivarlo en cada llamada es un impuesto por usuario.

Honestidad en las citas. Citas a nivel de documento — “esta respuesta vino de este PDF” — no bastan cuando la afirmación del agente se construye con tres frases en dos capítulos. Los compradores en sectores regulados quieren procedencia a nivel de afirmación con puntuaciones de confianza. La similitud vectorial por sí sola no produce eso.

El cambio: llevar el razonamiento al tiempo de compilación

Hay un cambio arquitectónico claro en curso. En pocas palabras:

Dejen de interpretar los datos de origen en tiempo de consulta. Interprételos una vez, en tiempo de compilación, y almacenen el resultado.

El índice vectorial no desaparece. Pasa a ser la red de seguridad para preguntas de cola larga, no la puerta principal. Delante hay una capa de artefactos precompilados: resúmenes destilados, índices de entidades, mapas de estructura, grafos de afirmaciones con citas, registros de conflictos. El agente lee primero el conocimiento compilado y solo recurre a la recuperación cruda cuando la pregunta no encaja en ningún artefacto.

No es una idea nueva en software. Vistas materializadas, pipelines de compilación, compilación anticipada — toda plataforma madura acaba sacando el trabajo caro de interpretación fuera del camino caliente. La infraestructura de IA por fin se alinea.

Cómo lo aborda Copyl — de forma nativa

Una capa de conocimiento compilado puede armarse con piezas dispares: un almacén vectorial aquí, una herramienta de orquestación allí, un pipeline personalizado que lo una. Funciona — hasta que debe escalar entre inquilinos, agentes, políticas, idiomas y requisitos de auditoría a la vez. Entonces las uniones son el trabajo.

En Copyl, la compilación es de primera clase en la plataforma, no un añadido.

La base de conocimiento — Libros, Capítulos y documentos en markdown — se compila en Knowledge Briefs: representaciones optimizadas para la tarea, ligadas a un perfil de agente específico. Un Brief incluye:

Un resumen destilado afinado al alcance y la persona del agente
Un índice de entidades extraído una vez, no rederivado por consulta
Un mapa de estructura de los Libros y Capítulos subyacentes
Un grafo de citas que enlaza cada afirmación con la sección fuente y una puntuación de confianza
Un registro de conflictos donde se detectan contradicciones entre documentos y se resuelven con las políticas y SOP propias del agente

Lo que lo hace viable no es el paso de compilación aislado — es la integración alrededor.

Los perfiles de agente son la especificación de tarea. Cada agente de Copyl ya declara su alcance, persona y objetivos. Los Briefs se compilan directamente contra ese perfil. No hay una capa separada de definición de tareas que mantener.

Las políticas y SOP impulsan la resolución de conflictos. Cuando dos documentos se contradicen, la regla no es ad hoc: proviene de las políticas y SOP que el cliente ya escribió. El cumplimiento no se pega al final; es la fuente de verdad contra la que corre el compilador.

CIP invalida automáticamente. Cuando cambia un documento, capítulo o libro, el bus de eventos de la plataforma invalida los Brief afectados y encola la recompilación. Sin herramienta externa de orquestación, sin vaciar caché a mano.

«Hacer fork, no romper» también aplica al conocimiento compilado. Los agentes plantilla traen Brief plantilla. Cuando un cliente personaliza su agente o su base de conocimiento, el Brief se bifurca por inquilino — el original no se corrompe y el conocimiento compilado de un cliente no filtra al runtime de otro.

Versionado y listo para auditoría por defecto. Cada Brief está versionado, cada afirmación tiene fuente, cada resolución de conflicto queda registrada. La pista de auditoría es el artefacto, no algo reconstruido después.

Lo que realmente importa a los compradores

La historia técnica es interesante. La historia del comprador es más corta.

La misma respuesta dos veces. La reproducibilidad deja de ser un deseo.

Menor coste por consulta. Los artefactos compilados son más pequeños y enfocados que las cargas de recuperación cruda.

Citas auditables. Cada afirmación enlaza a una sección fuente con puntuación de confianza. Cumplimiento y legal pueden firmar.

Seguridad multiinquilino sin tubería extra. El aislamiento se aplica en la capa de compilación, no improvisado en tiempo de ejecución.

Multilingüismo sin traducción en runtime. La compilación produce Brief en los idiomas que realmente hablan la base de conocimiento y el usuario — sin impuesto de traducción al vuelo.

No son características. Son la diferencia entre un agente que puede demostrar y uno que puede desplegar.

Lo que no estamos diciendo

Las capas de conocimiento compilado no son una bala de plata. Hay sobrecoste: los trabajos de compilación consumen tokens por adelantado, los Brief quedan obsoletos si la invalidación no está bien cableada, y la arquitectura solo compensa con volumen de consultas significativo. Los equipos con pocas consultas al día por agente deberían primero mejorar la recuperación híbrida y el reranking.

Tampoco creemos que el RAG en runtime desaparezca. Pasa a ser una capa de respaldo en lugar de la principal — que, en retrospectiva, es donde siempre debió estar.

Hacia dónde va esto

Los equipos que despliegan agentes en producción durante 2026 se parecerán más a equipos con infraestructura de datos disciplinada que a equipos con pipelines de prompts ingeniosos. La prima de novedad por «tenemos un agente de IA» se acabó. La prima adelante está en agentes baratos, reproducibles, listos para auditoría y anclados en conocimiento que sus creadores pueden defender.

Esa es la vara.

En Copyl, la Knowledge Compilation Layer es cómo la superamos — y al estar integrada en la misma plataforma que ya posee agentes, políticas, datos y eventos, no tiene que ensamblarla usted mismo.

Todos los artículos