5 de maio de 2026

Porque avançámos para além do RAG em tempo de execução

O RAG em runtime falha em cargas de agentes: recuperação repetida gasta compute. Porque os Knowledge Briefs da Copyl movem o raciocínio fora da consulta.

A arquitectura que a maioria das equipas usa para ancilar agentes de IA foi construída para outro problema. Foi isto que mudou quando deixámos de raciocinar no momento da consulta.

O padrão que funcionou — até deixar de funcionar

Durante dois anos, a geração aumentada por recuperação foi a forma padrão de dar a um modelo linguístico acesso a dados privados. Fragmentar documentos, incorporá-los, armazená-los numa base vectorial, recuperar os melhores resultados em tempo de consulta e colá-los no prompt. Funcionou. Continua a funcionar para perguntas pontuais sobre documentos estáticos.

Cargas agenciais quebram o padrão.

Um agente não faz uma pergunta só. Executa dezenas de chamadas a ferramentas, cada uma a redescobrir o mesmo contexto do zero. Cada sessão começa em branco. Cada recuperação reinterpreta os mesmos fragmentos. Cada resposta é uma nova passagem de raciocínio sobre texto bruto que o modelo já processou mil vezes.

Por estimativas do setor, 80–85 % da computação do agente vai para redescobrir em vez de concluir a tarefa. Podemos debater o número exato, mas o padrão é real: a mesma base de conhecimento, consultada pelo mesmo agente, com perguntas estruturalmente semelhantes, repetindo o mesmo trabalho interpretativo.

Isto não é um problema de recuperação. É um problema de arquitectura.

O que o RAG em tempo de execução não consegue à escala

Três coisas falham em grande escala.

Determinismo. Execute a mesma tarefa duas vezes contra os mesmos documentos e um agente pode devolver respostas diferentes, sem registo de que fonte impulsionou cada resultado. Para fluxos que envolvem conformidade, auditoria, finanças ou RH, isso desqualifica estruturalmente. Não pode lançar um agente que dê um número diferente na terça-feira do que na segunda-feira.

Custo. Raciocinar em tempo de consulta significa pagar tokens de inferência por trabalho que não tinha de ocorrer nesse momento. O que uma secção de política significa não muda entre sessões. Voltar a derivá-lo em cada chamada é um imposto por utilizador.

Honestidade das citações. Citações ao nível do documento — “esta resposta veio deste PDF” — não bastam quando a afirmação do agente é construída a partir de três frases em dois capítulos. Compradores em sectores regulados querem proveniência ao nível da afirmação com pontuações de confiança. A similaridade vectorial sozinha não produz isso.

A mudança: mover o raciocínio para o tempo de compilação

Há uma mudança arquitectónica clara em curso. Em poucas palavras:

Parem de interpretar os dados de origem em tempo de consulta. Interpretem uma vez, em tempo de compilação, e armazenem o resultado.

O índice vectorial não desaparece. Torna-se a rede de segurança para perguntas de cauda longa, não a porta principal. À frente há uma camada de artefactos pré-compilados: resumos destilados, índices de entidades, mapas de estrutura, grafos de afirmações com citações, registos de conflitos. O agente lê primeiro o conhecimento compilado e só recorre à recuperação crua quando a pergunta não encaixa em nenhum artefacto.

Não é uma ideia nova em software. Vistas materializadas, pipelines de build, compilação antecipada — toda a plataforma madura acaba por mover o trabalho caro de interpretação para fora do caminho quente. A infraestrutura de IA está finalmente a alinhar.

Como a Copyl trata disto — de forma nativa

Uma camada de conhecimento compilado pode ser montada a partir de peças díspares: um armazém vectorial aqui, uma ferramenta de orquestração ali, um pipeline personalizado a colar. Funciona — até ter de escalar entre inquilinos, agentes, políticas, idiomas e requisitos de auditoria ao mesmo tempo. Nesse ponto as junções são o trabalho.

Na Copyl, a compilação é de primeira classe na plataforma, não um acrescento.

A base de conhecimento — Livros, Capítulos e documentos em markdown — compila-se em Knowledge Briefs: representações optimizadas para a tarefa, ligadas a um perfil de agente específico. Um Brief contém:

Um resumo destilado afinado ao âmbito e persona do agente
Um índice de entidades extraído uma vez, não rederivado por consulta
Um mapa de estrutura dos Livros e Capítulos subjacentes
Um grafo de citações que liga cada afirmação à secção fonte com pontuação de confiança
Um registo de conflitos onde contradições entre documentos são detectadas e resolvidas com as políticas e SOP do próprio agente

O que torna isto sustentável não é o passo de compilação isolado — é a integração à volta.

Perfis de agente são a especificação da tarefa. Cada agente Copyl já declara âmbito, persona e objectivos. Os Briefs compilam directamente contra esse perfil. Não há uma camada separada de definição de tarefas a manter.

Políticas e SOP impulsionam a resolução de conflitos. Quando dois documentos contradizem-se, a regra não é ad hoc — vem das políticas e SOP que o cliente já escreveu. A conformidade não é colada no fim; é a fonte de verdade contra a qual o compilador corre.

O CIP torna a invalidação automática. Quando um documento, capítulo ou livro muda, o barramento de eventos da plataforma invalida os Briefs afectados e fila a recompilação. Sem ferramenta externa de orquestração, sem limpar cache manualmente.

«Fazer fork, não partir» também se aplica ao conhecimento compilado. Agentes modelo trazem Briefs modelo. Quando um cliente personaliza o agente ou a base de conhecimento, o Brief bifurca por inquilino — o original nunca se corrompe e o conhecimento compilado de um cliente não infiltra o runtime de outro.

Versionado e pronto para auditoria por defeito. Cada Brief é versionado, cada afirmação tem fonte, cada resolução de conflito fica registada. O trilho de auditoria é o artefacto, não algo reconstruído depois.

O que os compradores realmente valorizam

A história técnica é interessante. A história do comprador é mais curta.

A mesma resposta duas vezes. A reprodutibilidade deixa de ser lista de desejos.

Menor custo por consulta. Os artefactos compilados são mais pequenos e focados do que cargas de recuperação cruas.

Citações auditáveis. Cada afirmação liga-se a uma secção fonte com pontuação de confiança. Equipas de conformidade e jurídico podem assinar.

Segurança multi-inquilino sem tubagens extra. O isolamento aplica-se na camada de compilação, não improvisado em tempo de execução.

Multilingue sem tradução em runtime. A compilação produz Briefs nos idiomas em que a base de conhecimento e o utilizador realmente falam — sem imposto de tradução em voo.

Isto não são funcionalidades. São a diferença entre um agente que pode demonstrar e um agente que pode implantar.

O que não estamos a dizer

Camadas de conhecimento compilado não são bala de prata. Há sobrecusto: trabalhos de compilação custam tokens antecipadamente, Briefs ficam obsoletos se a invalidação não estiver ligada correctamente, e a arquitectura só compensa com volume de consultas significativo. Equipas com poucas consultas por dia por agente devem primeiro melhorar recuperação híbrida e reranking.

Também não achamos que o RAG em runtime vá desaparecer. Torna-se uma camada de recurso em vez da principal — que, em retrospectiva, era sempre o seu lugar.

Para onde isto vai

As equipas que lançam agentes em produção ao longo de 2026 vão parecer-se mais com equipas de infraestrutura de dados disciplinada do que com equipas de pipelines de prompts inteligentes. O prémio de novidade por «temos um agente de IA» acabou. O prémio à frente está em agentes baratos, reprodutíveis, prontos para auditoria e ancorados em conhecimento que os criadores podem defender.

Esse é o patamar.

Na Copyl, a Knowledge Compilation Layer é como o ultrapassamos — e por estar integrada na mesma plataforma que já possui agentes, políticas, dados e eventos, não tem de a montar sozinho.

Todos os artigos