Context Anxiety: quando agentes de IA começam a correr antes de terminar
Como a proximidade do limite de contexto pode levar agentes a acelerar conclusões, perder detalhes importantes e comprometer decisões em tarefas longas.
A maior parte das conversas sobre LLMs ainda gira em torno de modelos maiores, respostas mais rápidas e janelas de contexto cada vez mais longas.
E faz sentido. A janela de contexto é uma parte essencial da evolução desses modelos.
Ela define quanto conteúdo uma LLM consegue “enxergar” de uma vez: instruções, histórico da conversa, documentos, respostas de ferramentas, logs, decisões anteriores e tudo aquilo que o agente precisa considerar para continuar raciocinando.
Mas existe um ponto menos óbvio nessa discussão.
Em agentes de IA, o problema não é apenas quanto contexto cabe na janela. O problema é o que acontece com o comportamento do agente quando esse contexto começa a ficar cheio.
É aqui que entra o conceito de context anxiety.
O termo descreve um comportamento observado em alguns agentes quando eles percebem, ou assumem, que estão próximos do limite da janela de contexto. Em vez de continuar a tarefa com o mesmo nível de rigor, o agente pode começar a acelerar conclusões, resumir demais, cortar etapas, declarar que terminou antes da hora ou evitar aprofundar decisões importantes.
Não é “ansiedade” no sentido humano da palavra. É uma metáfora para um comportamento técnico: o modelo passa a agir como se estivesse ficando sem espaço para pensar.
Provedores como Anthropic e OpenAI têm tratado cada vez mais a gestão de contexto como uma parte central da arquitetura de agentes. A Anthropic chegou a descrever o comportamento conhecido como “context anxiety”, quando um agente pode começar a encerrar tarefas prematuramente ao perceber que está próximo do limite da janela de contexto. Já a OpenAI aborda o tema pelo lado de context engineering e short-term memory management, destacando que mesmo janelas grandes podem ser prejudicadas por históricos mal curados, excesso de ruído e resultados redundantes de ferramentas.
Esse ponto muda bastante a conversa, porque mostra que o desafio não está apenas no tamanho da janela, mas na forma como o sistema administra o que entra nela.
Durante muito tempo, a solução parecia simples: aumentar a janela de contexto.
Se 8 mil tokens eram pouco, passamos para 32 mil. Depois 128 mil. Depois centenas de milhares. Hoje já falamos em janelas de contexto enormes.
Mas janelas maiores não resolvem tudo sozinhas.
Na prática, um agente pode falhar por excesso de informação, não apenas por falta dela.
Ele pode se perder porque recebeu logs demais. Pode dar peso a uma decisão antiga que já não faz sentido. Pode recuperar uma instrução desatualizada. Pode carregar erros de uma etapa anterior para dentro das próximas decisões. Ou pode começar a “fechar” a tarefa cedo demais porque entende que precisa economizar espaço.
Esse é um ponto essencial para empresas que estão criando agentes para processos reais.
Um chatbot simples pode lidar com conversas curtas. Mas um agente que analisa documentos, consulta sistemas, executa tarefas, interpreta regras de negócio, chama APIs e acompanha um fluxo por várias etapas precisa de muito mais do que uma boa resposta.
Ele precisa de gestão de contexto.
E gestão de contexto não é apenas prompt engineering. É arquitetura.
É decidir o que entra no contexto, o que fica fora, o que vira memória, o que precisa ser recuperado sob demanda, o que deve ser resumido, o que deve ser descartado e o que precisa permanecer intacto.
Na minha visão, esse é um dos pontos mais subestimados na construção de agentes de IA.
Muitas vezes, a discussão fica concentrada no modelo: qual é mais rápido, qual responde melhor, qual tem mais tokens, qual custa menos. Mas, quando falamos de agentes em produção, o sistema ao redor do modelo passa a ser tão importante quanto o próprio modelo.
Pesquisas recentes também caminham nessa direção. O ReadAgent, por exemplo, propõe o uso de “gist memories”, ou memórias resumidas, para permitir que agentes lidem com documentos longos de forma mais robusta. A ideia é que o agente não dependa apenas de carregar tudo na janela, mas consiga comprimir episódios e buscar novamente trechos relevantes quando precisar.
Outro trabalho, o ACON, trata a compressão de contexto como um problema central para agentes de longo horizonte, especialmente porque agentes acumulam histórico de ações, observações e interações ao longo da execução. Nos experimentos descritos, a abordagem reduziu uso de memória em 26% a 54%, preservando grande parte da performance.
Isso reforça uma mudança importante: a próxima fase dos agentes de IA não será definida apenas por quem usa o modelo mais poderoso. Será definida por quem souber construir o melhor sistema ao redor dele.
Um agente confiável precisa saber quando lembrar, quando esquecer, quando pedir mais contexto, quando consultar uma fonte externa, quando criar um resumo e quando reiniciar uma etapa com clareza.
Porque contexto não é memória.
Contexto é o que o modelo enxerga agora. Memória é o que o sistema preserva para que o agente possa continuar operando com coerência ao longo do tempo.
Essa diferença parece simples, mas é crítica.
Quando tratamos a janela de contexto como se fosse memória permanente, criamos agentes frágeis. Eles parecem inteligentes no início, mas começam a degradar em tarefas longas. Perdem coerência, mudam critérios, esquecem decisões, repetem ações ou concluem cedo demais.
O impacto disso em ambientes corporativos pode ser grande.
Imagine um agente de auditoria médica que analisa documentos, regras, histórico de solicitações, evidências clínicas e critérios regulatórios.
Se ele perde contexto, pode ignorar uma evidência importante. Se compacta mal, pode apagar uma exceção relevante. Se entra em context anxiety, pode antecipar uma conclusão sem completar a análise.
Em processos críticos, isso não é apenas uma falha de experiência. É risco operacional.
Por isso, context anxiety deve ser visto como um alerta para qualquer empresa que esteja desenvolvendo agentes de IA em produção.
A pergunta não deve ser apenas: “qual modelo estamos usando?”
Também precisamos perguntar:
Como estamos gerenciando o contexto desse agente?
Quais informações são essenciais para a decisão?
O que pode ser resumido sem perda?
O que precisa ser preservado integralmente?
Quando o agente deve reiniciar com um novo contexto limpo?
Como garantimos rastreabilidade entre uma etapa e outra?
No fim, agentes inteligentes não dependem apenas de janelas maiores. Dependem de contexto bem desenhado.
A janela de contexto pode ser grande. Mas, se estiver cheia de ruído, histórico irrelevante e decisões mal preservadas, o agente continuará vulnerável.
Talvez a grande questão não seja apenas dar mais espaço para o modelo pensar.
É dar ao modelo o contexto certo, no momento certo, com a estrutura certa.
Porque, quando o contexto começa a acabar, o agente revela uma limitação importante: ele não precisa apenas responder bem.
Ele precisa conseguir continuar com coerência.
Referências
Anthropic: Scaling Managed Agents: Decoupling the brain from the hands.
Anthropic: Harness design for long-running application development.

