Todos os posts
aiagentsdevopsgovernance

Anthropic admite que o Claude Code ficou quebrado por dois meses — três bugs, um post-mortem e o que aprendi gastando US$ 1.000 em tokens

Gustavo Velozo · · 9 min read

A Anthropic admitiu publicamente: o Claude Code ficou degradado por quase dois meses (março e abril de 2026). O post-mortem foi publicado em 23 de abril e descreve três bugs separados que, juntos, deixaram o agente "burrinho" — esquecendo decisões, repetindo passos, tomando escolhas estranhas no meio de uma tarefa, e queimando tokens muito mais rápido do que deveria.

Trabalho com cybersegurança há 18+ anos, hoje sou Senior Cybersecurity Lead na Microsoft com foco em IA aplicada, e nos últimos meses venho usando Claude Code em sessões de desenvolvimento intensivas — multi-agente, sessões de 40+ horas, dezenas de milhões de tokens. Eu senti a degradação na pele antes do post-mortem sair. Vou te contar o que cada bug fez, por que isso é mais sério do que parece, e o que mudei na minha rotina depois de ler o relatório.

Por que um post-mortem público importa?

Uma empresa não publica post-mortem à toa. Quando publica, é porque o problema foi grave o suficiente para colocar credibilidade em jogo se ela ficasse calada. Esse documento explica três coisas: o que quebrou, por que quebrou, e o que muda para não acontecer de novo.

A maioria das empresas odeia esse exercício porque é, em português claro, queima de filme. O fato de a Anthropic ter publicado um relatório técnico — sem linguagem corporativa lavada — é uma postura que merece crédito. Eles também estão resetando os limites de uso de todos os assinantes como compensação, o que não conserta o tempo perdido, mas reconhece o problema.

Os três bugs afetaram Claude Code, o Agent SDK e a plataforma Claude.ai. Quem usou essas ferramentas de forma intensa entre março e abril provavelmente notou.

Bug nº 1 — A Anthropic baixou o nível de raciocínio de propósito

Esse é o mais controverso dos três. Não é exatamente um "bug" no sentido clássico — foi uma decisão de produto.

No início de março, usuários começaram a reclamar de latência: o Claude estava travando a UI, demorando demais para responder, parecia "pensar" mais do que precisava. Em 4 de março, a Anthropic baixou o nível padrão de raciocínio do modelo de high para medium para a maioria das tarefas. A lógica interna deles, segundo o post-mortem: medium entrega inteligência ligeiramente inferior mas com latência significativamente menor, e ajuda a não estourar os limites de uso.

O problema: eles subestimaram quanto os usuários power notariam a queda. Eu particularmente notei muito. Falei para vários amigos que o Claude estava estranho — quem usa de forma casual quase não percebeu, mas quem trabalha de forma intensa pegou no ato. Em 7 de abril, eles reverteram para high (e extra-high para Opus 4.7), depois das reclamações ficarem altas demais para ignorar.

A lição aqui é dura: defaults importam mais do que features. Sistemas de IA têm vários botões internos que o usuário não vê. Se o default muda silenciosamente, você está usando um produto diferente do que comprou — e pode nem perceber.

Bug nº 2 — O Claude perdeu a memória em sessões longas

Esse foi o mais técnico e, na minha opinião, o mais danoso do trio.

A Anthropic introduziu uma otimização aparentemente sensata: se uma sessão fica inativa por mais de uma hora, limpa os blocos de raciocínio antigos antes de retomar. Reduz custo, reduz latência, faz sentido no papel.

O bug: em vez de limpar o raciocínio uma vez quando a sessão era retomada, o código limpava o raciocínio a cada turno pelo resto da sessão inteira. O efeito prático foi devastador para quem usa Claude Code de forma assíncrona:

Eu rodo sessões de 40+ horas. Programo agentes, vou dormir, volto, valido, mando mais instruções. Toda vez que voltava de uma pausa de 1-2 horas, o agente entrava nesse modo "criança de 3 anos repetindo a mesma frase". Agora faz sentido.

A Anthropic levou mais de duas semanas para encontrar a causa raiz desse bug — corrigido em 10 de abril. Para um sistema de produção que é o core business da empresa, é muito tempo.

Bug nº 3 — 25 palavras quebraram o Opus 4.7

Esse é o mais irônico de todos.

O Opus 4.7 é caro. Ele "pensa em voz alta", produz output longo, gasta muito token. Para reduzir essa verbosidade, a Anthropic adicionou uma instrução simples no system prompt: mantenha as chamadas de ferramenta em até 25 palavras.

Testaram internamente por semanas. Não viram nada grave. Lançaram junto com o Opus 4.7 em 16 de abril. Pouco tempo depois, começaram a chegar relatórios de queda de qualidade — agora afetando o 4.7.

Quando removeram a instrução linha por linha para isolar o efeito, encontraram uma queda de 3% nas avaliações de coding comparando Opus 4.6 vs 4.7 com o prompt ativo. Três por cento parece pouco. Não é. Em tarefas de coding complexas e sessões longas, 3% é a diferença entre completar uma atividade e travar nela — porque o erro composta a cada turno.

A ironia: a Anthropic faz o produto-líder de coding agentic com IA, e o conjunto de avaliações automatizadas que eles usam não captou esse impacto. A IA sendo usada para revisar código que muda o comportamento da própria IA — sem teste de coding suficientemente amplo. É um ponto cego de governança que vai se repetir em todo lugar que IA modifica IA sem human-in-the-loop forte.

O que isso me custou — e por que eu compartilho o número

Em uma sessão recente eu queimei 138 milhões de tokens de input em 41 horas de execução agentic. A conta estimada para essas oito sessões do mês: cerca de US$ 1.000 em API direta.

A questão não é o número absoluto. É a pergunta: quanto desse custo veio dos bugs? Se o Claude estivesse nos níveis de qualidade pré-março, eu provavelmente teria queimado bem menos tokens para chegar nos mesmos resultados — porque ele não estaria repetindo passos, perdendo contexto, e tomando rotas tortuosas.

Quando você decide migrar do plano Max para consumo direto via API (o que faz sentido em uso intenso, porque o Max bate teto rápido), você passa a pagar token por token sem nenhuma rede de proteção. É como abrir o hidrante. Se a ferramenta está degradada, é o seu cartão de crédito que segura a conta.

Como você usa Claude Code de forma profissional depois disso?

Cinco coisas que mudei na minha rotina depois de ler o post-mortem:

1. Confira o nível de esforço explicitamente

Não confie no default. Em todo início de sessão importante, defina explicitamente o nível de raciocínio (/think, /think-hard, /ultrathink ou equivalente da sua ferramenta). Se o produto mudar o default amanhã, você quer que sua configuração explícita ganhe.

2. Quebre sessões longas em checkpoints

Sessões de 40+ horas com pausas de 1-2 horas no meio são exatamente o cenário que disparava o bug nº 2. Mesmo com o bug corrigido, força um checkpoint explícito (resumo do estado, decisões tomadas, próximo passo) antes de cada pausa longa. Se a memória do agente colapsar de novo por outro motivo, você tem como reconstruir.

3. Acompanhe o canal oficial de mudanças de produto

A Anthropic criou o perfil @AnthropicAI / Claude Devs no X como canal de comunicação para decisões de produto. Siga. Adicione o feed de release notes e changelog ao seu reader. Mudança silenciosa de default só é silenciosa se você não estava ouvindo.

4. Trate degradação como hipótese, não como impressão

Se o agente parecer "estranho" por mais de um dia, não atribua à sua infraestrutura sem evidência. Compare em comunidades (Reddit r/ClaudeAI, Discord, Hacker News). Se outros estão vendo o mesmo padrão, é problema do provedor — não do seu prompt nem da sua máquina. Documente, abra ticket, e considere fallback para outro modelo enquanto investiga.

5. Tenha um plano B de provedor

Eu uso Claude Code como ferramenta principal hoje, mas mantenho GitHub Copilot CLI e GPT-5 plugados em paralelo para tarefas críticas. Quando um provedor degrada, eu não fico parado — migro a tarefa enquanto espero a correção. Isso não é deslealdade ao fornecedor, é continuidade operacional básica.

O que fica desse post-mortem

A Anthropic merece o crédito de ter publicado o relatório com detalhes técnicos e ter compensado os usuários. Muitas empresas não fariam. Ao mesmo tempo, esse episódio prova três coisas que vão se repetir no resto da indústria de IA:

  1. Defaults silenciosos são uma forma de mudança de produto. Você não foi notificado, mas o produto que você compra hoje não é o mesmo de ontem.
  2. Otimizações de custo do provedor podem ser repassadas em qualidade para o usuário. Se o incentivo é reduzir inferência, cuidado com o que isso quer dizer para os seus outputs.
  3. IA testando IA tem ponto cego. Avaliações automatizadas precisam de complemento humano em domínios de alto impacto — especialmente coding agentic.

Para mim, a maior lição é que rigor de governança e disciplina de operação não são opcionais quando a sua produtividade está acoplada a um modelo de IA de terceiros. A ferramenta vai degradar. A pergunta é se você vai notar a tempo.


Este artigo foi gerado a partir do meu vídeo no YouTube. Assista a versão completa para ver os prints da minha sessão de 41 horas, o detalhamento dos bugs no post-mortem, e a conversa completa sobre o impacto operacional.

Prefere vídeo?

Assistir no YouTube

Posts relacionados