Anthropic admite que o Claude Code ficou quebrado por dois meses — três bugs, um post-mortem e o que aprendi gastando US$ 1.000 em tokens
A Anthropic admitiu publicamente: o Claude Code ficou degradado por quase dois meses (março e abril de 2026). O post-mortem foi publicado em 23 de abril e descreve três bugs separados que, juntos, deixaram o agente "burrinho" — esquecendo decisões, repetindo passos, tomando escolhas estranhas no meio de uma tarefa, e queimando tokens muito mais rápido do que deveria.
Trabalho com cybersegurança há 18+ anos, hoje sou Senior Cybersecurity Lead na Microsoft com foco em IA aplicada, e nos últimos meses venho usando Claude Code em sessões de desenvolvimento intensivas — multi-agente, sessões de 40+ horas, dezenas de milhões de tokens. Eu senti a degradação na pele antes do post-mortem sair. Vou te contar o que cada bug fez, por que isso é mais sério do que parece, e o que mudei na minha rotina depois de ler o relatório.
Por que um post-mortem público importa?
Uma empresa não publica post-mortem à toa. Quando publica, é porque o problema foi grave o suficiente para colocar credibilidade em jogo se ela ficasse calada. Esse documento explica três coisas: o que quebrou, por que quebrou, e o que muda para não acontecer de novo.
A maioria das empresas odeia esse exercício porque é, em português claro, queima de filme. O fato de a Anthropic ter publicado um relatório técnico — sem linguagem corporativa lavada — é uma postura que merece crédito. Eles também estão resetando os limites de uso de todos os assinantes como compensação, o que não conserta o tempo perdido, mas reconhece o problema.
Os três bugs afetaram Claude Code, o Agent SDK e a plataforma Claude.ai. Quem usou essas ferramentas de forma intensa entre março e abril provavelmente notou.
Bug nº 1 — A Anthropic baixou o nível de raciocínio de propósito
Esse é o mais controverso dos três. Não é exatamente um "bug" no sentido clássico — foi uma decisão de produto.
No início de março, usuários começaram a reclamar de latência: o Claude estava travando a UI, demorando demais para responder, parecia "pensar" mais do que precisava. Em 4 de março, a Anthropic baixou o nível padrão de raciocínio do modelo de high para medium para a maioria das tarefas. A lógica interna deles, segundo o post-mortem: medium entrega inteligência ligeiramente inferior mas com latência significativamente menor, e ajuda a não estourar os limites de uso.
O problema: eles subestimaram quanto os usuários power notariam a queda. Eu particularmente notei muito. Falei para vários amigos que o Claude estava estranho — quem usa de forma casual quase não percebeu, mas quem trabalha de forma intensa pegou no ato. Em 7 de abril, eles reverteram para high (e extra-high para Opus 4.7), depois das reclamações ficarem altas demais para ignorar.
A lição aqui é dura: defaults importam mais do que features. Sistemas de IA têm vários botões internos que o usuário não vê. Se o default muda silenciosamente, você está usando um produto diferente do que comprou — e pode nem perceber.
Bug nº 2 — O Claude perdeu a memória em sessões longas
Esse foi o mais técnico e, na minha opinião, o mais danoso do trio.
A Anthropic introduziu uma otimização aparentemente sensata: se uma sessão fica inativa por mais de uma hora, limpa os blocos de raciocínio antigos antes de retomar. Reduz custo, reduz latência, faz sentido no papel.
O bug: em vez de limpar o raciocínio uma vez quando a sessão era retomada, o código limpava o raciocínio a cada turno pelo resto da sessão inteira. O efeito prático foi devastador para quem usa Claude Code de forma assíncrona:
- Depois que uma sessão cruzava o threshold de uma hora de inatividade, o Claude continuava executando tarefas sem memória do motivo pelo qual estava fazendo o que estava fazendo.
- Se você mandava uma mensagem de follow-up enquanto ele estava no meio de uma chamada de ferramenta, o raciocínio era descartado entre chamadas.
- Resultado: agente repetitivo, esquecendo decisões já acordadas, fazendo escolhas estranhas de ferramenta no meio de uma tarefa longa.
Eu rodo sessões de 40+ horas. Programo agentes, vou dormir, volto, valido, mando mais instruções. Toda vez que voltava de uma pausa de 1-2 horas, o agente entrava nesse modo "criança de 3 anos repetindo a mesma frase". Agora faz sentido.
A Anthropic levou mais de duas semanas para encontrar a causa raiz desse bug — corrigido em 10 de abril. Para um sistema de produção que é o core business da empresa, é muito tempo.
Bug nº 3 — 25 palavras quebraram o Opus 4.7
Esse é o mais irônico de todos.
O Opus 4.7 é caro. Ele "pensa em voz alta", produz output longo, gasta muito token. Para reduzir essa verbosidade, a Anthropic adicionou uma instrução simples no system prompt: mantenha as chamadas de ferramenta em até 25 palavras.
Testaram internamente por semanas. Não viram nada grave. Lançaram junto com o Opus 4.7 em 16 de abril. Pouco tempo depois, começaram a chegar relatórios de queda de qualidade — agora afetando o 4.7.
Quando removeram a instrução linha por linha para isolar o efeito, encontraram uma queda de 3% nas avaliações de coding comparando Opus 4.6 vs 4.7 com o prompt ativo. Três por cento parece pouco. Não é. Em tarefas de coding complexas e sessões longas, 3% é a diferença entre completar uma atividade e travar nela — porque o erro composta a cada turno.
A ironia: a Anthropic faz o produto-líder de coding agentic com IA, e o conjunto de avaliações automatizadas que eles usam não captou esse impacto. A IA sendo usada para revisar código que muda o comportamento da própria IA — sem teste de coding suficientemente amplo. É um ponto cego de governança que vai se repetir em todo lugar que IA modifica IA sem human-in-the-loop forte.
O que isso me custou — e por que eu compartilho o número
Em uma sessão recente eu queimei 138 milhões de tokens de input em 41 horas de execução agentic. A conta estimada para essas oito sessões do mês: cerca de US$ 1.000 em API direta.
A questão não é o número absoluto. É a pergunta: quanto desse custo veio dos bugs? Se o Claude estivesse nos níveis de qualidade pré-março, eu provavelmente teria queimado bem menos tokens para chegar nos mesmos resultados — porque ele não estaria repetindo passos, perdendo contexto, e tomando rotas tortuosas.
Quando você decide migrar do plano Max para consumo direto via API (o que faz sentido em uso intenso, porque o Max bate teto rápido), você passa a pagar token por token sem nenhuma rede de proteção. É como abrir o hidrante. Se a ferramenta está degradada, é o seu cartão de crédito que segura a conta.
Como você usa Claude Code de forma profissional depois disso?
Cinco coisas que mudei na minha rotina depois de ler o post-mortem:
1. Confira o nível de esforço explicitamente
Não confie no default. Em todo início de sessão importante, defina explicitamente o nível de raciocínio (/think, /think-hard, /ultrathink ou equivalente da sua ferramenta). Se o produto mudar o default amanhã, você quer que sua configuração explícita ganhe.
2. Quebre sessões longas em checkpoints
Sessões de 40+ horas com pausas de 1-2 horas no meio são exatamente o cenário que disparava o bug nº 2. Mesmo com o bug corrigido, força um checkpoint explícito (resumo do estado, decisões tomadas, próximo passo) antes de cada pausa longa. Se a memória do agente colapsar de novo por outro motivo, você tem como reconstruir.
3. Acompanhe o canal oficial de mudanças de produto
A Anthropic criou o perfil @AnthropicAI / Claude Devs no X como canal de comunicação para decisões de produto. Siga. Adicione o feed de release notes e changelog ao seu reader. Mudança silenciosa de default só é silenciosa se você não estava ouvindo.
4. Trate degradação como hipótese, não como impressão
Se o agente parecer "estranho" por mais de um dia, não atribua à sua infraestrutura sem evidência. Compare em comunidades (Reddit r/ClaudeAI, Discord, Hacker News). Se outros estão vendo o mesmo padrão, é problema do provedor — não do seu prompt nem da sua máquina. Documente, abra ticket, e considere fallback para outro modelo enquanto investiga.
5. Tenha um plano B de provedor
Eu uso Claude Code como ferramenta principal hoje, mas mantenho GitHub Copilot CLI e GPT-5 plugados em paralelo para tarefas críticas. Quando um provedor degrada, eu não fico parado — migro a tarefa enquanto espero a correção. Isso não é deslealdade ao fornecedor, é continuidade operacional básica.
O que fica desse post-mortem
A Anthropic merece o crédito de ter publicado o relatório com detalhes técnicos e ter compensado os usuários. Muitas empresas não fariam. Ao mesmo tempo, esse episódio prova três coisas que vão se repetir no resto da indústria de IA:
- Defaults silenciosos são uma forma de mudança de produto. Você não foi notificado, mas o produto que você compra hoje não é o mesmo de ontem.
- Otimizações de custo do provedor podem ser repassadas em qualidade para o usuário. Se o incentivo é reduzir inferência, cuidado com o que isso quer dizer para os seus outputs.
- IA testando IA tem ponto cego. Avaliações automatizadas precisam de complemento humano em domínios de alto impacto — especialmente coding agentic.
Para mim, a maior lição é que rigor de governança e disciplina de operação não são opcionais quando a sua produtividade está acoplada a um modelo de IA de terceiros. A ferramenta vai degradar. A pergunta é se você vai notar a tempo.
Este artigo foi gerado a partir do meu vídeo no YouTube. Assista a versão completa para ver os prints da minha sessão de 41 horas, o detalhamento dos bugs no post-mortem, e a conversa completa sobre o impacto operacional.
Prefere vídeo?
Assistir no YouTubePosts relacionados
Você usa IA errado — a IA ficou mais inteligente, mas a maioria das pessoas ainda opera no modo de 2023
Opus 4.7 e GPT 5.5 raciocinam, sintetizam e discordam — são 100x mais capazes do que 12 meses atrás. Mas 90% das pessoas ainda pede 'faça um resumo' como em 2023. Três princípios concretos para trocar instrução por raciocínio e extrair de verdade o que esses modelos podem entregar.
Novo estudo da Anthropic revela o risco invisível da IA no código — a dívida de compreensão que nenhuma métrica captura
A Anthropic testou 52 engenheiros e descobriu que quem usa IA como atalho acerta 17% menos sobre o próprio código. O problema tem nome: dívida de compreensão. Não aparece em nenhuma métrica — cobertura, velocidade, PRs aprovados — e pode destruir um time em silêncio. Minha leitura com a lente de cybersegurança.
Harvard provou que a IA está sabotando sua estratégia — o estudo do trend-slop em 6 LLMs e 30.000 simulações
Pesquisadores rodaram 30.000 simulações em GPT-5, Claude, Gemini, Grok, Llama e DeepSeek pedindo conselhos estratégicos. Todos convergiram para as mesmas respostas, em todos os contextos. O nome do problema é trend-slop — e nem prompt melhor nem mais contexto resolvem. O que você precisa fazer.