Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Benchmarks de Coding Agêntico

Acabei de passar uma semana rodando os três em pipelines reais — e o que os números oficiais não te contam é mais interessante do que o que contam.

K2.6 caiu no dia 20 de abril. Opus 4.7 tinha chegado quatro dias antes. GPT-5.4, seis semanas antes. O timing não é coincidência — a Moonshot está claramente mirando times que constroem infraestrutura de agentes.

Um aviso antes de começar: todos os benchmarks deste artigo vêm dos próprios vendors. Nenhum número foi replicado por terceiros independentes no lançamento. Isso é o padrão da indústria, não desculpa — mas é contexto importante pra você calibrar o peso de cada score.

Posicionamento em uma linha cada

Kimi K2.6 — Open-weight, multimodal nativo, 1T MoE, mais barato por token dos três. Construído pra tarefas de coding agêntico de longa duração e execução em swarm paralelo. Self-hostável.

Claude Opus 4.6 — Flagship anterior da Anthropic (já substituído pelo 4.7). Melhor SWE-Bench Verified no lançamento; lidera em profundidade de raciocínio e HLE. Preço premium.

GPT-5.4 — Flagship generalista da OpenAI desde março de 2026. Mais forte em raciocínio matemático puro, Terminal-Bench com certos harnesses, e computer use nativo. Preço competitivo.

Tabela de benchmarks

Todos os números são dos model cards e anúncios oficiais. Scores do K2.6: thinking mode ativado, temperatura 1.0, contexto de 262.144 tokens.

Benchmark	K2.6	Opus 4.6	GPT-5.4	Observação
SWE-Bench Pro	58,6%	53,4%	57,7%	Harness interno da Moonshot
SWE-Bench Verified	80,2%	80,8%	~80%	Cluster apertado; Opus 4.7 agora lidera com 87,6%
Terminal-Bench 2.0	66,7%	65,4%	65,4%	Ver nota abaixo
HLE com tools	54,0%	53,0%	52,1%	Todos dentro de 2 pontos
LiveCodeBench v6	89,6%	88,8%	—	v6 de abril de 2026

Fonte para todos os números do K2.6: Moonshot AI official model card, 20 de abril de 2026. Números do Claude Opus 4.6 do anúncio oficial da Anthropic. GPT-5.4 da OpenAI e da tabela comparativa da Moonshot.

Nota importante sobre Terminal-Bench: A Moonshot reporta GPT-5.4 em 65,4% usando o harness Terminus-2. Outras fontes citam GPT-5.4 em 75,1% com configuração diferente de harness. A vantagem do K2.6 de ~1 ponto sobre o baseline da Moonshot pode ser um artefato de harness, não de capacidade do modelo. Não use essa tabela pra tirar conclusões sobre Terminal-Bench sem rodar seu próprio harness.

Onde o GPT-5.4 ganha e essa tabela não mostra: AIME 2026 (matemática pura) → 99,2% vs 96,4% do K2.6. GPQA-Diamond → 92,8% vs 90,5% do K2.6. Se seu caso de uso envolve raciocínio single-turn de alto risco, os números do GPT-5.4 são mais fortes.

Execução de longa duração e orquestração de agentes

É aqui que fica prático — e onde a diferença de arquitetura é maior do que os benchmarks mostram.

Tetos de chamadas de ferramentas

Capacidade	K2.6	Opus 4.6	GPT-5.4
Máximo de steps com tools (documentado)	4	Não publicado	Não publicado
Janela de contexto	262K	1M	1,05M
Input de vídeo nativo	Sim	Não	Sim

O 4.000 steps coordenados do K2.6 é uma afirmação arquitetural específica do model card oficial — se isso se sustenta em escala de produção com tarefas diversas ainda não foi verificado independentemente.

Janela de contexto é onde Opus 4.6 e GPT-5.4 têm vantagem estrutural clara: 1M e 1,05M tokens versus 262K do K2.6. Pra tarefas que precisam carregar codebases muito grandes num único contexto, isso importa. Pra maioria dos workflows de coding agêntico que fazem chunking ao longo dos steps, importa menos.

Sub-agentes em paralelo

O Agent Swarm do K2.6 suporta 300 sub-agentes paralelos por run — afirmação da Moonshot. Anthropic e OpenAI não entregam um primitivo equivalente out of the box. Paralelismo com Claude ou GPT exige infraestrutura de orquestração (LangGraph, CrewAI, ou custom) na camada da aplicação. O swarm do K2.6 é um feature nativo do modelo — arquiteturalmente diferente de construir paralelismo no seu próprio harness.

Times com infraestrutura de orquestração existente ganham paralelismo na camada de framework. Times sem essa infraestrutura têm menos overhead de setup com K2.6.

Estabilidade em execuções de várias horas

A Moonshot afirma que o K2.6 mantém um comportamento coerente em execuções autônomas de mais de 12 horas. Este aspecto não é bem medido pelos benchmarks atuais — as tarefas de benchmark que avaliam comportamento de longo prazo (como Terminal-Bench e SWE-Bench Pro) executam as tarefas até a conclusão, mas não medem coerência sustentada em sessões multi-horárias.

A Anthropic publicou padrões e arquiteturas para agentes de longa duração usando o Claude (como arquitetura inicializador + executor e progresso commit-por-commit), mas não divulgou uma reivindicação específica de tempo de execução contínuo.

No lançamento, a afirmação de “12 horas” do K2.6 é uma declaração da própria Moonshot, sem verificação independente. Existem relatos da comunidade sobre execuções autônomas de vários dias em discussões no Hacker News e Reddit, mas são apenas anedotas, e não benchmarks auditados.

Custo por 1M tokens — a conta honesta

Todos os preços verificados em abril de 2026:

Modelo	Input	Output	Fonte
K2.6	$0,60	$2,80	OpenRouter
K2.6 (plataforma Moonshot)	$0,95	$4,00	platform.moonshot.ai(verifique antes de colocar em produção)
Claude Opus 4.6	$5,00	$25,00	Anthropic oficial
GPT-5.4	$2,50	$15,00	OpenAI oficial

Nota sobre precificação do K2.6

O OpenRouter lista o K2.6 por US $0.60/$2.80. O agregador Kilo.ai mostra US $0.95/$4.00, atribuído ao OpenRouter, mas provavelmente reflete um tier diferente ou configuração de cache. A plataforma oficial da Moonshot (platform.moonshot.ai) não publica uma tabela de preços por token diretamente na página de precificação — recomenda-se verificar as tarifas atuais antes de fazer orçamentos para produção.

A 10M tokens de output por mês:

Modelo	Custo mensal (10M tokens output)
K2.6 (OpenRouter)	$28
GPT-5.4	$150
Claude Opus 4.6	$250

A diferença de custo é real e grande. Workflows agênticos que custariam $2.500/dia no Opus 4.6 custam ~$280/dia no K2.6. Isso não é melhoria marginal — desbloqueia estratégias de retry diferentes, runs mais longos, e mais workers paralelos.

O contraponto: se o K2.6 completa tarefas com menor confiabilidade, exigindo mais retries ou intervenção humana, o custo efetivo por tarefa bem-sucedida pode não diferir tanto quanto o preço por token sugere. Isso é testável no seu workload.

Descontos de batch se aplicam à Anthropic e OpenAI: 50% off pra processamento assíncrono. O K2.6 via OpenRouter não lista um tier equivalente publicamente.

Onde cada modelo realmente ganha

Escolha o K2.6 quando:

Você roda pipelines de agentes em alto volume onde custo de token é uma restrição real — a vantagem de preço de 5–8× sobre o Opus 4.6 é grande o suficiente pra mudar a economia do produto
Você precisa de deployment self-hosted por soberania de dados ou compliance — os pesos do K2.6 estão no Hugging Face e rodam via vLLM, SGLang, ou KTransformers
Suas tarefas envolvem fluxos paralelos que mapeiam naturalmente pra decomposição em swarm — pesquisa, refatoração em múltiplos arquivos, geração de documentos — e você não quer construir infraestrutura de orquestração separadamente

Escolha o Opus 4.6 quando:

Seu workload envolve profundidade de raciocínio, refatoração multi-arquivo com nuance, ou inferência de intenção do dev a partir de requisitos ambíguos — é onde o tuning da Anthropic aparece na prática, não nos benchmarks
Proveniência do vendor importa: reviews de segurança enterprise pra modelos de origem americana são mais rápidas
Você precisa de janela de contexto >262K num único pass — o contexto de 1M do Opus 4.6 é arquiteturalmente diferente dos 262K do K2.6
Seu time usa Claude Code e quer o ecossistema completo da Anthropic

Nota: O Opus 4.6 foi substituído pelo Opus 4.7 como flagship atual da Anthropic. Se você está escolhendo dentro da família Anthropic, o Opus 4.7 pontua 87,6% no SWE-Bench Verified e 64,3% no SWE-Bench Pro pelo mesmo preço de $5/$25.

Escolha o GPT-5.4 quando:

Raciocínio puro, matemática, ou problemas científicos são parte significativa do seu workload — AIME 2026 em 99,2% e GPQA-Diamond em 92,8% são vantagens reais que o K2.6 não alcança
Você precisa de computer use nativo como feature de primeira linha
Você está num stack OpenAI-nativo e custo de migração importa

O que os benchmarks não te dizem

Sensibilidade ao prompt. Os três modelos são altamente sensíveis ao design do system prompt, definições de tools, e configuração de harness. Um time com prompts Claude bem calibrados pode ter resultados melhores no Opus 4.6 do que numa sessão K2.6 sem tuning — independentemente dos rankings de benchmark. Harness engineering importa tanto quanto seleção de modelo.

Saturação do SWE-Bench Verified. Seis modelos agora estão dentro de 0,8 pontos no SWE-Bench Verified (80,0–80,8%). O topo desse benchmark virou zona de ruído estatístico. O SWE-Bench Pro é mais discriminante e reflete um task set mais realista. Os números que importam pra essa comparação são SWE-Bench Pro e Terminal-Bench, não o Verified.

Gap entre benchmark e mundo real. Tarefas do SWE-Bench Pro têm média de 107 linhas de mudança em 4,1 arquivos. A maioria das tarefas de produção é ou mais simples (bug fix em arquivo único) ou mais complexa (migrações em larga escala, decisões de arquitetura novos). Nenhum dos extremos mapeia diretamente pra performance no benchmark.

Risco de jurisdição do vendor. O K2.6 é de uma empresa chinesa operando num ambiente regulatório com escrutínio crescente nas duas direções. A Modified MIT License é permissiva pra maioria dos usos comerciais, mas o threshold de atribuição de 100M MAU / $20M de receita mensal e a proveniência chinesa criam fricção real em procurement enterprise que o GPT-5.4 e o Opus 4.6 não têm.

FAQ

Os números são reproduzíveis?

A metodologia dos benchmarks está documentada pelos três fornecedores, mas não foi replicada de forma independente no momento do lançamento. A Moonshot afirma que todas as pontuações de codificação são médias de 10 execuções independentes. A Anthropic especifica que sua avaliação no Terminal-Bench usou alocação de recursos 1× garantida / 3× teto, com 5–15 amostras por tarefa. As diferenças nos harness (a Moonshot usa uma adaptação interna do SWE-agent; Anthropic e OpenAI usam seus próprios frameworks) tornam a comparação direta dos números imprecisa. Trate a tabela como um sinal direcional, e não como verdade absoluta.

Qual modelo é o mais seguro para agentes em produção？

“Seguro” tem dois significados aqui. Em termos de qualidade de código e comportamento previsível, os três são capazes de produção — a resposta certa depende do seu fluxo de trabalho específico e de quanto você ajustou o harness. Quanto à estabilidade do fornecedor, tanto Anthropic quanto OpenAI demonstraram confiabilidade sustentada na plataforma. A plataforma de API da Moonshot é mais nova e tem menos histórico de produção em larga escala. Para conformidade empresarial e risco de aquisição, modelos de origem americana (Anthropic, OpenAI) têm ciclos de revisão de segurança mais rápidos em grandes organizações.

Posso rodar o K2.6 de forma self-hosted enquanto Claude e GPT são apenas via API?

Sim. Os pesos do K2.6 estão disponíveis no Hugging Face e podem ser executados com vLLM, SGLang ou KTransformers. O hardware mínimo viável é 4× H100 para a variante INT4 com contexto reduzido. Claude e GPT-5.4 são apenas via API — não existe opção self-hosted. Se soberania de dados for um requisito, o K2.6 é a única opção entre os três.

Quão rapidamente esses números ficam desatualizados?

Muito rápido. A Anthropic lançou o Opus 4.7 em 16 de abril de 2026, quatro dias antes do lançamento do K2.6. O SWE-Bench Verified do Opus 4.7 é 87.6%, já bem à frente dos 80.2% do K2.6. A OpenAI atualiza continuamente a família GPT-5.4 e o leaderboard SEAL rola sem parar. Esta tabela reflete o estado em 20 de abril de 2026 e deve ser tratada como um instantâneo. Para as classificações atuais dos leaderboards, consulte swebench.com e as fichas técnicas oficiais dos modelos.

Framework de decisão

Na prática, a decisão é mais simples do que uma comparação completa de benchmarks sugere:

Se custo é uma restrição real: K2.6. A diferença de 5–8× de preço sobre o Opus 4.6 é grande demais pra justificar o Opus em trabalho agêntico de alto volume, a menos que você tenha razões específicas pra pagar o premium.

Se sua organização tem requisitos de procurement enterprise: Avalie modelos de origem americana primeiro (Opus 4.6 ou GPT-5.4), depois avalie se o K2.6 self-hosted passa no seu bar de segurança e compliance.

Se você precisa de >262K de contexto num único pass: Opus 4.6 ou GPT-5.4. Esse é um limite arquitetural hard do K2.6.

Se você está fazendo benchmark pro seu workload: Rode os três em tarefas representativas do seu codebase real antes de decidir. Os benchmark scores definem o prior; seus próprios dados de workload devem dominar a decisão.

Kimi vs Claude vs GPT-5.4