O Oh My Opencode realmente melhora os resultados de codificação em comparação com o OpenCode nativo?

Depende da tarefa. Um benchmark comunitário envolvendo mais de 120 combinações de agentes e modelos revelou que o OMO Ultrawork obteve 69,2%, contra 73,1% do OpenCode padrão em uma avaliação de codificação padrão, embora tenha consumido 10 minutos a mais e realizado 3,5 vezes mais requisições. Esse sobrecusto compensa em tarefas grandes envolvendo múltiplos arquivos, onde o paralelismo é crucial, mas adiciona custo e complexidade sem benefícios para edições de arquivo único ou tarefas que cabem em uma única janela de contexto.

O que é a palavra-chave Ultrawork e quando devo utilizá-la?

Ultrawork ou ulw é o gatilho que ativa a orquestração completa de múltiplos agentes no Oh My Opencode. Sem ele, o Sisyphus frequentemente ignora a delegação e lê os arquivos diretamente. Utilize-o para grandes refatorações, recursos full-stack e tarefas complexas com múltiplas etapas. Evite seu uso para qualquer tarefa que um único prompt focado possa resolver em menos de 30 minutos.

Quanto o Oh My Opencode adiciona aos custos de tokens no início?

Muito mais do que você poderia esperar. O OMO injeta muitas ferramentas e MCPs na janela de contexto ao iniciar, de modo que até uma mensagem simples de “Hello World” consome de 15.000 a 25.000 tokens antes que qualquer trabalho seja realizado. Considere isso nas estimativas de preços, especialmente se você estiver em um plano baseado em tokens.

Existe risco de faturamento descontrolado com o Oh My Opencode?

Sim, e isso aconteceu com usuários reais. Uma falha confirmada em março de 2026 permitiu que um subagente do Gemini executasse 809 chamadas de ferramentas em 3,5 horas sem um disjuntor, gerando uma fatura de 438 dólares, quando apenas 276 dólares foram exibidos no OpenCode. As causas raízes foram o roteamento silencioso do modelo baseado em categorias, a ausência de limite de passos por subagente e uma camada de custo ausente no instantâneo de preços do Gemini. Uma correção está em andamento. Até que seja implementada, limite a concorrência do provedor Google para 1.

O OMO funciona bem sem uma assinatura do Claude?

Parcialmente. Sisyphus e os agentes de planejamento são ajustados para modelos da família Claude, e seu desempenho degrada na ausência deles. No entanto, a camada paga do Kimi K2.5, por menos de um dólar por mês, e o OpenCode Go, a dez dólares por mês, oferecem qualidade de orquestração na classe do Claude a baixo custo e cobrem a maior parte da cadeia de fallback. Hephaestus exige o GPT-5.3 Codex, independentemente.

Qual é uma alternativa mais leve ao Oh My Opencode completo?

Existem duas opções comunitárias. O Oh My Opencode Slim reduz o conjunto de funcionalidades, mantendo os principais hooks e a execução em segundo plano. O Oh My Pi concentra-se na execução de tarefas em segundo plano e nos hooks, com uma superfície de prompt mínima. Ambos superam o OMO completo em tarefas mais simples que não exigem a equipe completa de agentes.

Minha Análise do Opencode: Resultados Honestos, Riscos de Cobrança e Quando Vale a Pena

O que realmente ocorre quando você executa o Ultrawork.

Conteúdo da página

Oh My Opencode promete uma “equipe de desenvolvedores de IA virtual” — Sisyphus orquestrando especialistas, tarefas executando em paralelo e a mágica palavra-chave ultrawork ativando tudo isso.

Essa promessa se sustenta para a carga de trabalho certa. Para a errada, ela adiciona custo e complexidade sem melhorar os resultados. Este artigo cobre o que realmente aconteceu em testes práticos e o que a comunidade mais ampla descobriu após meses de uso real.

agentes preguiçosos trabalhando em paralelo

Se você é novo nesta pilha tecnológica:

comece com o início rápido do OpenCode para colocar o agente base em execução,
depois o início rápido do Oh My Opencode
e então o aprofundamento nos agentes especializados

Este artigo pressupõe que você já está familiarizado com o sistema e deseja saber se ele realmente performa. Para uma visão mais ampla de como o OMO se encaixa na cadeia de ferramentas de codificação de IA, veja a visão geral das ferramentas para desenvolvedores de IA.

Desempenho do Oh My Opencode: Resultados de Testes Práticos

Executei os mesmos testes que uso para o OpenCode puro — as mesmas tarefas de benchmark de LLM que executei contra o OpenCode com modelos locais Ollama e llama.cpp. Desta vez, no modelo Big Pickle (GLM 4.6 via OpenCode Zen — a camada gratuita).

A versão curta: resultados mistos, e o modo de falha foi instrutivo.

Por que o Sisyphus Ignora a Delegação Sem um Prompt Explícito de Ultrawork

A primeira coisa que encontrei foi que o Sisyphus não se comportava como um orquestrador sem um prompt explícito. Mesmo com o prefixo ulw, ele começou a fazer todo o trabalho sozinho — lendo arquivos diretamente, escrevendo código, pulando completamente as fases de pesquisa e planejamento. Nenhuma delegação ao Oracle, nenhuma execução paralela de Explore, nenhuma entrevista com Prometheus.

Para realmente acionar a orquestração, tive que ser explícito no prompt:

ulw pesquise a base de código primeiro,
crie um plano detalhado,
delegue tarefas de implementação,
e só faça o trabalho direto você mesmo quando a delegação for irrazoável

Depois que fiz isso, o sistema se comportou como anunciado. Mas o comportamento padrão sem esse enquadramento foi o OpenCode puro com uma janela de contexto mais pesada. A palavra-chave ultrawork sozinha não é uma garantia de delegação — é um pré-requisito para ela.

Teste 1: Ferramenta CLI IndexNow — Onde a Orquestração do Oh My Opencode Vale a Pena

A tarefa era construir uma ferramenta de linha de comando que submetesse URLs à API IndexNow para indexação de motores de busca. Esta é uma tarefa multifase com escopo razoável: ler a especificação da API, projetar a CLI, implementar e testar.

Com o Oh My Opencode e o prompt explícito de orquestração, o resultado foi notavelmente melhor que o OpenCode puro. A ferramenta final extraiu corretamente as URLs do sitemap.xml e as enviou em lotes, além de suportar opções padrão da CLI. O agente Bibliotecário puxando a documentação do IndexNow contribuiu com contexto que a execução do modelo puro perdeu.

log de sessão oh my opencode indexnow

Este é o tipo de tarefa para a qual o OMO foi construído: pesquisa + implementação + algumas decisões de design. O overhead valeu a pena aqui.

Teste 2: Mapeamento de Migração de Páginas — Mesmo Resultado, Triplo de Tokens

O segundo teste foi uma tarefa de análise de documentos: organizar para onde as páginas do site devem ser migradas com base em seus slugs e um documento de política de migração.

O resultado foi idêntico à execução do OpenCode puro — mesma precisão, mesma estrutura, mesmas decisões. Mas a execução do OMO consumiu aproximadamente três vezes os tokens.

Esta é uma tarefa de raciocínio de janela de contexto única. Não há paralelismo para explorar, nenhum conhecimento especialista para puxar de um subagente. A camada de orquestração adicionou overhead sem adicionar valor. Para esta classe de tarefa, o OpenCode puro é a melhor escolha.

Seleção de Modelo: Por que Modelos Mais Fracos Lutam com o Overhead de Orquestração

Executar no Big Pickle (um modelo de camada gratuita) expôs algo que a comunidade também notou: modelos mais fracos são mais sensíveis à qualidade do suporte do que modelos fortes. Claude Opus é resiliente o suficiente para produzir uma boa saída mesmo com uma camada pesada de orquestração ao redor dele. Um modelo menor como Big Pickle beneficia-se mais de um prompt limpo e focado do que de uma configuração multiagente complexa que adiciona ruído ao contexto.

Se você estiver executando o OMO em modelos de orçamento, comece mais simples. Use orquestração para tarefas pesadas de pesquisa onde o Bibliotecário e o Explore realmente adicionam informações. Evite para tarefas de raciocínio puro onde o modelo só precisa de entrada clara e espaço para pensar.

Descobertas da Comunidade do Oh My Opencode: Benchmarks, Cobrança e Armadilhas do Mundo Real

Antes de apostar tudo, vale a pena saber o que a comunidade descobriu através do uso real — tanto as vitórias quanto os modos de falha.

Benchmark do Oh My Opencode: 69% vs 73% de Taxa de Aprovação, 3× Mais Requisições que o OpenCode Puro

Um membro da comunidade executou um benchmark sistemático em 120+ combinações de agente/modelo e publicou os resultados. Com o OMO Ultrawork ativado, a taxa de aprovação em sua avaliação de codificação foi de 69,2% — contra 73,1% para o OpenCode puro sem OMO. A execução do OMO levou 10 minutos a mais (55 vs 45 minutos) e fez 96 requisições em vez de 27.

Sua conclusão: “é literalmente apenas Opus com mais etapas.” Opus é particularmente resiliente a diferenças de suporte — ele entrega resultados fortes independentemente do que estiver ao redor. Modelos mais fracos mostraram mais sensibilidade ao suporte, mas não necessariamente a favor do OMO.

Isso não significa que o OMO é inútil. Para tarefas grandes de múltiplos arquivos, agentes de fundo paralelos e fluxos de trabalho de engenharia complexos, o overhead vale a pena. Mas para tarefas de codificação que cabem em uma única janela de contexto, o OpenCode puro com um bom modelo frequentemente iguala ou supera uma pilha completa de orquestração.

Overhead de Tokens de Início: 15.000–25.000 Tokens Antes de Qualquer Trabalho Começar

Uma reclamação recorrente da comunidade é que o OMO injeta muitas ferramentas e MCPs na inicialização. Uma mensagem simples de “Hello world” pode consumir 15.000–25.000 tokens apenas da configuração da janela de contexto antes que qualquer trabalho real aconteça. O mantenedor está ciente disso e trabalhando no carregamento de ferramentas adiadas, mas até o início de 2026, é um custo real a ser considerado nas estimativas de preços.

O loop infinito de $350 do Gemini — e o que fazer a respeito

Em março de 2026, um bug confirmado (questão #2571, rotulada will-fix) causou que um usuário fosse cobrado ~$438 em uma única tarde. Três problemas separados se somaram:

Sem disjuntor: O OMO não tinha limite máximo de passos por subagente. Um modelo do Gemini ficou preso em um loop de verificação git diff / read e executou 809 turnos consecutivos em 3,5 horas sem parar.
Roteamento de modelo silencioso: A sessão pai do usuário estava no GPT-5.4. Mas uma tarefa de Compose UI delegada foi roteada para o Gemini 3.1 Pro via roteamento por categoria (visual-engineering) — um modelo que o usuário nunca selecionou intencionalmente e não tinha visibilidade até investigar no banco de dados SQLite depois do fato.
Exibição de custo incorreta: O snapshot de preços do OpenCode para gemini-3.1-pro-preview estava faltando a faixa de preços >200K context. O Google cobra 2× para contextos acima de 200K tokens, mas o OpenCode calculou tudo na taxa base. O custo exibido foi menos da metade da conta real do Google.

Um comentário da comunidade resumiu: “O Gemini constantemente entra em loops para mim, por isso raramente o uso como modelo não-readonly.”

Uma correção (PR #2590) está em andamento — adicionando um limite de passos máximos configurável e detecção de loop. Até que seja lançado, proteja-se:

Audite sua configuração de categoria. Se qualquer categoria mapear para Gemini (incluindo visual-engineering por padrão), cada tarefa de fundo naquela categoria usa o Gemini — silenciosamente — mesmo quando sua sessão em primeiro plano estiver em um modelo diferente.
Defina limites explícitos de providerConcurrency para o Gemini em background_task. Mantê-lo em 1 limita o raio de explosão.
Verifique seus painéis de cobrança reais do provedor, não apenas o custo exibido pelo OpenCode, especialmente para o Gemini.

{
  "background_task": {
    "providerConcurrency": {
      "google": 1   // limite duro até que o disjuntor seja lançado
    }
  }
}

Delegação Ultrawork Requer a Palavra-Chave — Não é Automática

Os primeiros usuários descobriram que sem ultrawork, o agente principal frequentemente não delega para subagentes especialistas de todo — ele simplesmente começa a chamar read e grep diretamente. O mantenedor reconheceu isso cedo: “parece difícil alcançar a chamada do agente apropriado apenas através de instruções de prompt de sistema sem prompts explícitos.”

A palavra-chave ultrawork é o que aciona a orquestração de forma confiável. Sem ela, você frequentemente está executando o OpenCode puro com uma janela de contexto mais pesada. Isso corresponde ao que encontrei em meus próprios testes.

Alternativas Mais Leves ao OMO: OMO Slim e Oh-My-Pi

Se você quer os ganchos de execução de fundo e as melhorias-chave do OMO sem o overhead completo de orquestração de agentes, o oh-my-opencode-slim é um fork da comunidade que reduz o conjunto de recursos. Alguns usuários também migraram para o oh-my-pi, que foca na execução de tarefas de fundo e ganchos enquanto mantém a superfície do prompt mínima.

Um usuário disse bem: “Gosto do OMO por seus ganchos e execução de tarefas de fundo. Acho que o OMO slim está tentando otimizar as coisas erradas. Os prompts base do OpenCode mais trabalhadores de fundo e ganchos que auto-promptam o modelo para continuar quando ele decidir parar seriam suficientes para mim.”

A escolha certa depende do seu perfil de tarefa. Trabalho de engenharia grande e multifase justifica o OMO completo. Para tarefas diárias mais curtas, um suporte mais leve frequentemente produz melhores resultados com menos custo.

Quando o Oh My Opencode Supera Genuinamente: Resultados Reais de Usuários

Para equilibrar as ressalvas, aqui está o que os usuários relatam como as vitórias mais claras do OMO:

8.000 avisos do ESLint limpos em um dia — agentes Explore paralelos varrendo a base de código enquanto agentes trabalhadores executam correções simultaneamente
App Tauri de 45k linhas convertido para um app web SaaS durante a noite — o modo de entrevista do Prometheus produziu um plano detalhado, Ralph Loop executou do início ao fim
Recursos full-stack implementados de ponta a ponta sem o usuário tocar no teclado além do prompt inicial
Revisões de arquitetura em bases de código herdadas — o papel consultivo de leitura do Oracle revela problemas sem fazer mudanças acidentais

O fio condutor: tarefas que se beneficiam do paralelismo e têm critérios de aceitação claros que o Prometheus pode verificar. Tarefas onde um modelo único e focado seria suficiente recebem pouco benefício do overhead de orquestração.

Oh My Opencode vs OpenCode Puro: Quando Usar Cada Um

Oh My Opencode não é universalmente melhor que o OpenCode puro. É um multiplicador de poder para uma classe específica de trabalho — e overhead para tudo o mais.

Use a pilha OMO completa (com ultrawork) quando:

A tarefa abrange múltiplos arquivos e camadas
Você precisa de pesquisa, planejamento, implementação e verificação como fases distintas
Você se beneficia de agentes de fundo paralelos (Explore, Bibliotecário) reunindo contexto enquanto trabalhadores executam
O escopo é grande o suficiente que você teria que cuidar do agente através de múltiplos prompts sequenciais

Use o OpenCode puro (ou um suporte mais leve) quando:

A tarefa cabe em uma única janela de contexto
O problema é raciocínio puro sem pesquisa externa
Você está executando modelos de orçamento — eles se beneficiam mais de um prompt limpo e focado do que da complexidade de orquestração
Você quer cobrança previsível sem surpresas de roteamento por categoria

O risco de cobrança é real e subnotificado. Até que o disjuntor seja lançado, trate o OMO com o Gemini como exigindo monitoramento ativo — não como um sistema “disparar e esquecer”. Para tudo o mais, o sistema é genuinamente impressionante quando apontado para o problema certo.

Fontes

Discussões e questões da comunidade referenciadas neste artigo:

r/opencodeCLI — Oh my opencode vs GSD vs outros vs Claude CLI vs Kilo — comparação de usuário de ferramentas de orquestração e sensação do OMO no mundo real vs alternativas
r/opencodeCLI — Testei Opencode em 9 ferramentas MCP, Firecrawl Skills + CLI e Oh My Opencode — benchmark sistemático de 120+ combinações de agente/modelo, incluindo os dados de taxa de aprovação de 69,2% vs 73,1%
Questão do GitHub #2571 — Subagente gastou $350 em 3,5 horas com ZERO salvaguarda — relatório detalhado de incidente: roteamento silencioso de modelo, loop infinito do Gemini, exibição de custo mostrando metade da conta real
Questão do GitHub #37 — Compartilhe sua opinião — thread de feedback aberta pelo mantenedor, problemas iniciais de delegação, casos de uso da comunidade
Questão do GitHub #74 — Opiniões sobre o sistema de memória — discussão sobre overhead de tokens, padrões de fluxo de trabalho AGENTS.md, propostas de sistema de memória da comunidade
oh-my-opencode-slim — fork da comunidade com conjunto de recursos reduzido para casos de uso mais leves
oh-my-pi — suporte alternativo focado em execução de fundo e ganchos com superfície de prompt mínima