Förbättrar Oh My Opencode faktiskt kodningsresultaten jämfört med vanilj-OpenCode?

Det beror på uppgiften. En gemensam benchmark över mer än 120 kombinationer av agenter och modeller visade att OMO Ultrawork nådde 69,2 procent jämfört med 73,1 procent för ren OpenCode i en standardiserad kodutvärdering, samtidigt som den krävde 10 minuter längre tid och genomförde 3,5 gånger fler anrop. Överhuvudsbeloppet är lönsamt vid stora uppgifter med flera filer där parallelitet är avgörande, men det medför kostnader och komplexitet utan nytta för redigering av enskilda filer eller uppgifter som får plats i ett enda kontextfönster.

Vad är Ultrawork-nyckelordet och när bör jag använda det?

Ultrawork eller ulw är utlösaren som aktiverar fullständig orkestrering av flera agenter i Oh My Opencode. Utan den hoppar Sisyphus ofta över delegering och läser filer direkt. Använd den för stora refaktoreringar, fullstack-funktioner och komplexa uppgifter med flera steg. Hoppa över den för allt som ett enda fokuserat prompt skulle kunna hantera på under 30 minuter.

Hur mycket ökar Oh My Opencode tokenkostnaderna vid start?

Mycket mer än du kanske förväntar dig. OMO injicerar många verktyg och MCP:er i kontextfönstret vid start, så även en enkel Hello World-meddelande konsumerar 15 000 till 25 000 token innan något arbete utförs. Beakta detta vid prisberäkningar, särskilt om du har en plan baserad på token.

Finns det en risk för obegränsad fakturering med Oh My Opencode?

Ja, och detta har inträffat för verkliga användare. Ett bekräftat fel i mars 2026 tillät en Gemini-underagent att utföra 809 verktygsanrop under 3,5 timmar utan någon kretsavbrytare, vilket resulterade i en faktura på 438 dollar där endast 276 visades i OpenCode. Rotorsakerna var tyst kategori-baserad modellroutning, avsaknad av stegräns per underagent och ett saknat kostnadsnivå i Gemini-prisbilden. En fix pågår. Tills den är lanserad, begränsa din Google-providerkonkurrens till 1.

Fungerar OMO bra utan ett Claude-abonnemang?

Delvis. Sisyphus och planeringsagenter är optimerade för modeller i Claude-familjen och deras prestanda försämras utan dessa. Kimi K2.5:s betalda nivå, till under en dollar i månaden, samt OpenCode Go till tio dollar i månaden, erbjuder orkestreringskvalitet på Claude-nivå till låg kostnad och täcker de flesta delar av reservkedjan. Hephaestus kräver dock GPT-5.3 Codex, oavsett allt annat.

Vad är ett lättare alternativ till full Oh My Opencode?

Det finns två community-alternativ. Oh My Opencode Slim begränsar funktionsuppsättningen samtidigt som de viktigaste krokar och bakgrundsexekvering bibehålls. Oh My Pi fokuserar på exekvering av bakgrundsuppgifter och krokar med en minimal prompt-yta. Båda presterar bättre än full OMO på enklare uppgifter som inte kräver hela agent-teamet.

Oh My Opencode-granskning: Ärliga resultat, faktureringsrisker och när det är värt det

Vad som egentligen händer när du kör Ultrawork.

Sidinnehåll

Oh My Opencode lovar om ett “virtuellt AI-utvecklingsteam” — där Sisyphus dirigerar specialister, uppgifter körs parallellt och magiska nyckelordet ultrawork aktiverar allt.

Detta löfte håller för rätt arbetsbelastning. För felaktig arbetsbelastning lägger det till kostnad och komplexitet utan att förbättra resultaten. Denna artikel täcker vad som faktiskt hände vid praktiska tester, och vad den bredare gemenskapen har upptäckt efter månader av verklig användning.

lazy agents working in parallel

Om du är ny till stacken:

börja med OpenCode snabbstart för att få igång den grundläggande agenten,
sedan Oh My Opencode snabbstart
och sedan djupdykning i specialiserade agenter

Denna artikel förutsätter att du redan är bekant med systemet och vill veta om det faktiskt presterar. För en bredare bild av hur OMO passar in i AI-kodverktygskedjan, se översikt över AI-utvecklarverktyg.

Oh My Opencode-prestation: Resultat från praktiska tester

Jag körde samma tester som jag använder för ren OpenCode — samma LLM-benchtasks jag körde mot OpenCode med lokala Ollama- och llama.cpp-modeller. Denna gång på Big Pickle-modellen (GLM 4.6 via OpenCode Zen — den fria nivån).

Kort versionen: blandade resultat, och misslyckandemotivet var instruktivt.

Varför Sisyphus hoppar över delegering utan en explicit Ultrawork-prompt

Det första jag stötte på var att Sisyphus inte beter sig som en dirigent utan explicit promptning. Även med ulw-prefixet började han göra allt arbete själv — läsa filer direkt, skriva kod, hoppa över forsknings- och planeringsfaserna helt. Inga delegeringar till Oracle, inga parallella utforskande körningar, inget Prometheus-intervju.

För att faktiskt utlösa dirigering fick jag vara explicit i prompten:

ulw undersök kodbasen först,
skapa en detaljerad plan,
delegera implementeringsuppgifter,
och gör bara direkt arbete själv när delegering är orimlig

När jag gjorde så, beter sig systemet som annonserat. Men standardbeteendet utan denna ram var van OpenCode med ett tyngre kontextfönster. Nyckelordet ultrawork i sig är ingen garanti för delegering — det är en förutsättning för det.

Test 1: IndexNow-kommandotolken — Där Oh My Opencode-dirigering betalar sig

Uppgiften var att bygga ett kommandotolksverktyg som skickar URL:er till IndexNow-API:et för sökmotorindexering. Detta är en rimligt avgränsad flerstegsuppgift: läs API-specifikationen, designa kommandotolken, implementera, testa.

Med Oh My Opencode och explicit promptning för dirigering var resultatet märkbart bättre än ren OpenCode. Det slutgiltiga verktyget extraherade korrekt URL:er från sitemap.xml och skickade dem i batchar, utöver att stödja standardalternativ för kommandotolken. Librarian-agenten som hämtade IndexNow-dokumentationen bidrog med kontext som körningen med ren modell missade.

oh my opencode indexnow session log

Detta är den typen av uppgift OMO är byggd för: forskning + implementering + några designbeslut. Överhuvudkostnaden betalade sig här.

Test 2: Sida-migreringsmappning — Samma resultat, tredubbla token

Det andra testet var en dokumentanalysuppgift: sortera ut var websidor ska migreras baserat på deras slugar och ett migrationspolicydokument.

Resultatet var identiskt med körningen med ren OpenCode — samma noggrannhet, samma struktur, samma beslut. Men OMO-körningen förbrukade ungefär tre gånger fler token.

Detta är en uppgift för resonemang i ett enda kontextfönster. Det finns ingen parallelism att utnyttja, ingen specialistkunskap att hämta från en subagent. Dirigeringsskiktet lade till överhuvudskostnad utan att lägga till värde. För denna klass av uppgift är ren OpenCode det bättre valet.

Modellval: Varför svagare modeller har svårt med dirigeringsoverhead

När man kör på Big Pickle (en modell för gratisnivå) avslöjades något som gemenskapen också har noterat: svagare modeller är mer känsliga för kvaliteten på harnesk än starka modeller. Claude Opus är tillräckligt resilient för att producera bra output även med ett tungt dirigeringsskikt kring sig. En mindre modell som Big Pickle gynnas mer av en ren, fokuserad prompt än av en komplex multi-agent-uppsättning som lägger till brus till kontexten.

Om du kör OMO på budgetmodeller, börja enklare. Använd dirigering för forskningsintensiva uppgifter där Librarian och Explore verkligen lägger till information. Undvik det för rena resonemangsuppgifter där modellen bara behöver tydlig input och utrymme att tänka.

Oh My Opencode gemenskapsfynd: Benchmarks, fakturering och verkliga varningar

Innan man går all-in, är det värt att veta vad gemenskapen har upptäckt genom faktisk användning — både vinsterna och misslyckandemotiven.

Oh My Opencode benchmark: 69 % mot 73 % passningsgrad, 3× fler förfrågan än van OpenCode

En communitymedlem körde en systematisk benchmark över 120+ agent/modell-kombinationer och publicerade resultaten. Med OMO Ultrawork aktiverat var passningsgraden på deras kodningseval 69,2 % — mot 73,1 % för ren OpenCode utan OMO. OMO-körningen tog 10 minuter längre (55 mot 45 minuter) och gjorde 96 förfrågan istället för 27.

Deras slutsats: “det är bokstavligen bara Opus med fler steg.” Opus är särskilt resilient mot harnesk-skillnader — det levererar starka resultat oavsett vad som är runt det. Svagare modeller visade mer känslighet för harnesken, men inte nödvändigtvis till OMOs fördel.

Detta betyder inte att OMO är användslös. För stora flerfiluppgifter, parallella bakgrundsgenter och komplexa ingeniörsmässiga arbetsflöden, betalar överhuvudskostnaden sig. Men för koduppgifter som passar i ett enda kontextfönster, kommer ren OpenCode med en bra modell ofta att matcha eller slå en fullständig dirigeringstack.

Start-up token-överhuvud: 15 000–25 000 token innan något arbete påbörjas

En återkommande klagomål från gemenskapen är att OMO injicerar många verktyg och MCP:er vid start. Ett enkelt “Hej världen”-meddelande kan förbruka 15 000–25 000 token bara från kontextfönsterinställningen innan något faktiskt arbete händer. Underhållaren är medveten om detta och arbetar med senareladdning av verktyg, men per början av 2026 är det en verklig kostnad att faktorisera in i prisskattningar.

Den $350 Gemini oändliga loopen — och vad man ska göra åt det

I mars 2026 orsakade ett bekräftat bugg (fråga #2571, märkt will-fix) att en användare fakturerades ~$438 på en enda eftermiddag. Tre separata problem sammanflöt:

Ingen circuit breaker: OMO hade ingen maxstegsgräns per subagent. En Gemini-modell fastnade i en git diff / read-verifieringsloop och körde 809 konsekutiva varv under 3,5 timmar utan att stanna.
Tyst modellroutning: Användarens föräldrasession var på GPT-5.4. Men en delegerad Compose UI-uppgift ruttades till Gemini 3.1 Pro via kategoriroutning (visual-engineering) — en modell användaren aldrig medvetet valde och inte hade syn på förrän efteråt grävde i SQLite-databasen.
Felaktig kostnadsvisning: OpenCode:s prissättningssnapshot för gemini-3.1-pro-preview saknade prissättningsnivån för >200K kontext. Google tar 2× för kontexter över 200K token, men OpenCode beräknade allt till baspriset. Den visade kostnaden var mindre än hälften av den faktiska Google-fakturan.

En kommentar från gemenskapen sammanfattade det: “Gemini snurrar ständigt i looper för mig, därför använder jag sällan den som en icke-läsbar-modell.”

En fix (PR #2590) är under arbete — lägger till en konfigurerbar maxstegsgräns och loopdetektering. Tills den levereras, skydda dig själv:

Granska din konfiguration för kategorier. Om någon kategori mappar till Gemini (inklusive visual-engineering som standard), använder varje bakgrundsuppgift i den kategorin Gemini — tyst — även när din framgrundssession är på en annan modell.
Sätt explicita providerConcurrency-gränser för Gemini i background_task. Att hålla det på 1 begränsar spridningsradien.
Kontrollera dina faktiska leverantörsfaktureringsskyltar, inte bara OpenCode:s visade kostnad, särskilt för Gemini.

{
  "background_task": {
    "providerConcurrency": {
      "google": 1   // hård gräns tills circuit breaker levereras
    }
  }
}

Ultrawork-delegering kräver nyckelordet — det är inte automatiskt

Tidiga användare upptäckte att utan ultrawork, gör huvudagenten ofta inte delegering till specialistsubagenter alls — den börjar bara anropa read och grep direkt. Underhållaren erkände detta tidigt: “det verkar svårt att uppnå anrop av lämplig agent enbart genom systempromptinstruktioner utan explicita promptar.”

Nyckelordet ultrawork är vad som tillförlitligt utlöser dirigering. Utan det kör du ofta ren OpenCode med ett tyngre kontextfönster. Detta matchar vad jag hittade i mina egna tester.

Lättare alternativ till OMO: OMO Slim och Oh-My-Pi

Om du vill ha bakgrundsexekveringskrokarna och nyckel förbättringar från OMO utan den fulla agentdirigeringsöverhuvudskostnaden, är oh-my-opencode-slim ett community-fork som klipper av funktionsmängden. Vissa användare har också bytt till oh-my-pi, som fokuserar på bakgrundsuppgiftsexekvering och krokar medan det håller prompt-ytan minimal.

En användare uttryckte det väl: “Jag gillar OMO för dess krokar och bakgrundsuppgiftsexekvering. Jag tror OMO slim försöker optimera fel saker. De grundläggande OpenCode-promptarna plus bakgrundsgenter och krokar som auto-promptar modellen att fortsätta när den bestämmer att stanna skulle vara tillräckligt för mig.”

Rätt val beror på din uppgiftsprofil. Stora, flerstegsingenjörsarbete motiverar full OMO. För dagliga kortare uppgifter producerar ett lättare harnesk ofta bättre resultat med lägre kostnad.

När Oh My Opencode genuint överpresterar: Verkliga användarresultat

För att balansera varningarna, här är vad användare rapporterar som OMO:s tydligaste vinster:

8 000 ESLint-varningar rensade på en dag — parallella Explore-agenter skannar kodbasen medan arbetareagenter utför fixar samtidigt
45k-raders Tauri-app konverterad till en SaaS-webbapp under natten — Prometheus-intervjumodern producerade en detaljerad plan, Ralph Loop utförde den från start till slut
Fullstack-funktioner implementerade från start till slut utan att användaren rörde tangentbordet bortom den initiala prompten
Arkitekturgranskningar på ärftliga kodbaser — Oracles roll som endast-läsbar rådgivare framkallar problem utan att råka göra ändringar

Det gemensamma tråden: uppgifter som gynnas av parallelism och har tydliga acceptanskriterier som Prometheus kan verifiera. Uppgifter där en enda fokuserad modell skulle klara sig bra får lite nytta av dirigeringsoverheaden.

Oh My Opencode jämfört med Vanilja OpenCode: När man ska använda varje

Oh My Opencode är inte universellt bättre än vanilja OpenCode. Det är en multiplikator för en specifik klass av arbete — och en överhuvudskostnad för allt annat.

Använd hela OMO-stacken (med ultrawork) när:

Uppgiften sträcker sig över flera filer och lager
Du behöver forskning, planering, implementering och verifiering som distinkta faser
Du gynnas av parallella bakgrundsgenter (Explore, Librarian) som samlar kontext medan arbetare kör
Omfånget är stort nog att du annars skulle passa agenten genom flera sekventiella promptar

Använd vanilja OpenCode (eller ett lättare harnesk) när:

Uppgiften passar i ett enda kontextfönster
Problemet är rent resonemang utan extern forskning
Du kör budgetmodeller — de gynnas mer av en ren fokuserad prompt än av dirigeringkomplexitet
Du vill ha förutsägbar fakturering utan överraskningar från kategoriroutning

Faktureringrisken är verklig och underanmäld. Tills circuit breaker levereras, behandla OMO med Gemini som att kräva aktiv övervakning — inte som ett “skjut och glöm”-system. För allt annat är systemet genuint imponerande när det pekas mot rätt problem.

Källor

Communitydiskussioner och frågor som refereras i denna artikel:

r/opencodeCLI — Oh my opencode vs GSD vs andra vs Claude CLI vs Kilo — användarjämförelse av dirigeringverktyg och OMO:s verkliga känsla kontra alternativ
r/opencodeCLI — Jag testade Opencode på 9 MCP-verktyg, Firecrawl Skills + CLI och Oh My Opencode — systematisk benchmark av 120+ agent/modell-kombinationer, inklusive data om 69,2 % mot 73,1 % passningsgrad
GitHub-fråga #2571 — Subagent förbrände $350 på 3,5 timme med NOLL skyddsåtgärd — detaljerad incidentrapport: tyst modellroutning, oändlig Gemini-loop, kostnadsvisning som visar hälften av den verkliga fakturan
GitHub-fråga #37 — Dela din åsikt — tråd öppnad av underhållaren för feedback, tidiga delegeringsproblem, communityanvändningsfall
GitHub-fråga #74 — Åsikter om minnessystem — diskussion om tokenöverhuvud, AGENTS.md arbetsflöesmönster, communityförslag på minnessystem
oh-my-opencode-slim — community-fork med klippad funktionsmängd för lättare användningsfall
oh-my-pi — alternativt harnesk fokuserat på bakgrundsexekvering och krokar med minimal prompt-yta