Ollama GPT-OSS Strukturerade utgångsproblem
Ingenstans särskilt fin.
Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.
Många användare rapporterar misslyckanden med att generera giltig JSON eller andra strukturerade format, modellens hallucination av formatelement samt oregelbundna eller tomma svarsinnehåll. Dessa problem kommer från nuvarande kompatibilitetsluckor, förändringar i svarsformat (t.ex. Harmony) och ofullständig tillämpning av utdata-schema av både Ollama och tredjeparts-API:er. För bredare kontext om körningar, genomströmning och prestandamått, se LLM Prestanda: Mått, Bottlenecks & Optimering.

Om GPT-OSS
Detta är en ny mycket intressant LLM från OpenAI. Titta bara på dessa parametrar:
| Modell | gpt-oss-120b | gpt-oss-20b |
|---|---|---|
| Lager | 36 | 24 |
| Totala parametrar | 117B | 21B |
| Aktiva parametrar per token | 5,1B | 3,6B |
| Totala experter | 128 | 32 |
| Aktiva experter per token | 4 | 4 |
| Kontextlängd | 128k | 128k |
Utgåvans anteckningar säger (här och här):
- Generös Apache 2.0-licens: Bygg fritt utan copyleft-begränsningar eller patentrisk – idealisk för experiment, anpassning och kommersiell distribution.
- Konfigurerbar resonemangsförsök: Justera lätt resonemangsförsöket (låg, medium, hög) utifrån ditt specifika användningsfall och latensbehov.
- Fullständig kedja av tänkande: Få full tillgång till modellens resonemangsprocess, vilket underlättar felsökning och ökar förtroendet för utdata. Det är inte avsedd att visas för slutanvändare.
- Anpassningsbar: Anpassa modellerna helt till ditt specifika användningsfall genom parameteranpassning.
- Agenta-kapaciteter: Använd modellernas inbyggda kapaciteter för funktionsskallning, webbläsning, Python-kodkörning och strukturerade utdata.
- MXFP4 kvantisering: Modellerna har posttränat med MXFP4-kvantisering av MoE-vikterna, vilket gör att gpt-oss-120b kan köras på en enda 80GB GPU (t.ex. NVIDIA H100 eller AMD MI300X) och gpt-oss-20b-modellen kan köras inom 16 GB minne. Alla utvärderingar utfördes med samma MXFP4-kvantisering.
Vad finns det inte att älska? Beteendet hos strukturerad utdata… det är det. Överlag är detta problem mycket besvärande, särskilt eftersom Strukturerad utdata fungerar så bra med Ollama och Qwen3.
Vanliga problem
- Modeller som gpt-oss:20b misslyckas ofta med att producera strikt JSON eller schemaenligt utdata, med svar som ofta innehåller extra kommentarer eller ofullständiga objekt.
- Integration med LangChain och OpenAI SDK tenderar att kasta parsnings-/valideringsfel på grund av icke-strukturerat utdata, vilket gör pipelines oanvändbara i produktionsmiljöer.
- Harmony-formatet i gpt-oss introducerar resonemangsöverläggar även när de inte begärs, vilket komplikerar schemaparsning jämfört med andra modeller som Qwen3.
- Med vllm saknas eller är strukturerade utdataenforceringsmekanismer borttaget, så utdata är ofta “obekväm” och måste manuellt parses.
- Det finns rapporter om att modellen producerar korrekt strukturerat utdata, men sedan fortsätter med orelaterat innehåll, vilket bryter standardparsare.
Arbetar runt och lösningar
- Vissa användare föreslår att explicit ange JSON-schemat i prompten och försöka manuellt parses modellens utdata, ibland med för- och efterdelningsmarkörer.
- En annan metod är att köra en postbearbetningslager eller en mindre LLM för att omforma GPT-OSS-utdata till önskat schema, även om detta är resursintensivt.
- Vissa bugfixar och pull requests (PR:er) har gradvis förbättrat Harmony-formatskompatibilitet, särskilt med nyare Ollama-utgåvor, men full kompatibilitet med tidigare modeller uppnås inte än.
- När vllm används kan patchning av specifika funktioner hjälpa, men i allmänhet stöds robust schemaenforcement inte just nu.
Rekommendationer
- Undvik att helt bero på GPT-OSS för strikt strukturerad utdata tills full kompatibilitet återställs i Ollama och nedströmsramverk.
- Där strukturerad utdata är kritisk, använd ytterligare parsing eller en modell som är känd för schemaenhet.
- Övervaka relevanta GitHub-issuer (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) för lösningar och integrationsuppdateringar.
Sammanfattningsvis har GPT-OSS med Ollama för närvarande svårt med strukturerad utdata, främst på grund av ofullständig formatenforcement, förändringar i Harmony-format och bristande stöd över verktygskedjor. Manuella lösningar kan hjälpa, men konsekvent framgång garanteras inte. För mer om LLM-körningar, minnesallokering och prestandatuning, se LLM Prestanda: Mått, Bottlenecks & Optimering.
Några användbara länkar
- https://www.reddit.com/r/MachineLearning/comments/1n37qnu/d_ollamagptoss20b_cant_seem_to_generate/
- https://github.com/vllm-project/vllm/issues/23120
- https://github.com/ollama/ollama/issues/11691
- https://huggingface.co/openai/gpt-oss-20b/discussions/111
- https://github.com/langchain-ai/langchain/issues/33116
- https://ollama.com/library/gpt-oss
- https://openai.com/index/introducing-gpt-oss/