Ollama GPT-OSS Problem med Strukturerad Utdata
Inte särskilt trevligt.
Ollamas GPT-OSS-modeller har återkommande problem med hantering av strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.
Många användare rapporterar misslyckanden att generera giltig JSON eller andra strukturerade format, modellhallucinationer av formatelement och inkonsekvent eller tomt innehåll i svaren. Dessa problem härrör från nuvarande kompatibilitetsluckor, ändringar i svarsformat (som Harmony) och ofullständig genomförande av utdataskemata av både Ollama och tredjepart-API:er.

Om GPT-OSS
Det här är en ny mycket intressant LLM från OpenAI. Titta bara på dessa parametrar:
| Modell | gpt-oss-120b | gpt-oss-20b |
|---|---|---|
| Lager | 36 | 24 |
| Totala parametrar | 117B | 21B |
| Aktiva parametrar per token | 5.1B | 3.6B |
| Totala experter | 128 | 32 |
| Aktiva experter per token | 4 | 4 |
| Kontextlängd | 128k | 128k |
Uppdateringsloggar säger (här och här):
- Permissiv Apache 2.0-licens: Bygg fritt utan kopieringsrättsbegränsningar eller patentrisk - idealiskt för experiment, anpassning och kommersiell distribution.
- Konfigurerbar resonemangsinsats: Justera lätt resonemangsinsatsen (låg, medel, hög) baserat på ditt specifika användningsfall och latensbehov.
- Full kedja av tankar: Få full tillgång till modellens resonemangsprocess, vilket underlättar lättare felsökning och ökat förtroende för utdata. Det är inte avsett att visas för slutanvändare.
- Finjusterbar: Anpassa helt modeller till ditt specifika användningsfall genom parameterfinjustering.
- Agentkapaciteter: Använd modellernas inbyggda kapaciteter för funktionsanrop, webbläsning, Python-kodexekvering och Strukturerad Utdata.
- MXFP4-kvantisering: Modellerna posttränades med MXFP4-kvantisering av MoE-vikterna, vilket gör att gpt-oss-120b körs på en enda 80GB-GPU (som NVIDIA H100 eller AMD MI300X) och gpt-oss-20b-modellen körs inom 16GB-minne. Alla utvärderingar utfördes med samma MXFP4-kvantisering.
Vad kan man inte älska? Beteendet för strukturerad utdata… det är det. Sammanfattningsvis är detta problem mycket besvikande, särskilt eftersom Strukturerad Utdata fungerar så bra med Ollama och Qwen3.
Vanliga problem
- Modeller som gpt-oss:20b misslyckas ofta med att producera strikt JSON eller schemaenligt utdata, med svar som ofta innehåller extra kommentarer eller ofullständiga objekt.
- Integration med LangChain och OpenAI SDK tenderar att kasta parsnings-/valideringsfel på grund av icke-strukturerad utdata, vilket gör att pipeline blir oanvändbara i produktionsmiljöer.
- Harmony-format i gpt-oss introducerar resonemangsspår även när det inte begärs, vilket komplicerar schemaparsning jämfört med andra modeller som Qwen3.
- Med vllm saknas mekanismer för att tvinga strukturerad utdata eller de är föråldrade, så utdata är ofta “oledd” och måste manuellt parsa.
- Det finns rapporter om att modellen producerar korrekt strukturerad utdata, men sedan fortsätter med orelaterat innehåll, vilket bryter standardparsrar.
Arbetskraft och lösningar
- Vissa användare föreslår att explicit ange JSON-schemat i prompten och försöka manuellt parsa modellutdata, ibland med hjälp av pre- och post-splitmarkörer.
- En annan metod är att köra en post-processningslager eller en mindre LLM för att reformatera GPT-OSS-utdata till det önskade schemat, även om detta är resurskrävande.
- Några buggfixar och pull requests (PRs) har gradvis förbättrat Harmony-formatskompatibilitet, särskilt med nyare Ollama-utgåvor, men full paritet med tidigare modeller har inte uppnåtts än.
- När vllm används kan patchning av specifika funktioner hjälpa, men generellt stöds inte robust schema-tvång för tillfället.
Rekommendationer
- Undvik att enbart förlita dig på GPT-OSS för strikt strukturerad utdata tills full kompatibilitet återställs i Ollama och nedströmsramverk.
- Där strukturerad utdata är kritisk, använd ytterligare parsning eller en modell som är bättre känd för schemakompatibilitet.
- Följ relevanta GitHub-ärenden (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) för fixar och integrationsuppdateringar.
Sammanfattningsvis har GPT-OSS med Ollama för närvarande svårt med strukturerad utdata, främst på grund av ofullständig formatgenomförande, ändringar i Harmony-format och bristande stöd i verktygskedjor. Manuella arbetskraft kan hjälpa, men garanterad framgång är inte säkerställd.
Användbara länkar
- https://www.reddit.com/r/MachineLearning/comments/1n37qnu/d_ollamagptoss20b_cant_seem_to_generate/
- https://github.com/vllm-project/vllm/issues/23120
- https://github.com/ollama/ollama/issues/11691
- https://huggingface.co/openai/gpt-oss-20b/discussions/111
- https://github.com/langchain-ai/langchain/issues/33116
- https://ollama.com/library/gpt-oss
- https://openai.com/index/introducing-gpt-oss/
Andra Ollama-artiklar
- LLMs och Strukturerad Utdata: Ollama, Qwen3 & Python eller Go
- Jämförelse av strukturerad utdata över populära LLM-leverantörer - OpenAI, Gemini, Anthropic, Mistral och AWS Bedrock
- Ollama cheatsheet
- Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
- Hur Ollama hanterar parallella förfrågningar
- LLM-prestanda och PCIe-lanes: Nyckelfaktorer