Probleme mit strukturierten Ausgaben in Ollama GPT-OSS
Nicht sehr nett.
Ollamas GPT-OSS-Modelle haben wiederkehrende Probleme bei der Handhabung strukturierter Ausgaben, insbesondere bei der Verwendung mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen.
Viele Benutzer berichten über Fehler bei der Erzeugung gültiger JSON- oder anderer strukturierter Formate, Modellhalluzinationen von Formatelementen und unvollständige oder leere Antwortinhalte. Diese Probleme stammen aus aktuellen Kompatibilitätslücken, Änderungen der Antwortformate (wie Harmony) und unvollständiger Durchsetzung von Ausgabeschemata sowohl durch Ollama als auch durch Drittanbieter-APIs.
Über GPT-OSS
Dies ist ein neues, sehr interessantes LLM von OpenAI. Schauen Sie sich diese Parameter an:
Modell | gpt-oss-120b | gpt-oss-20b |
---|---|---|
Schichten | 36 | 24 |
Gesamtparameter | 117B | 21B |
Aktive Parameter pro Token | 5,1B | 3,6B |
Gesamtexperten | 128 | 32 |
Aktive Experten pro Token | 4 | 4 |
Kontextlänge | 128k | 128k |
Die Versionshinweise sagen (hier und hier):
- Permissive Apache 2.0-Lizenz: Bauen Sie frei ohne Copyleft-Restriktionen oder Patentrisiko – ideal für Experimente, Anpassungen und kommerzielle Bereitstellung.
- Anpassbare Denkanstrengung: Passen Sie die Denkanstrengung (niedrig, mittel, hoch) einfach basierend auf Ihrem spezifischen Anwendungsfall und Latenzanforderungen an.
- Vollständige Kette des Denkens: Erhalten Sie vollständigen Zugriff auf den Denkprozess des Modells, was das Debugging erleichtert und das Vertrauen in die Ausgaben erhöht. Es ist nicht dafür gedacht, Endnutzern angezeigt zu werden.
- Feinabstimmbar: Passen Sie Modelle vollständig an Ihren spezifischen Anwendungsfall durch Parameter-Feinabstimmung an.
- Agentenfähigkeiten: Nutzen Sie die nativen Fähigkeiten der Modelle für Funktionsaufrufe, Web-Browsing, Python-Code-Ausführung und strukturierte Ausgaben.
- MXFP4-Quantisierung: Die Modelle wurden mit MXFP4-Quantisierung der MoE-Gewichte nachtrainiert, wodurch gpt-oss-120b auf einer einzigen 80GB-GPU (wie NVIDIA H100 oder AMD MI300X) und das gpt-oss-20b-Modell innerhalb von 16GB Speicher läuft. Alle Bewertungen wurden mit derselben MXFP4-Quantisierung durchgeführt.
Was gibt es nicht zu lieben? Das Verhalten der strukturierten Ausgabe… genau das ist das Problem. Insgesamt ist dieses Problem sehr enttäuschend, besonders weil Strukturierte Ausgabe mit Ollama und Qwen3 so gut funktioniert.
Häufige Probleme
- Modelle wie gpt-oss:20b scheitern häufig daran, strikte JSON- oder schema-konforme Ausgaben zu produzieren, wobei die Antworten oft zusätzliche Kommentare oder unvollständige Objekte enthalten.
- Die Integration mit LangChain und OpenAI SDK neigt dazu, Parsing-/Validierungsfehler aufgrund nicht-strukturierter Ausgaben zu werfen, was die Nutzung in Produktionsumgebungen unmöglich macht.
- Das Harmony-Format in gpt-oss führt zu Denkspuren, selbst wenn diese nicht angefordert wurden, was das Schema-Parsing im Vergleich zu anderen Modellen wie Qwen3 erschwert.
- Bei vllm sind die Mechanismen zur Durchsetzung strukturierter Ausgaben entweder fehlend oder veraltet, sodass die Ausgabe häufig “ungeleitet” ist und manuell geparst werden muss.
- Es gibt Berichte, dass das Modell die korrekte strukturierte Ausgabe produziert, dann aber mit unzusammenhängendem Inhalt fortfährt, was Standardparser zerstört.
Workarounds und Lösungen
- Einige Benutzer schlagen vor, das JSON-Schema explizit in der Eingabeaufforderung anzugeben und manuelles Parsing der Modellausgaben zu versuchen, manchmal unter Verwendung von Vor- und Nachtrennmarkierungen.
- Ein anderer Ansatz besteht darin, eine Nachbearbeitungsschicht oder ein kleineres LLM zu verwenden, um die GPT-OSS-Ausgabe in das gewünschte Schema umzuformatieren, obwohl dies ressourcenintensiv ist.
- Einige Fehlerbehebungen und Pull-Anfragen (PRs) haben die Harmony-Format-Konformität schrittweise verbessert, insbesondere mit neueren Ollama-Versionen, aber vollständige Parität mit früheren Modellen ist noch nicht erreicht.
- Bei der Verwendung von vllm kann das Patches spezifischer Funktionen helfen, aber im Allgemeinen wird eine robuste Schema-Durchsetzung derzeit nicht unterstützt.
Empfehlungen
- Vermeiden Sie es, sich ausschließlich auf GPT-OSS für strikte strukturierte Ausgaben zu verlassen, bis die volle Kompatibilität in Ollama und nachgelagerten Frameworks wiederhergestellt ist.
- Wo strukturierte Ausgabe kritisch ist, verwenden Sie zusätzliche Parsing-Methoden oder ein Modell, das besser für Schema-Konformität bekannt ist.
- Beobachten Sie relevante GitHub-Issues (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) für Fehlerbehebungen und Integrationsupdates.
Zusammenfassend gesagt, kämpft GPT-OSS mit Ollama derzeit mit strukturierter Ausgabe, hauptsächlich aufgrund unvollständiger Formatdurchsetzung, Änderungen des Harmony-Formats und fehlender Unterstützung in den Toolchains. Manuelle Workarounds können helfen, aber konsistenter Erfolg ist nicht garantiert.
Nützliche Links
- https://www.reddit.com/r/MachineLearning/comments/1n37qnu/d_ollamagptoss20b_cant_seem_to_generate/
- https://github.com/vllm-project/vllm/issues/23120
- https://github.com/ollama/ollama/issues/11691
- https://huggingface.co/openai/gpt-oss-20b/discussions/111
- https://github.com/langchain-ai/langchain/issues/33116
- https://ollama.com/library/gpt-oss
- https://openai.com/index/introducing-gpt-oss/
Andere Ollama-Artikel
- LLMs und strukturierte Ausgabe: Ollama, Qwen3 & Python oder Go
- Vergleich der strukturierten Ausgabe über beliebte LLM-Anbieter - OpenAI, Gemini, Anthropic, Mistral und AWS Bedrock
- Ollama-Cheatsheet
- Test: Wie Ollama Intel-CPU-Leistung und effiziente Kerne nutzt
- Wie Ollama parallele Anfragen handelt
- LLM-Leistung und PCIe-Lanes: Wichtige Überlegungen