Probleme mit strukturierten Ausgaben in Ollama GPT-OSS

Nicht sehr nett.

Inhaltsverzeichnis

Ollamas GPT-OSS-Modelle haben wiederkehrende Probleme bei der Handhabung strukturierter Ausgaben, insbesondere bei der Verwendung mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen.

Viele Benutzer berichten über Fehler bei der Erzeugung gültiger JSON- oder anderer strukturierter Formate, Modellhalluzinationen von Formatelementen und unvollständige oder leere Antwortinhalte. Diese Probleme stammen aus aktuellen Kompatibilitätslücken, Änderungen der Antwortformate (wie Harmony) und unvollständiger Durchsetzung von Ausgabeschemata sowohl durch Ollama als auch durch Drittanbieter-APIs.

Llama mit den Problemen

Über GPT-OSS

Dies ist ein neues, sehr interessantes LLM von OpenAI. Schauen Sie sich diese Parameter an:

Modell gpt-oss-120b gpt-oss-20b
Schichten 36 24
Gesamtparameter 117B 21B
Aktive Parameter pro Token 5,1B 3,6B
Gesamtexperten 128 32
Aktive Experten pro Token 4 4
Kontextlänge 128k 128k

Die Versionshinweise sagen (hier und hier):

  • Permissive Apache 2.0-Lizenz: Bauen Sie frei ohne Copyleft-Restriktionen oder Patentrisiko – ideal für Experimente, Anpassungen und kommerzielle Bereitstellung.
  • Anpassbare Denkanstrengung: Passen Sie die Denkanstrengung (niedrig, mittel, hoch) einfach basierend auf Ihrem spezifischen Anwendungsfall und Latenzanforderungen an.
  • Vollständige Kette des Denkens: Erhalten Sie vollständigen Zugriff auf den Denkprozess des Modells, was das Debugging erleichtert und das Vertrauen in die Ausgaben erhöht. Es ist nicht dafür gedacht, Endnutzern angezeigt zu werden.
  • Feinabstimmbar: Passen Sie Modelle vollständig an Ihren spezifischen Anwendungsfall durch Parameter-Feinabstimmung an.
  • Agentenfähigkeiten: Nutzen Sie die nativen Fähigkeiten der Modelle für Funktionsaufrufe, Web-Browsing, Python-Code-Ausführung und strukturierte Ausgaben.
  • MXFP4-Quantisierung: Die Modelle wurden mit MXFP4-Quantisierung der MoE-Gewichte nachtrainiert, wodurch gpt-oss-120b auf einer einzigen 80GB-GPU (wie NVIDIA H100 oder AMD MI300X) und das gpt-oss-20b-Modell innerhalb von 16GB Speicher läuft. Alle Bewertungen wurden mit derselben MXFP4-Quantisierung durchgeführt.

Was gibt es nicht zu lieben? Das Verhalten der strukturierten Ausgabe… genau das ist das Problem. Insgesamt ist dieses Problem sehr enttäuschend, besonders weil Strukturierte Ausgabe mit Ollama und Qwen3 so gut funktioniert.

Häufige Probleme

  • Modelle wie gpt-oss:20b scheitern häufig daran, strikte JSON- oder schema-konforme Ausgaben zu produzieren, wobei die Antworten oft zusätzliche Kommentare oder unvollständige Objekte enthalten.
  • Die Integration mit LangChain und OpenAI SDK neigt dazu, Parsing-/Validierungsfehler aufgrund nicht-strukturierter Ausgaben zu werfen, was die Nutzung in Produktionsumgebungen unmöglich macht.
  • Das Harmony-Format in gpt-oss führt zu Denkspuren, selbst wenn diese nicht angefordert wurden, was das Schema-Parsing im Vergleich zu anderen Modellen wie Qwen3 erschwert.
  • Bei vllm sind die Mechanismen zur Durchsetzung strukturierter Ausgaben entweder fehlend oder veraltet, sodass die Ausgabe häufig “ungeleitet” ist und manuell geparst werden muss.
  • Es gibt Berichte, dass das Modell die korrekte strukturierte Ausgabe produziert, dann aber mit unzusammenhängendem Inhalt fortfährt, was Standardparser zerstört.

Workarounds und Lösungen

  • Einige Benutzer schlagen vor, das JSON-Schema explizit in der Eingabeaufforderung anzugeben und manuelles Parsing der Modellausgaben zu versuchen, manchmal unter Verwendung von Vor- und Nachtrennmarkierungen.
  • Ein anderer Ansatz besteht darin, eine Nachbearbeitungsschicht oder ein kleineres LLM zu verwenden, um die GPT-OSS-Ausgabe in das gewünschte Schema umzuformatieren, obwohl dies ressourcenintensiv ist.
  • Einige Fehlerbehebungen und Pull-Anfragen (PRs) haben die Harmony-Format-Konformität schrittweise verbessert, insbesondere mit neueren Ollama-Versionen, aber vollständige Parität mit früheren Modellen ist noch nicht erreicht.
  • Bei der Verwendung von vllm kann das Patches spezifischer Funktionen helfen, aber im Allgemeinen wird eine robuste Schema-Durchsetzung derzeit nicht unterstützt.

Empfehlungen

  • Vermeiden Sie es, sich ausschließlich auf GPT-OSS für strikte strukturierte Ausgaben zu verlassen, bis die volle Kompatibilität in Ollama und nachgelagerten Frameworks wiederhergestellt ist.
  • Wo strukturierte Ausgabe kritisch ist, verwenden Sie zusätzliche Parsing-Methoden oder ein Modell, das besser für Schema-Konformität bekannt ist.
  • Beobachten Sie relevante GitHub-Issues (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) für Fehlerbehebungen und Integrationsupdates.

Zusammenfassend gesagt, kämpft GPT-OSS mit Ollama derzeit mit strukturierter Ausgabe, hauptsächlich aufgrund unvollständiger Formatdurchsetzung, Änderungen des Harmony-Formats und fehlender Unterstützung in den Toolchains. Manuelle Workarounds können helfen, aber konsistenter Erfolg ist nicht garantiert.

Andere Ollama-Artikel