ओलामा जीपीटी-ओएसएस संरचित आउटपुट समस्याएँ
बहुत अच्छा नहीं।
Ollama के GPT-OSS मॉडल्स में संरचित आउटपुट को हैंडल करने में बार-बार समस्याएं आती हैं, विशेष रूप से जब उन्हें LangChain, OpenAI SDK, vllm जैसे फ्रेमवर्क्स के साथ उपयोग किया जाता है, और अन्य।
कई उपयोगकर्ताओं ने वैध JSON या अन्य संरचित फॉर्मेट्स को जनरेट करने में विफलता, फॉर्मेट तत्वों के हॉलुसिनेशन, और असंगत या खाली रिस्पॉन्स कंटेंट की रिपोर्ट की है। ये समस्याएं वर्तमान में संगतता के अंतराल, रिस्पॉन्स फॉर्मेट में परिवर्तनों (जैसे Harmony), और Ollama और तीसरे पक्ष के APIs द्वारा आउटपुट स्कीमाओं के अपूर्ण प्रवर्तन से उत्पन्न होती हैं।
GPT-OSS के बारे में
यह OpenAI का एक नया बहुत दिलचस्प LLM है। बस इन पैरामीटर्स को देखें:
मॉडल | gpt-oss-120b | gpt-oss-20b |
---|---|---|
लेयर | 36 | 24 |
कुल पैरामीटर्स | 117B | 21B |
प्रति टोकन सक्रिय पैरामीटर्स | 5.1B | 3.6B |
कुल एक्सपर्ट्स | 128 | 32 |
प्रति टोकन सक्रिय एक्सपर्ट्स | 4 | 4 |
कॉन्टेक्स्ट लेंथ | 128k | 128k |
रिलीज़ नोट्स कहते हैं (यहाँ और यहाँ):
- अनुमत Apache 2.0 लाइसेंस: कॉपीराइट प्रतिबंधों या पेटेंट जोखिम के बिना स्वतंत्र रूप से बनाएं—प्रयोग, अनुकूलन, और वाणिज्यिक तैनाती के लिए आदर्श।
- कॉन्फ़िगरेबल रीज़निंग एफोर्ट: अपने विशिष्ट उपयोग मामले और लेटेंसी आवश्यकताओं के आधार पर रीज़निंग एफोर्ट (कम, मध्यम, उच्च) को आसानी से समायोजित करें।
- पूर्ण चेन-ऑफ-थॉट: मॉडल के रीज़निंग प्रक्रिया तक पूर्ण पहुंच प्राप्त करें, जिससे डिबगिंग आसान हो और आउटपुट्स में अधिक विश्वास हो। यह अंतिम उपयोगकर्ताओं को दिखाने के लिए नहीं है।
- फाइन-ट्यूनेबल: पैरामीटर फाइन-ट्यूनिंग के माध्यम से मॉडल को अपने विशिष्ट उपयोग मामले के अनुसार पूर्ण रूप से अनुकूलित करें।
- एजेंटिक क्षमताएं: मॉडल्स के नेटिव क्षमताओं का उपयोग फ़ंक्शन कॉलिंग, वेब ब्राउज़िंग, Python कोड एक्सीक्यूशन, और संरचित आउटपुट्स के लिए करें।
- MXFP4 क्वांटाइजेशन: मॉडल्स को MoE वेट्स के MXFP4 क्वांटाइजेशन के साथ पोस्ट-ट्रेन किया गया था, जिससे gpt-oss-120b एक एकल 80GB GPU (जैसे NVIDIA H100 या AMD MI300X) पर चल सकता है और gpt-oss-20b मॉडल 16GB मेमोरी के भीतर चल सकता है। सभी इवैल्यूएशन MXFP4 क्वांटाइजेशन के साथ किए गए थे।
क्या प्यार नहीं करना चाहिए? संरचित आउटपुट का व्यवहार… वही है। सामान्य रूप से, यह समस्या बहुत निराशाजनक है, विशेष रूप से क्योंकि संरचित आउटपुट Ollama और Qwen3 के साथ इतना अच्छा काम करता है।
सामान्य समस्याएं
- gpt-oss:20b जैसे मॉडल्स अक्सर कड़ी JSON या स्कीमा-अनुपालित आउटपुट उत्पन्न करने में विफल रहते हैं, जिनके रिस्पॉन्स में अक्सर अतिरिक्त टिप्पणियां या अपूर्ण ऑब्जेक्ट होते हैं।
- LangChain और OpenAI SDK के साथ एकीकरण अक्सर असंरचित आउटपुट के कारण पार्सिंग/वैलिडेशन त्रुटियां फेंकता है, जिससे उत्पादन वातावरण में पाइपलाइन्स अनुपयोगी हो जाते हैं।
- gpt-oss में Harmony फॉर्मेट रीज़निंग ट्रेस को यहां तक कि अनुरोध किए जाने पर भी पेश करता है, जिससे स्कीमा पार्सिंग अन्य मॉडल्स जैसे Qwen3 की तुलना में जटिल हो जाती है।
- vllm के साथ, संरचित आउटपुट प्रवर्तन तंत्र या तो गायब हैं या अव्यवहार्य हैं, इसलिए आउटपुट अक्सर “अनगाइडेड” होता है और इसे मैनुअल रूप से पार्स करना पड़ता है।
- मॉडल द्वारा सही संरचित आउटपुट उत्पन्न करने की रिपोर्टें हैं, फिर असंबंधित सामग्री के साथ जारी रखना, जो मानक पार्सरों को तोड़ देता है।
कार्यवाही और सुधार
- कुछ उपयोगकर्ता प्रॉम्प्ट में JSON स्कीमा को स्पष्ट रूप से निर्दिष्ट करने और मॉडल आउटपुट्स का मैनुअल पार्सिंग करने का सुझाव देते हैं, कभी-कभी प्री- और पोस्ट-स्प्लिट मार्कर्स का उपयोग करते हैं।
- एक और दृष्टिकोण एक पोस्ट-प्रोसेसिंग लेयर या एक छोटे LLM का उपयोग करना है ताकि GPT-OSS आउटपुट को वांछित स्कीमा में पुनः रूपांतरित किया जा सके, हालांकि यह संसाधन-गहन है।
- कुछ बगफिक्स और पुल रिक्वेस्ट्स (PRs) ने Harmony फॉर्मेट अनुपालन को विशेष रूप से नए Ollama रिलीज़ के साथ सुधारा है, लेकिन पिछले मॉडल्स के साथ पूर्ण समानता प्राप्त नहीं हुई है।
- vllm का उपयोग करते समय, विशिष्ट फ़ंक्शंस को पैच करने से मदद मिल सकती है, लेकिन सामान्य रूप से, मजबूत स्कीमा प्रवर्तन इस समय समर्थित नहीं है।
सिफारिशें
- पूर्ण संगतता Ollama और डाउनस्ट्रीम फ्रेमवर्क्स में पुनः स्थापित होने तक, कड़ी संरचित आउटपुट के लिए GPT-OSS पर पूरी तरह से निर्भर न रहें।
- जहां संरचित आउटपुट महत्वपूर्ण है, अतिरिक्त पार्सिंग या एक मॉडल का उपयोग करें जो स्कीमा अनुपालन के लिए अधिक जाना जाता है।
- संबंधित GitHub मुद्दों (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) को सुधारों और एकीकरण अपडेट्स के लिए निगरानी करें।
सारांश में, Ollama के साथ GPT-OSS वर्तमान में अपूर्ण फॉर्मेट प्रवर्तन, Harmony फॉर्मेट परिवर्तनों, और टूलचेन के माध्यम से समर्थन की कमी के कारण संरचित आउटपुट के साथ संघर्ष करता है। मैनुअल कार्यवाही मदद कर सकती हैं, लेकिन स्थिर सफलता की गारंटी नहीं है।
उपयोगी लिंक्स
- https://www.reddit.com/r/MachineLearning/comments/1n37qnu/d_ollamagptoss20b_cant_seem_to_generate/
- https://github.com/vllm-project/vllm/issues/23120
- https://github.com/ollama/ollama/issues/11691
- https://huggingface.co/openai/gpt-oss-20b/discussions/111
- https://github.com/langchain-ai/langchain/issues/33116
- https://ollama.com/library/gpt-oss
- https://openai.com/index/introducing-gpt-oss/
अन्य Ollama लेख
- LLMs और संरचित आउटपुट: Ollama, Qwen3 & Python या Go
- संरचित आउटपुट तुलना लोकप्रिय LLM प्रदाताओं के बीच - OpenAI, Gemini, Anthropic, Mistral और AWS Bedrock
- Ollama चीटशीट
- टेस्ट: Ollama Intel CPU प्रदर्शन और कुशल कोर का उपयोग कैसे करता है
- Ollama समानांतर अनुरोधों का कैसे हैंडल करता है
- LLM प्रदर्शन और PCIe लेन्स: मुख्य विचार