ओलामा जीपीटी-ओएसएस संरचित आउटपुट समस्याएँ

बहुत अच्छा नहीं।

Page content

Ollama के GPT-OSS मॉडल्स में संरचित आउटपुट को हैंडल करने में बार-बार समस्याएं आती हैं, विशेष रूप से जब उन्हें LangChain, OpenAI SDK, vllm जैसे फ्रेमवर्क्स के साथ उपयोग किया जाता है, और अन्य।

कई उपयोगकर्ताओं ने वैध JSON या अन्य संरचित फॉर्मेट्स को जनरेट करने में विफलता, फॉर्मेट तत्वों के हॉलुसिनेशन, और असंगत या खाली रिस्पॉन्स कंटेंट की रिपोर्ट की है। ये समस्याएं वर्तमान में संगतता के अंतराल, रिस्पॉन्स फॉर्मेट में परिवर्तनों (जैसे Harmony), और Ollama और तीसरे पक्ष के APIs द्वारा आउटपुट स्कीमाओं के अपूर्ण प्रवर्तन से उत्पन्न होती हैं।

समस्याओं के साथ लामा

GPT-OSS के बारे में

यह OpenAI का एक नया बहुत दिलचस्प LLM है। बस इन पैरामीटर्स को देखें:

मॉडल gpt-oss-120b gpt-oss-20b
लेयर 36 24
कुल पैरामीटर्स 117B 21B
प्रति टोकन सक्रिय पैरामीटर्स 5.1B 3.6B
कुल एक्सपर्ट्स 128 32
प्रति टोकन सक्रिय एक्सपर्ट्स 4 4
कॉन्टेक्स्ट लेंथ 128k 128k

रिलीज़ नोट्स कहते हैं (यहाँ और यहाँ):

  • अनुमत Apache 2.0 लाइसेंस: कॉपीराइट प्रतिबंधों या पेटेंट जोखिम के बिना स्वतंत्र रूप से बनाएं—प्रयोग, अनुकूलन, और वाणिज्यिक तैनाती के लिए आदर्श।
  • कॉन्फ़िगरेबल रीज़निंग एफोर्ट: अपने विशिष्ट उपयोग मामले और लेटेंसी आवश्यकताओं के आधार पर रीज़निंग एफोर्ट (कम, मध्यम, उच्च) को आसानी से समायोजित करें।
  • पूर्ण चेन-ऑफ-थॉट: मॉडल के रीज़निंग प्रक्रिया तक पूर्ण पहुंच प्राप्त करें, जिससे डिबगिंग आसान हो और आउटपुट्स में अधिक विश्वास हो। यह अंतिम उपयोगकर्ताओं को दिखाने के लिए नहीं है।
  • फाइन-ट्यूनेबल: पैरामीटर फाइन-ट्यूनिंग के माध्यम से मॉडल को अपने विशिष्ट उपयोग मामले के अनुसार पूर्ण रूप से अनुकूलित करें।
  • एजेंटिक क्षमताएं: मॉडल्स के नेटिव क्षमताओं का उपयोग फ़ंक्शन कॉलिंग, वेब ब्राउज़िंग, Python कोड एक्सीक्यूशन, और संरचित आउटपुट्स के लिए करें।
  • MXFP4 क्वांटाइजेशन: मॉडल्स को MoE वेट्स के MXFP4 क्वांटाइजेशन के साथ पोस्ट-ट्रेन किया गया था, जिससे gpt-oss-120b एक एकल 80GB GPU (जैसे NVIDIA H100 या AMD MI300X) पर चल सकता है और gpt-oss-20b मॉडल 16GB मेमोरी के भीतर चल सकता है। सभी इवैल्यूएशन MXFP4 क्वांटाइजेशन के साथ किए गए थे।

क्या प्यार नहीं करना चाहिए? संरचित आउटपुट का व्यवहार… वही है। सामान्य रूप से, यह समस्या बहुत निराशाजनक है, विशेष रूप से क्योंकि संरचित आउटपुट Ollama और Qwen3 के साथ इतना अच्छा काम करता है

सामान्य समस्याएं

  • gpt-oss:20b जैसे मॉडल्स अक्सर कड़ी JSON या स्कीमा-अनुपालित आउटपुट उत्पन्न करने में विफल रहते हैं, जिनके रिस्पॉन्स में अक्सर अतिरिक्त टिप्पणियां या अपूर्ण ऑब्जेक्ट होते हैं।
  • LangChain और OpenAI SDK के साथ एकीकरण अक्सर असंरचित आउटपुट के कारण पार्सिंग/वैलिडेशन त्रुटियां फेंकता है, जिससे उत्पादन वातावरण में पाइपलाइन्स अनुपयोगी हो जाते हैं।
  • gpt-oss में Harmony फॉर्मेट रीज़निंग ट्रेस को यहां तक कि अनुरोध किए जाने पर भी पेश करता है, जिससे स्कीमा पार्सिंग अन्य मॉडल्स जैसे Qwen3 की तुलना में जटिल हो जाती है।
  • vllm के साथ, संरचित आउटपुट प्रवर्तन तंत्र या तो गायब हैं या अव्यवहार्य हैं, इसलिए आउटपुट अक्सर “अनगाइडेड” होता है और इसे मैनुअल रूप से पार्स करना पड़ता है।
  • मॉडल द्वारा सही संरचित आउटपुट उत्पन्न करने की रिपोर्टें हैं, फिर असंबंधित सामग्री के साथ जारी रखना, जो मानक पार्सरों को तोड़ देता है।

कार्यवाही और सुधार

  • कुछ उपयोगकर्ता प्रॉम्प्ट में JSON स्कीमा को स्पष्ट रूप से निर्दिष्ट करने और मॉडल आउटपुट्स का मैनुअल पार्सिंग करने का सुझाव देते हैं, कभी-कभी प्री- और पोस्ट-स्प्लिट मार्कर्स का उपयोग करते हैं।
  • एक और दृष्टिकोण एक पोस्ट-प्रोसेसिंग लेयर या एक छोटे LLM का उपयोग करना है ताकि GPT-OSS आउटपुट को वांछित स्कीमा में पुनः रूपांतरित किया जा सके, हालांकि यह संसाधन-गहन है।
  • कुछ बगफिक्स और पुल रिक्वेस्ट्स (PRs) ने Harmony फॉर्मेट अनुपालन को विशेष रूप से नए Ollama रिलीज़ के साथ सुधारा है, लेकिन पिछले मॉडल्स के साथ पूर्ण समानता प्राप्त नहीं हुई है।
  • vllm का उपयोग करते समय, विशिष्ट फ़ंक्शंस को पैच करने से मदद मिल सकती है, लेकिन सामान्य रूप से, मजबूत स्कीमा प्रवर्तन इस समय समर्थित नहीं है।

सिफारिशें

  • पूर्ण संगतता Ollama और डाउनस्ट्रीम फ्रेमवर्क्स में पुनः स्थापित होने तक, कड़ी संरचित आउटपुट के लिए GPT-OSS पर पूरी तरह से निर्भर न रहें।
  • जहां संरचित आउटपुट महत्वपूर्ण है, अतिरिक्त पार्सिंग या एक मॉडल का उपयोग करें जो स्कीमा अनुपालन के लिए अधिक जाना जाता है।
  • संबंधित GitHub मुद्दों (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) को सुधारों और एकीकरण अपडेट्स के लिए निगरानी करें।

सारांश में, Ollama के साथ GPT-OSS वर्तमान में अपूर्ण फॉर्मेट प्रवर्तन, Harmony फॉर्मेट परिवर्तनों, और टूलचेन के माध्यम से समर्थन की कमी के कारण संरचित आउटपुट के साथ संघर्ष करता है। मैनुअल कार्यवाही मदद कर सकती हैं, लेकिन स्थिर सफलता की गारंटी नहीं है।

उपयोगी लिंक्स

अन्य Ollama लेख