तुलना: क्वेन3:30बी vs जीपीटी-ओएसएस:20बी
इन दो मॉडलों की गति, पैरामीटर्स और प्रदर्शन का तुलनात्मक अध्ययन
यहाँ Qwen3:30b और GPT-OSS:20b के बीच तुलना है, जो निर्देश पालन और प्रदर्शन पैरामीटर्स, स्पेसिफिकेशन्स और गति पर केंद्रित है:
आर्किटेक्चर और पैरामीटर्स
फीचर | Qwen3:30b-instruct | GPT-OSS:20b |
---|---|---|
कुल पैरामीटर्स | 30.5 बिलियन | 21 बिलियन |
सक्रिय पैरामीटर्स | ~3.3 बिलियन | ~3.6 बिलियन |
परतों की संख्या | 48 | 24 |
MoE एक्सपर्ट्स प्रति परत | 128 (8 सक्रिय प्रति टोकन) | 32 (4 सक्रिय प्रति टोकन) |
अटेंशन मेकेनिज्म | ग्रुप्ड क्वेरी अटेंशन (32Q /4KV) | ग्रुप्ड मल्टी-क्वेरी अटेंशन (64Q /8KV) |
कॉन्टेक्स्ट विंडो | 32,768 नेटिव; उपरांत 262,144 विस्तारित | 128,000 टोकन्स |
टोकनाइज़र | BPE-आधारित, 151,936 शब्दकोश | GPT-आधारित, ≈ 200k शब्दकोश |
निर्देश पालन
- Qwen3:30b-instruct निर्देश पालन के लिए अनुकूलित है जिसमें मजबूत मानव पसंद संरेखण है। यह रचनात्मक लेखन, भूमिका निभाना, बहु-टर्न संवाद और बहुभाषी निर्देश पालन में उत्कृष्ट है। यह वैरिएंट विशेष रूप से उपयोगकर्ता निर्देशों के साथ अधिक प्राकृतिक, नियंत्रित और आकर्षक प्रतिक्रियाएं प्रदान करने के लिए फाइन-ट्यून किया गया है।
- GPT-OSS:20b निर्देश पालन का समर्थन करता है लेकिन आमतौर पर Qwen3:30b-instruct से थोड़ा पीछे रहता है। यह तुलनीय फंक्शन कॉलिंग, संरचित आउटपुट और रीज़निंग मोड प्रदान करता है लेकिन संवाद संरेखण और रचनात्मक संवाद में पीछे रह सकता है।
प्रदर्शन और दक्षता
- Qwen3:30b-instruct गणितीय रीज़निंग, कोडिंग, जटिल तार्किक कार्यों और 119 भाषाओं और बोलियों को कवर करने वाले बहुभाषी सीनारियो में उत्कृष्ट प्रदर्शन करता है। इसकी “थिंकिंग” मोड बढ़ी हुई रीज़निंग की अनुमति देती है लेकिन अधिक मेमोरी लागत के साथ आती है।
- GPT-OSS:20b ओपनएआई के o3-mini मॉडल के समान प्रदर्शन प्राप्त करता है। यह कम परतों का उपयोग करता है लेकिन प्रति परत अधिक चौड़े एक्सपर्ट्स और नेटिव MXFP4 क्वांटाइजेशन का उपयोग करता है जो उपभोक्ता हार्डवेयर पर कुशल इन्फरेंस के लिए कम मेमोरी आवश्यकताओं (~16GB vs Qwen3 के लिए अधिक) के साथ।
- GPT-OSS उपभोक्ता GPU पर विशेष रूप से 33% अधिक मेमोरी कुशल और तेज है, लेकिन Qwen3 अक्सर बेहतर संरेखण और रीज़निंग गहराई प्रदान करता है, विशेष रूप से जटिल उपयोग मामलों पर।
- Qwen3 का एक लंबा उपलब्ध विस्तारित कॉन्टेक्स्ट लेंथ विकल्प (उपरांत 262,144 टोकन्स) GPT-OSS के 128,000 टोकन्स के मुकाबले है, जो बहुत लंबे कॉन्टेक्स्ट समझने वाले कार्यों के लिए लाभकारी है।
उपयोग सिफारिश
- Qwen3:30b-instruct के लिए चुनें जहां उत्कृष्ट निर्देश पालन, रचनात्मक जनरेशन, बहुभाषी समर्थन और जटिल रीज़निंग की आवश्यकता हो।
- GPT-OSS:20b चुनें अगर मेमोरी कुशलता, उपभोक्ता हार्डवेयर पर इन्फरेंस गति और कम पैरामीटर्स के साथ प्रतिस्पर्धी बेसलाइन प्रदर्शन प्राथमिकता हो।
यह तुलना Qwen3:30b-instruct को एक गहरा, अधिक सक्षम मॉडल के रूप में उजागर करती है जिसमें उन्नत निर्देश ट्यूनिंग है, जबकि GPT-OSS:20b एक अधिक कॉम्पैक्ट, कुशल विकल्प प्रदान करता है जिसमें मानक बेंचमार्क्स पर प्रतिस्पर्धी प्रदर्शन है।
Qwen3:30b-instruct और GPT-OSS:20b के लिए निर्देश पालन और प्रमुख प्रदर्शन पैरामीटर्स (MMLU, LMEval, HumanEval) के लिए विशेष रूप से तुलना करने वाले बेंचमार्क स्कोर सीधे सर्च रिजल्ट्स में उपलब्ध नहीं हैं। हालांकि, मौजूदा प्रकाशित बहुभाषी और बहु-कार्य बेंचमार्क रिपोर्ट्स के आधार पर:
MMLU (मासिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग)
विस्तार से जानकारी मिलना मुश्किल है, बस:
- Qwen3 श्रृंखला के मॉडल, विशेष रूप से 30B पैमाने और उससे ऊपर, 57 विविध डोमेन में मजबूत MMLU स्कोर दिखाते हैं जो आमतौर पर 89% से अधिक होते हैं, जो बहुत प्रतिस्पर्धी ज्ञान समझ और रीज़निंग क्षमता का संकेत देते हैं।
- GPT-OSS:20b भी MMLU बेंचमार्क्स पर अच्छा प्रदर्शन करता है लेकिन आमतौर पर छोटे पैरामीटर काउंट और कम निर्देश फाइन-ट्यूनिंग जोर के कारण बड़े Qwen मॉडल से कम स्कोर करता है।
LMEval (लैंग्वेज मॉडल इवैल्यूएशन टूलकिट)
अभी तक बहुत जानकारी नहीं है:
- Qwen3 मॉडल LMEval में रीज़निंग और कोड-संबंधित कार्यों में महत्वपूर्ण सुधार दिखाते हैं, जिसमें तर्क, गणितीय रीज़निंग और सामान्य क्षमताओं पर बढ़े हुए स्कोर हैं।
- GPT-OSS:20b LMEval पर मजबूत बेसलाइन प्रदर्शन प्रदान करता है लेकिन आमतौर पर Qwen3:30b-instruct से उन्नत रीज़निंग और निर्देश पालन उप-कार्यों पर पीछे रहता है।
HumanEval (कोड जनरेशन बेंचमार्क)
बहुत डेटा नहीं है, बस:
- Qwen3:30b-instruct HumanEval-XL जैसे बहुभाषी कोड जनरेशन बेंचमार्क्स पर मजबूत प्रदर्शन करता है, जिसमें 20 से अधिक प्रोग्रामिंग भाषाओं का समर्थन है और बेहतर क्रॉस-लिंग्वल कोड जनरेशन सटीकता है।
- GPT-OSS:20b, हालांकि प्रतिस्पर्धी, HumanEval बेंचमार्क्स में Qwen3:30b-instruct से कम प्रदर्शन करता है, विशेष रूप से बहुभाषी और बहु-भाषा प्रोग्रामिंग संदर्भों में कम विस्तृत बहुभाषी ट्रेनिंग के कारण।
सारांश तालिका (साहित्य से अनुमानित रुझान):
बेंचमार्क | Qwen3:30b-instruct | GPT-OSS:20b | नोट्स |
---|---|---|---|
MMLU सटीकता | ~89-91% | ~80-85% | Qwen3 व्यापक ज्ञान और रीज़निंग में मजबूत |
LMEval स्कोर | उच्च, उन्नत रीज़निंग और कोड | मध्यम, बेसलाइन रीज़निंग | Qwen3 गणित और तर्क में उत्कृष्ट है |
HumanEval | उच्च बहुभाषी कोड जनरेशन प्रदर्शन | मध्यम | Qwen3 क्रॉस-लिंग्वल कोड जनरेशन में बेहतर है |
अगर सटीक बेंचमार्क नंबर चाहिए, तो विशेष बहुभाषी बड़े पैमाने पर बेंचमार्क्स जैसे P-MMEval और HumanEval-XL, जो हाल के शोध पत्रों में संदर्भित हैं, मॉडल्स के लिए Qwen3 और तुलनीय GPT-OSS वैरिएंट्स के लिए विस्तृत स्कोर प्रदान करते हैं, लेकिन ये सीधे साइड-बाय-साइड स्कोर रिट्रीवल के लिए सार्वजनिक रूप से स्ट्रीमलाइन नहीं हैं इस समय।
Qwen3:30b और GPT-OSS:20b गति तुलना
मेरे हार्डवेयर (16GB VRAM) पर मैं Qwen3:30b और GPT-OSS:20b को 4000 कॉन्टेक्स्ट विंडो के साथ चलाता हूँ, और वे उत्पन्न करते हैं:
- qwen3:30b-a3b => 45.68 टोकन्स/सेकंड
- gpt-oss:20b => 129.52 टोकन्स/सेकंड
तुलना के लिए मैंने qwen3:14b और gpt-oss:120b भी टेस्ट किए हैं
- qwen3:14b => 60.12 टोकन्स/सेकंड
- gpt-oss:120b => 12.87 टोकन्स/सेकंड
लंबे कॉन्टेक्स्ट विंडो पर गति धीमी होगी, qwen3:30b-a3b की स्थिति में शायद बहुत धीमी। यह फिर से, मेरे PC पर है। विस्तृत वर्बोज आउटपुट और ollama ps जो 4K कॉन्टेक्स्ट पर मेमोरी आवंटन दिखाता है नीचे है
qwen3:30b-a3b
ollama run qwen3:30b-a3b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
ollama run qwen3:30b-thinking --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
ollama run gpt-oss:20b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
ollama run qwen3:14b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
ollama run gpt-oss:120b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
क्वेन3:30बी वैरिएंट्स
क्वेन3:30बी मॉडल के तीन वैरिएंट्स उपलब्ध हैं: क्वेन3:30बी, क्वेन3:30बी-इंस्ट्रक्ट, और क्वेन3:30बी-थिंकिंग।
मुख्य अंतर और सिफारिशें
- क्वेन3:30बी-इंस्ट्रक्ट उन संवादों के लिए सबसे अच्छा है जहां उपयोगकर्ता निर्देश, स्पष्टता, और प्राकृतिक संवाद प्राथमिकता हैं।
- क्वेन3:30बी सामान्य आधार है, जो उपयुक्त है अगर निर्देशों का पालन और टूल उपयोग दोनों ही विविध कार्यों में महत्वपूर्ण हैं।
- क्वेन3:30बी-थिंकिंग गहन तर्क, गणित, और कोडिंग पर ध्यान केंद्रित करने के लिए उत्कृष्ट है। यह तर्कसंगत/गणितीय कठोरता के मापदंडों में अन्य मॉडलों से बेहतर प्रदर्शन करता है, लेकिन यह आवश्यक रूप से रचनात्मक लेखन या casual संवादों के लिए बेहतर नहीं हो सकता है।
डायरेक्ट बेंचमार्क तुलना
मॉडल | तर्क (AIME25) | कोडिंग (LiveCodeBench) | सामान्य ज्ञान (MMLU Redux) | गति और संदर्भ | आदर्श उपयोग मामला |
---|---|---|---|---|---|
क्वेन3:30बी | 70.9 | 57.4 | 89.5 | 256K टोकन; तेज | सामान्य भाषा/एजेंट्स/बहुभाषी |
क्वेन3:30बी-इंस्ट्रक्ट | N/A (30बी के करीब होने की संभावना) | N/A | ~30बी के समान | 256K टोकन | निर्देशों का पालन, संरेखण |
क्वेन3:30बी-थिंकिंग | 85.0 | 66.0 | 91.4 | 256K टोकन | गणित, कोड, तर्क, लंबे दस्तावेज |