तुलना: क्वेन3:30बी vs जीपीटी-ओएसएस:20बी

इन दो मॉडलों की गति, पैरामीटर्स और प्रदर्शन का तुलनात्मक अध्ययन

Page content

यहाँ Qwen3:30b और GPT-OSS:20b के बीच तुलना है, जो निर्देश पालन और प्रदर्शन पैरामीटर्स, स्पेसिफिकेशन्स और गति पर केंद्रित है:

7 llamas

आर्किटेक्चर और पैरामीटर्स

फीचर Qwen3:30b-instruct GPT-OSS:20b
कुल पैरामीटर्स 30.5 बिलियन 21 बिलियन
सक्रिय पैरामीटर्स ~3.3 बिलियन ~3.6 बिलियन
परतों की संख्या 48 24
MoE एक्सपर्ट्स प्रति परत 128 (8 सक्रिय प्रति टोकन) 32 (4 सक्रिय प्रति टोकन)
अटेंशन मेकेनिज्म ग्रुप्ड क्वेरी अटेंशन (32Q /4KV) ग्रुप्ड मल्टी-क्वेरी अटेंशन (64Q /8KV)
कॉन्टेक्स्ट विंडो 32,768 नेटिव; उपरांत 262,144 विस्तारित 128,000 टोकन्स
टोकनाइज़र BPE-आधारित, 151,936 शब्दकोश GPT-आधारित, ≈ 200k शब्दकोश

निर्देश पालन

  • Qwen3:30b-instruct निर्देश पालन के लिए अनुकूलित है जिसमें मजबूत मानव पसंद संरेखण है। यह रचनात्मक लेखन, भूमिका निभाना, बहु-टर्न संवाद और बहुभाषी निर्देश पालन में उत्कृष्ट है। यह वैरिएंट विशेष रूप से उपयोगकर्ता निर्देशों के साथ अधिक प्राकृतिक, नियंत्रित और आकर्षक प्रतिक्रियाएं प्रदान करने के लिए फाइन-ट्यून किया गया है।
  • GPT-OSS:20b निर्देश पालन का समर्थन करता है लेकिन आमतौर पर Qwen3:30b-instruct से थोड़ा पीछे रहता है। यह तुलनीय फंक्शन कॉलिंग, संरचित आउटपुट और रीज़निंग मोड प्रदान करता है लेकिन संवाद संरेखण और रचनात्मक संवाद में पीछे रह सकता है।

प्रदर्शन और दक्षता

  • Qwen3:30b-instruct गणितीय रीज़निंग, कोडिंग, जटिल तार्किक कार्यों और 119 भाषाओं और बोलियों को कवर करने वाले बहुभाषी सीनारियो में उत्कृष्ट प्रदर्शन करता है। इसकी “थिंकिंग” मोड बढ़ी हुई रीज़निंग की अनुमति देती है लेकिन अधिक मेमोरी लागत के साथ आती है।
  • GPT-OSS:20b ओपनएआई के o3-mini मॉडल के समान प्रदर्शन प्राप्त करता है। यह कम परतों का उपयोग करता है लेकिन प्रति परत अधिक चौड़े एक्सपर्ट्स और नेटिव MXFP4 क्वांटाइजेशन का उपयोग करता है जो उपभोक्ता हार्डवेयर पर कुशल इन्फरेंस के लिए कम मेमोरी आवश्यकताओं (~16GB vs Qwen3 के लिए अधिक) के साथ।
  • GPT-OSS उपभोक्ता GPU पर विशेष रूप से 33% अधिक मेमोरी कुशल और तेज है, लेकिन Qwen3 अक्सर बेहतर संरेखण और रीज़निंग गहराई प्रदान करता है, विशेष रूप से जटिल उपयोग मामलों पर।
  • Qwen3 का एक लंबा उपलब्ध विस्तारित कॉन्टेक्स्ट लेंथ विकल्प (उपरांत 262,144 टोकन्स) GPT-OSS के 128,000 टोकन्स के मुकाबले है, जो बहुत लंबे कॉन्टेक्स्ट समझने वाले कार्यों के लिए लाभकारी है।

उपयोग सिफारिश

  • Qwen3:30b-instruct के लिए चुनें जहां उत्कृष्ट निर्देश पालन, रचनात्मक जनरेशन, बहुभाषी समर्थन और जटिल रीज़निंग की आवश्यकता हो।
  • GPT-OSS:20b चुनें अगर मेमोरी कुशलता, उपभोक्ता हार्डवेयर पर इन्फरेंस गति और कम पैरामीटर्स के साथ प्रतिस्पर्धी बेसलाइन प्रदर्शन प्राथमिकता हो।

यह तुलना Qwen3:30b-instruct को एक गहरा, अधिक सक्षम मॉडल के रूप में उजागर करती है जिसमें उन्नत निर्देश ट्यूनिंग है, जबकि GPT-OSS:20b एक अधिक कॉम्पैक्ट, कुशल विकल्प प्रदान करता है जिसमें मानक बेंचमार्क्स पर प्रतिस्पर्धी प्रदर्शन है।

Qwen3:30b-instruct और GPT-OSS:20b के लिए निर्देश पालन और प्रमुख प्रदर्शन पैरामीटर्स (MMLU, LMEval, HumanEval) के लिए विशेष रूप से तुलना करने वाले बेंचमार्क स्कोर सीधे सर्च रिजल्ट्स में उपलब्ध नहीं हैं। हालांकि, मौजूदा प्रकाशित बहुभाषी और बहु-कार्य बेंचमार्क रिपोर्ट्स के आधार पर:

MMLU (मासिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग)

विस्तार से जानकारी मिलना मुश्किल है, बस:

  • Qwen3 श्रृंखला के मॉडल, विशेष रूप से 30B पैमाने और उससे ऊपर, 57 विविध डोमेन में मजबूत MMLU स्कोर दिखाते हैं जो आमतौर पर 89% से अधिक होते हैं, जो बहुत प्रतिस्पर्धी ज्ञान समझ और रीज़निंग क्षमता का संकेत देते हैं।
  • GPT-OSS:20b भी MMLU बेंचमार्क्स पर अच्छा प्रदर्शन करता है लेकिन आमतौर पर छोटे पैरामीटर काउंट और कम निर्देश फाइन-ट्यूनिंग जोर के कारण बड़े Qwen मॉडल से कम स्कोर करता है।

LMEval (लैंग्वेज मॉडल इवैल्यूएशन टूलकिट)

अभी तक बहुत जानकारी नहीं है:

  • Qwen3 मॉडल LMEval में रीज़निंग और कोड-संबंधित कार्यों में महत्वपूर्ण सुधार दिखाते हैं, जिसमें तर्क, गणितीय रीज़निंग और सामान्य क्षमताओं पर बढ़े हुए स्कोर हैं।
  • GPT-OSS:20b LMEval पर मजबूत बेसलाइन प्रदर्शन प्रदान करता है लेकिन आमतौर पर Qwen3:30b-instruct से उन्नत रीज़निंग और निर्देश पालन उप-कार्यों पर पीछे रहता है।

HumanEval (कोड जनरेशन बेंचमार्क)

बहुत डेटा नहीं है, बस:

  • Qwen3:30b-instruct HumanEval-XL जैसे बहुभाषी कोड जनरेशन बेंचमार्क्स पर मजबूत प्रदर्शन करता है, जिसमें 20 से अधिक प्रोग्रामिंग भाषाओं का समर्थन है और बेहतर क्रॉस-लिंग्वल कोड जनरेशन सटीकता है।
  • GPT-OSS:20b, हालांकि प्रतिस्पर्धी, HumanEval बेंचमार्क्स में Qwen3:30b-instruct से कम प्रदर्शन करता है, विशेष रूप से बहुभाषी और बहु-भाषा प्रोग्रामिंग संदर्भों में कम विस्तृत बहुभाषी ट्रेनिंग के कारण।

सारांश तालिका (साहित्य से अनुमानित रुझान):

बेंचमार्क Qwen3:30b-instruct GPT-OSS:20b नोट्स
MMLU सटीकता ~89-91% ~80-85% Qwen3 व्यापक ज्ञान और रीज़निंग में मजबूत
LMEval स्कोर उच्च, उन्नत रीज़निंग और कोड मध्यम, बेसलाइन रीज़निंग Qwen3 गणित और तर्क में उत्कृष्ट है
HumanEval उच्च बहुभाषी कोड जनरेशन प्रदर्शन मध्यम Qwen3 क्रॉस-लिंग्वल कोड जनरेशन में बेहतर है

अगर सटीक बेंचमार्क नंबर चाहिए, तो विशेष बहुभाषी बड़े पैमाने पर बेंचमार्क्स जैसे P-MMEval और HumanEval-XL, जो हाल के शोध पत्रों में संदर्भित हैं, मॉडल्स के लिए Qwen3 और तुलनीय GPT-OSS वैरिएंट्स के लिए विस्तृत स्कोर प्रदान करते हैं, लेकिन ये सीधे साइड-बाय-साइड स्कोर रिट्रीवल के लिए सार्वजनिक रूप से स्ट्रीमलाइन नहीं हैं इस समय।

Qwen3:30b और GPT-OSS:20b गति तुलना

मेरे हार्डवेयर (16GB VRAM) पर मैं Qwen3:30b और GPT-OSS:20b को 4000 कॉन्टेक्स्ट विंडो के साथ चलाता हूँ, और वे उत्पन्न करते हैं:

  • qwen3:30b-a3b => 45.68 टोकन्स/सेकंड
  • gpt-oss:20b => 129.52 टोकन्स/सेकंड

तुलना के लिए मैंने qwen3:14b और gpt-oss:120b भी टेस्ट किए हैं

  • qwen3:14b => 60.12 टोकन्स/सेकंड
  • gpt-oss:120b => 12.87 टोकन्स/सेकंड

लंबे कॉन्टेक्स्ट विंडो पर गति धीमी होगी, qwen3:30b-a3b की स्थिति में शायद बहुत धीमी। यह फिर से, मेरे PC पर है। विस्तृत वर्बोज आउटपुट और ollama ps जो 4K कॉन्टेक्स्ट पर मेमोरी आवंटन दिखाता है नीचे है

qwen3:30b-a3b

ollama run qwen3:30b-a3b --verbose describe weather difference between state capitals in australia
NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

ollama run qwen3:30b-thinking --verbose describe weather difference between state capitals in australia
NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

ollama run gpt-oss:20b --verbose describe weather difference between state capitals in australia
NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

ollama run qwen3:14b --verbose describe weather difference between state capitals in australia
NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

ollama run gpt-oss:120b --verbose describe weather difference between state capitals in australia
NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

क्वेन3:30बी वैरिएंट्स

क्वेन3:30बी मॉडल के तीन वैरिएंट्स उपलब्ध हैं: क्वेन3:30बी, क्वेन3:30बी-इंस्ट्रक्ट, और क्वेन3:30बी-थिंकिंग।

मुख्य अंतर और सिफारिशें

  • क्वेन3:30बी-इंस्ट्रक्ट उन संवादों के लिए सबसे अच्छा है जहां उपयोगकर्ता निर्देश, स्पष्टता, और प्राकृतिक संवाद प्राथमिकता हैं।
  • क्वेन3:30बी सामान्य आधार है, जो उपयुक्त है अगर निर्देशों का पालन और टूल उपयोग दोनों ही विविध कार्यों में महत्वपूर्ण हैं।
  • क्वेन3:30बी-थिंकिंग गहन तर्क, गणित, और कोडिंग पर ध्यान केंद्रित करने के लिए उत्कृष्ट है। यह तर्कसंगत/गणितीय कठोरता के मापदंडों में अन्य मॉडलों से बेहतर प्रदर्शन करता है, लेकिन यह आवश्यक रूप से रचनात्मक लेखन या casual संवादों के लिए बेहतर नहीं हो सकता है।

डायरेक्ट बेंचमार्क तुलना

मॉडल तर्क (AIME25) कोडिंग (LiveCodeBench) सामान्य ज्ञान (MMLU Redux) गति और संदर्भ आदर्श उपयोग मामला
क्वेन3:30बी 70.9 57.4 89.5 256K टोकन; तेज सामान्य भाषा/एजेंट्स/बहुभाषी
क्वेन3:30बी-इंस्ट्रक्ट N/A (30बी के करीब होने की संभावना) N/A ~30बी के समान 256K टोकन निर्देशों का पालन, संरेखण
क्वेन3:30बी-थिंकिंग 85.0 66.0 91.4 256K टोकन गणित, कोड, तर्क, लंबे दस्तावेज

उपयोगी लिंक्स