المقارنة: Qwen3:30b مقابل GPT-OSS:20b

مقارنة السرعة والparameters والأداء بين هذين النموذجين

Page content

هنا مقارنة بين Qwen3:30b و GPT-OSS:20b
متركزة على اتباع التعليمات والمؤشرات الأداء، المواصفات والسرعة:

7 llamas

العمارة والparameters

الميزة Qwen3:30b-instruct GPT-OSS:20b
المعلمات الإجمالية 30.5 مليار 21 مليار
المعلمات النشطة ~3.3 مليار ~3.6 مليار
عدد الطبقات 48 24
خبراء MoE لكل طبقة 128 (8 نشطة لكل رمز) 32 (4 نشطة لكل رمز)
آلية الانتباه انتباه المجموعة المُستعرضة (32Q /4KV) انتباه متعدد المجموعات المُستعرضة (64Q /8KV)
نافذة السياق 32,768 أصلي؛ حتى 262,144 تمتد 128,000 رمز
مُصنف الرموز مُصنف BPE، 151,936 مفردات مُصنف GPT، ≈ 200k مفردات

اتباع التعليمات

  • Qwen3:30b-instruct مُحسّن لاتباع التعليمات مع توافق قوي مع تفضيلات الإنسان. يتفوق في الكتابة الإبداعية، اللعب أدوار، المحادثات متعددة الدورات، والاتباع متعدد اللغات. هذا النسخة مُحسّنة خصيصًا لتوفير استجابات أكثر طبيعية، تحكمًا، وتفاعلًا متوافقة مع تعليمات المستخدم.
  • GPT-OSS:20b يدعم اتباع التعليمات ولكن يتم تقييمه عادةً بشكل أقل من Qwen3:30b-instruct في التخصيص الدقيق للتعليمات. يوفر وظائف مماثلة، خروج مُنظم، ووضعيات تفكير ولكن قد يتأخر في التوافق مع المحادثات والإبداع في المحادثات.

الأداء والكفاءة

  • Qwen3:30b-instruct يتفوق في التفكير الرياضي، البرمجة، المهام المنطقية المعقدة، والسيناريوهات متعددة اللغات التي تغطي 119 لغة ولهجات. وضع “التفكير” يسمح بتحسين التفكير ولكن يكلف تكاليف ذاكرة أعلى.
  • GPT-OSS:20b يحقق أداءً مماثلًا لنموذج OpenAI o3-mini. يستخدم طبقات أقل ولكن خبراء أوسع لكل طبقة وكمية MXFP4 الأصلية لتسريع الاستنتاج على الأجهزة الاستهلاكية مع متطلبات ذاكرة أقل (~16 جيجابايت مقابل أعلى لـ Qwen3).
  • GPT-OSS أكثر كفاءة في استخدام الذاكرة بنسبة 33% وأسرع على بعض إعدادات الأجهزة، خاصة على بطاقات الرسومات الاستهلاكية، ولكن Qwen3 غالبًا ما توفر توافقًا أفضل وعمقًا في التفكير، خاصة في الاستخدامات المعقدة.
  • Qwen3 توفر خيار تمديد طول السياق الأطول (حتى 262,144 رمز) مقارنة بـ GPT-OSS 128,000 رمز، مما يفيد المهام التي تتطلب فهمًا للسياق الطويل جدًا.

توصيات الاستخدام

  • اختر Qwen3:30b-instruct للاستخدامات التي تتطلب اتباع تعليمات متفوق، إبداعًا، دعمًا متعدد اللغات، وتفكيرًا معقدًا.
  • اختر GPT-OSS:20b إذا كانت كفاءة الذاكرة، سرعة الاستنتاج على الأجهزة الاستهلاكية، والأداء التنافسي مع عدد أقل من المعلمات أولوية.

توضح هذه المقارنة Qwen3:30b-instruct كنموذج أعمق وأكثر قدرة مع تخصيص متقدم للتعليمات، بينما يوفر GPT-OSS:20b بديلًا أكثر كثافة وفعالية مع أداء تنافسي على المعايير القياسية.

لا توجد نتائج مقارنة مباشرة بين Qwen3:30b-instruct و GPT-OSS:20b لمؤشرات الأداء الرئيسية (MMLU، LMEval، HumanEval) في نتائج البحث. ومع ذلك، بناءً على التقارير المنشورة عن المعايير متعددة اللغات والمهام:

MMLU (Massive Multitask Language Understanding)

صعبة العثور على التفاصيل، فقط:

  • نماذج Qwen3، خاصةً في المقياس 30B وأعلى، تظهر نتائج قوية في MMLU عادةً تتجاوز 89%، مما يشير إلى قدرة معرفية وتفكر تنافسية للغاية عبر 57 مجالًا متنوعًا.
  • GPT-OSS:20b يؤدي أيضًا بشكل جيد في معايير MMLU ولكن عادةً ما يسجل أقل من نماذج Qwen الأكبر بسبب عدد المعلمات الأقل والتركيز الأقل على التخصيص التعليمي.

LMEval (Language Model Evaluation Toolkit)

لا توجد تفاصيل كثيرة في الوقت الحالي:

  • نماذج Qwen3 تظهر تحسينًا كبيرًا في المهام المتعلقة بالتفكير والبرمجة داخل LMEval، مع تحسينات في النتائج المنطقية، والتفكير الرياضي، والقدرات العامة.
  • GPT-OSS:20b يوفر أداءً قويًا كأساس في LMEval ولكن عادةً ما يتأخر عن Qwen3:30b-instruct في المهام المتقدمة للتفكير والاتباع التعليمي.

HumanEval (Code Generation Benchmark)

لا توجد بيانات كثيرة، فقط:

  • Qwen3:30b-instruct يظهر أداءً قويًا في معايير إنتاج الكود متعددة اللغات مثل HumanEval-XL، داعمًا لأكثر من 20 لغة برمجة وتقديم دقة إنتاج كود متعددة اللغات أفضل.
  • GPT-OSS:20b، رغم التنافسية، يحقق أداءً أقل من Qwen3:30b-instruct في معايير HumanEval، خاصةً في السياقات متعددة اللغات والبرمجة متعددة اللغات بسبب تدريب متعدد اللغات أقل واسع النطاق.

جدول ملخص (اتجاهات تقريبية من الأدبيات):

المعيار Qwen3:30b-instruct GPT-OSS:20b ملاحظات
دقة MMLU ~89-91% ~80-85% Qwen3 أقوى في المعرفة العامة والتفكير
درجات LMEval عالية، تفكير متقدم وبرمجة متوسطة، تفكير أساسي Qwen3 يتفوق في الرياضيات والمنطق
HumanEval أداء عالي في إنتاج الكود متعدد اللغات متوسط Qwen3 أفضل في إنتاج الكود متعدد اللغات

إذا كانت الأرقام الدقيقة للمعايير مطلوبة، فإن المعايير متعددة اللغات الكبيرة مثل P-MMEval و HumanEval-XL المشار إليها في الأوراق البحثية الحديثة توفر درجات مفصلة للنماذج بما في ذلك Qwen3 والنسخ المقارنة من GPT-OSS، ولكن هذه غير مُبسطة للحصول على درجات مقارنة مباشرة في الوقت الحالي.

مقارنة سرعة Qwen3:30b و GPT-OSS:20b

على معداتي (16 جيجابايت VRAM) أحصل على Qwen3:30b و GPT-OSS:20b يعملان مع نافذة السياق 4000، ويقومان بإنتاج:

  • qwen3:30b-a3b => 45.68 رمز/ثانية
  • gpt-oss:20b => 129.52 رمز/ثانية

ومن أجل المقارنة، قمت أيضًا بتجربة qwen3:14b و gpt-oss:120b

  • qwen3:14b => 60.12 رمز/ثانية
  • gpt-oss:120b => 12.87 رمز/ثانية

على نوافذ سياق أطول ستكون السرعة أبطأ، في حالة qwen3:30b-a3b على الأرجح أبطأ بكثير. هذا مرة أخرى، على جهازي. التفاصيل التقنية المستمدة من الإخراج المفصل والذاكرة المخصصة أدناه، الأوامر لتجربة:

  • ollama run qwen3:30b-a3b –verbose describe difference between state capitals in australia
  • ollama ps تظهر تخصيص الذاكرة على نافذة سياق 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 دقائق من الآن
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 رمز(ات)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 رمز/ثانية
eval count:           1188 رمز(ات)
eval duration:        26.007424856s
eval rate:            45.68 رمز/ثانية

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 دقائق من الآن
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 رمز(ات)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 رمز/ثانية
eval count:           2722 رمز(ات)
eval duration:        1m6.11230524s
eval rate:            41.17 رمز/ثانية

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 دقائق من الآن
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 رمز(ات)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 رمز/ثانية
eval count:           2268 رمز(ات)
eval duration:        17.510262884s
eval rate:            129.52 رمز/ثانية

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 دقائق من الآن    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 رمز(ات)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 رمز/ثانية
eval count:           2214 رمز(ات)
eval duration:        36.828268069s
eval rate:            60.12 رمز/ثانية

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 دقائق من الآن
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 رمز(ات)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 رمز/ثانية
eval count:           3084 رمز(ات)
eval duration:        3m59.592764501s
eval rate:            12.87 رمز/ثانية

نماذج Qwen3:30b

هناك ثلاث نسخ من نموذج qwen3:30b متاحة: qwen3:30b، qwen3:30b-instruct و qwen3:30b-thinking.

الاختلافات الرئيسية والتوصيات

  • qwen3:30b-instruct هو الأفضل للمحادثات حيث تُفضل تعليمات المستخدم، الوضوح، والمحادثة الطبيعية.
  • qwen3:30b هو الأساس العام، مناسب إذا كانت اتباع التعليمات واستخدام الأدوات مهمة عبر المهام المختلفة.
  • qwen3:30b-thinking يتفوق عندما يكون التركيز الرئيسي هو التفكير العميق، الرياضيات، والبرمجة. يتفوق على الآخرين في المهام التي تقيس صحة المنطق/الرياضيات ولكن لا يضمن بالضرورة أفضلية في الكتابة الإبداعية أو المحادثات العابرة.

المقارنة المباشرة للمعايير

النموذج التفكير (AIME25) البرمجة (LiveCodeBench) المعرفة العامة (MMLU Redux) السرعة والسياق الاستخدام المثالي
qwen3:30b 70.9 57.4 89.5 256K رمز؛ سريع اللغة العامة/الوكلاء/متعدد اللغات
qwen3:30b-instruct غير متوفر (مخطط إغلاق قريب من 30b) غير متوفر ~نفس 30b 256K رمز اتباع التعليمات، التوافق
qwen3:30b-thinking 85.0 66.0 91.4 256K رمز الرياضيات، البرمجة، التفكير، الوثائق الطويلة

روابط مفيدة