المقارنة: Qwen3:30b مقابل GPT-OSS:20b
مقارنة السرعة والparameters والأداء بين هذين النموذجين
هنا مقارنة بين Qwen3:30b و GPT-OSS:20b
متركزة على اتباع التعليمات والمؤشرات الأداء، المواصفات والسرعة:
العمارة والparameters
الميزة | Qwen3:30b-instruct | GPT-OSS:20b |
---|---|---|
المعلمات الإجمالية | 30.5 مليار | 21 مليار |
المعلمات النشطة | ~3.3 مليار | ~3.6 مليار |
عدد الطبقات | 48 | 24 |
خبراء MoE لكل طبقة | 128 (8 نشطة لكل رمز) | 32 (4 نشطة لكل رمز) |
آلية الانتباه | انتباه المجموعة المُستعرضة (32Q /4KV) | انتباه متعدد المجموعات المُستعرضة (64Q /8KV) |
نافذة السياق | 32,768 أصلي؛ حتى 262,144 تمتد | 128,000 رمز |
مُصنف الرموز | مُصنف BPE، 151,936 مفردات | مُصنف GPT، ≈ 200k مفردات |
اتباع التعليمات
- Qwen3:30b-instruct مُحسّن لاتباع التعليمات مع توافق قوي مع تفضيلات الإنسان. يتفوق في الكتابة الإبداعية، اللعب أدوار، المحادثات متعددة الدورات، والاتباع متعدد اللغات. هذا النسخة مُحسّنة خصيصًا لتوفير استجابات أكثر طبيعية، تحكمًا، وتفاعلًا متوافقة مع تعليمات المستخدم.
- GPT-OSS:20b يدعم اتباع التعليمات ولكن يتم تقييمه عادةً بشكل أقل من Qwen3:30b-instruct في التخصيص الدقيق للتعليمات. يوفر وظائف مماثلة، خروج مُنظم، ووضعيات تفكير ولكن قد يتأخر في التوافق مع المحادثات والإبداع في المحادثات.
الأداء والكفاءة
- Qwen3:30b-instruct يتفوق في التفكير الرياضي، البرمجة، المهام المنطقية المعقدة، والسيناريوهات متعددة اللغات التي تغطي 119 لغة ولهجات. وضع “التفكير” يسمح بتحسين التفكير ولكن يكلف تكاليف ذاكرة أعلى.
- GPT-OSS:20b يحقق أداءً مماثلًا لنموذج OpenAI o3-mini. يستخدم طبقات أقل ولكن خبراء أوسع لكل طبقة وكمية MXFP4 الأصلية لتسريع الاستنتاج على الأجهزة الاستهلاكية مع متطلبات ذاكرة أقل (~16 جيجابايت مقابل أعلى لـ Qwen3).
- GPT-OSS أكثر كفاءة في استخدام الذاكرة بنسبة 33% وأسرع على بعض إعدادات الأجهزة، خاصة على بطاقات الرسومات الاستهلاكية، ولكن Qwen3 غالبًا ما توفر توافقًا أفضل وعمقًا في التفكير، خاصة في الاستخدامات المعقدة.
- Qwen3 توفر خيار تمديد طول السياق الأطول (حتى 262,144 رمز) مقارنة بـ GPT-OSS 128,000 رمز، مما يفيد المهام التي تتطلب فهمًا للسياق الطويل جدًا.
توصيات الاستخدام
- اختر Qwen3:30b-instruct للاستخدامات التي تتطلب اتباع تعليمات متفوق، إبداعًا، دعمًا متعدد اللغات، وتفكيرًا معقدًا.
- اختر GPT-OSS:20b إذا كانت كفاءة الذاكرة، سرعة الاستنتاج على الأجهزة الاستهلاكية، والأداء التنافسي مع عدد أقل من المعلمات أولوية.
توضح هذه المقارنة Qwen3:30b-instruct كنموذج أعمق وأكثر قدرة مع تخصيص متقدم للتعليمات، بينما يوفر GPT-OSS:20b بديلًا أكثر كثافة وفعالية مع أداء تنافسي على المعايير القياسية.
لا توجد نتائج مقارنة مباشرة بين Qwen3:30b-instruct و GPT-OSS:20b لمؤشرات الأداء الرئيسية (MMLU، LMEval، HumanEval) في نتائج البحث. ومع ذلك، بناءً على التقارير المنشورة عن المعايير متعددة اللغات والمهام:
MMLU (Massive Multitask Language Understanding)
صعبة العثور على التفاصيل، فقط:
- نماذج Qwen3، خاصةً في المقياس 30B وأعلى، تظهر نتائج قوية في MMLU عادةً تتجاوز 89%، مما يشير إلى قدرة معرفية وتفكر تنافسية للغاية عبر 57 مجالًا متنوعًا.
- GPT-OSS:20b يؤدي أيضًا بشكل جيد في معايير MMLU ولكن عادةً ما يسجل أقل من نماذج Qwen الأكبر بسبب عدد المعلمات الأقل والتركيز الأقل على التخصيص التعليمي.
LMEval (Language Model Evaluation Toolkit)
لا توجد تفاصيل كثيرة في الوقت الحالي:
- نماذج Qwen3 تظهر تحسينًا كبيرًا في المهام المتعلقة بالتفكير والبرمجة داخل LMEval، مع تحسينات في النتائج المنطقية، والتفكير الرياضي، والقدرات العامة.
- GPT-OSS:20b يوفر أداءً قويًا كأساس في LMEval ولكن عادةً ما يتأخر عن Qwen3:30b-instruct في المهام المتقدمة للتفكير والاتباع التعليمي.
HumanEval (Code Generation Benchmark)
لا توجد بيانات كثيرة، فقط:
- Qwen3:30b-instruct يظهر أداءً قويًا في معايير إنتاج الكود متعددة اللغات مثل HumanEval-XL، داعمًا لأكثر من 20 لغة برمجة وتقديم دقة إنتاج كود متعددة اللغات أفضل.
- GPT-OSS:20b، رغم التنافسية، يحقق أداءً أقل من Qwen3:30b-instruct في معايير HumanEval، خاصةً في السياقات متعددة اللغات والبرمجة متعددة اللغات بسبب تدريب متعدد اللغات أقل واسع النطاق.
جدول ملخص (اتجاهات تقريبية من الأدبيات):
المعيار | Qwen3:30b-instruct | GPT-OSS:20b | ملاحظات |
---|---|---|---|
دقة MMLU | ~89-91% | ~80-85% | Qwen3 أقوى في المعرفة العامة والتفكير |
درجات LMEval | عالية، تفكير متقدم وبرمجة | متوسطة، تفكير أساسي | Qwen3 يتفوق في الرياضيات والمنطق |
HumanEval | أداء عالي في إنتاج الكود متعدد اللغات | متوسط | Qwen3 أفضل في إنتاج الكود متعدد اللغات |
إذا كانت الأرقام الدقيقة للمعايير مطلوبة، فإن المعايير متعددة اللغات الكبيرة مثل P-MMEval و HumanEval-XL المشار إليها في الأوراق البحثية الحديثة توفر درجات مفصلة للنماذج بما في ذلك Qwen3 والنسخ المقارنة من GPT-OSS، ولكن هذه غير مُبسطة للحصول على درجات مقارنة مباشرة في الوقت الحالي.
مقارنة سرعة Qwen3:30b و GPT-OSS:20b
على معداتي (16 جيجابايت VRAM) أحصل على Qwen3:30b و GPT-OSS:20b يعملان مع نافذة السياق 4000، ويقومان بإنتاج:
- qwen3:30b-a3b => 45.68 رمز/ثانية
- gpt-oss:20b => 129.52 رمز/ثانية
ومن أجل المقارنة، قمت أيضًا بتجربة qwen3:14b و gpt-oss:120b
- qwen3:14b => 60.12 رمز/ثانية
- gpt-oss:120b => 12.87 رمز/ثانية
على نوافذ سياق أطول ستكون السرعة أبطأ، في حالة qwen3:30b-a3b على الأرجح أبطأ بكثير. هذا مرة أخرى، على جهازي. التفاصيل التقنية المستمدة من الإخراج المفصل والذاكرة المخصصة أدناه، الأوامر لتجربة:
- ollama run qwen3:30b-a3b –verbose describe difference between state capitals in australia
- ollama ps تظهر تخصيص الذاكرة على نافذة سياق 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 دقائق من الآن
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 رمز(ات)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 رمز/ثانية
eval count: 1188 رمز(ات)
eval duration: 26.007424856s
eval rate: 45.68 رمز/ثانية
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 دقائق من الآن
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 رمز(ات)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 رمز/ثانية
eval count: 2722 رمز(ات)
eval duration: 1m6.11230524s
eval rate: 41.17 رمز/ثانية
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 دقائق من الآن
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 رمز(ات)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 رمز/ثانية
eval count: 2268 رمز(ات)
eval duration: 17.510262884s
eval rate: 129.52 رمز/ثانية
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 دقائق من الآن
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 رمز(ات)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 رمز/ثانية
eval count: 2214 رمز(ات)
eval duration: 36.828268069s
eval rate: 60.12 رمز/ثانية
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 دقائق من الآن
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 رمز(ات)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 رمز/ثانية
eval count: 3084 رمز(ات)
eval duration: 3m59.592764501s
eval rate: 12.87 رمز/ثانية
نماذج Qwen3:30b
هناك ثلاث نسخ من نموذج qwen3:30b متاحة: qwen3:30b، qwen3:30b-instruct و qwen3:30b-thinking.
الاختلافات الرئيسية والتوصيات
- qwen3:30b-instruct هو الأفضل للمحادثات حيث تُفضل تعليمات المستخدم، الوضوح، والمحادثة الطبيعية.
- qwen3:30b هو الأساس العام، مناسب إذا كانت اتباع التعليمات واستخدام الأدوات مهمة عبر المهام المختلفة.
- qwen3:30b-thinking يتفوق عندما يكون التركيز الرئيسي هو التفكير العميق، الرياضيات، والبرمجة. يتفوق على الآخرين في المهام التي تقيس صحة المنطق/الرياضيات ولكن لا يضمن بالضرورة أفضلية في الكتابة الإبداعية أو المحادثات العابرة.
المقارنة المباشرة للمعايير
النموذج | التفكير (AIME25) | البرمجة (LiveCodeBench) | المعرفة العامة (MMLU Redux) | السرعة والسياق | الاستخدام المثالي |
---|---|---|---|---|---|
qwen3:30b | 70.9 | 57.4 | 89.5 | 256K رمز؛ سريع | اللغة العامة/الوكلاء/متعدد اللغات |
qwen3:30b-instruct | غير متوفر (مخطط إغلاق قريب من 30b) | غير متوفر | ~نفس 30b | 256K رمز | اتباع التعليمات، التوافق |
qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K رمز | الرياضيات، البرمجة، التفكير، الوثائق الطويلة |
روابط مفيدة
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- تثبيت وتكوين Ollama
- قائمة الأوامر المفيدة لـ Ollama
- تقييد نماذج LLM باستخدام الخرج المُنظم: Ollama، Qwen3 و Python أو Go
- [دمج Ollama مع Python: أمثلة على واجهة REST API وعميل Python](https://www.glukhov.org/ar/post/2025/10/ollama-python-examples/ “تعلم كيفية ربط تطبيقاتك في Python مع Ollama باستخدام واجهة REST API والعميل الرسمي لـ Python — مع أمثلة للمحادثة، إنتاج النص، ونماذج “التفكير” مثل qwen3”)