比較: Qwen3:30b と GPT-OSS:20b
これらの2つのモデルの速度、パラメータ、および性能の比較
ここに Qwen3:30b と GPT-OSS:20b の比較を示します。指示の遵守とパフォーマンスのパラメータ、仕様、速度に焦点を当てています。
スループット、レイテンシー、VRAM、およびランタイムとハードウェアにわたるベンチマークについてさらに詳しく知りたい場合は、LLM Performance: Benchmarks, Bottlenecks & Optimization をご参照ください。

アーキテクチャとパラメータ
| 特徴 | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| 総パラメータ数 | 30.5 billion | 21 billion |
| 活性化されたパラメータ数 | ~3.3 billion | ~3.6 billion |
| レイヤー数 | 48 | 24 |
| レイヤーごとのMoEエキスパート数 | 128 (8個がトークンごとにアクティブ) | 32 (4個がトークンごとにアクティブ) |
| 注意機構 | グループクエリ注意(32Q /4KV) | グループマルチクエリ注意(64Q /8KV) |
| コンテキストウィンドウ | 32,768 native; Up to 262,144 extended | 128,000 tokens |
| トークナイザー | BPEに基づく、151,936語彙 | GPTに基づく、約200,000語彙 |
指示の遵守
- Qwen3:30b-instruct は、指示の遵守に最適化されており、強い人間の好みの調整が行われています。創造的な執筆、役割遊び、マルチターンの対話、多言語の指示遵守に優れています。このバリアントは、ユーザーの指示と一致したより自然で、制御された、そして引き込まれる応答を提供するために特に微調整されています。
- GPT-OSS:20b は指示の遵守をサポートしていますが、通常は Qwen3:30b-instruct に比べて、微妙な指示調整ではやや劣ると評価されています。同等の関数呼び出し、構造化された出力、および論理モードを提供しますが、会話の調整や創造的な対話では少し遅れる可能性があります。
パフォーマンスと効率
- Qwen3:30b-instruct は数学的論理、コーディング、複雑な論理タスク、そして119の言語と方言をカバーする多言語シナリオで優れています。「思考」モードを使用して論理を強化できますが、メモリコストが高くなります。
- GPT-OSS:20b は OpenAI の o3-mini モデルと同等のパフォーマンスを達成しています。層数は少ないですが、レイヤーごとに幅広いエキスパートを使用し、MXFP4のネイティブ量子化により、消費者向けハードウェアで効率的な推論が可能で、メモリ要件が低い(約16GB vs Qwen3のより高いもの)。
- GPT-OSS は特定のハードウェア構成、特に消費者向けGPUで約33%のメモリ効率が高く、速度も速いですが、Qwen3は複雑なユースケースではより高い調整と論理の深さを提供します。
- Qwen3 は拡張コンテキスト長オプション(最大262,144トークン)が GPT-OSS(128,000トークン)に比べて長く、非常に長いコンテキストの理解が必要なタスクに有利です。
使用の推奨
- 指示の遵守、創造的な生成、多言語サポート、複雑な論理が必要なユースケースでは Qwen3:30b-instruct を選択してください。
- メモリ効率、消費者向けハードウェアでの推論速度、およびパラメータ数が少ないにもかかわらず競合するベースラインパフォーマンスが優先される場合、GPT-OSS:20b を選択してください。
この比較では、Qwen3:30b-instruct が高度な指示調整とより深く、能力のあるモデルであることを強調していますが、GPT-OSS:20b は標準ベンチマークで競争力のあるパフォーマンスを提供するよりコンパクトで効率的な代替案です。
Qwen3:30b-instruct と GPT-OSS:20b の指示遵守と主要パフォーマンスパラメータ(MMLU、LMEval、HumanEval)のベンチマークスコアは、検索結果では直接入手できません。しかし、既存の多言語およびマルチタスクベンチマークレポートに基づいて:
MMLU(Massive Multitask Language Understanding)
詳細は見つけるのが難しいですが:
- Qwen3シリーズモデル、特に30Bスケール以上のモデルは、通常89%以上と強く、57の多様なドメインにわたる知識理解および論理能力を示しています。
- GPT-OSS:20b もMMLUベンチマークでよく機能しますが、パラメータ数が少なく、指示微調整の強調が少ないため、より大きなQwenモデルに比べて通常スコアが低くなります。
LMEval(Language Model Evaluation Toolkit)
現在は多くの詳細がありません:
- Qwen3モデルはLMEval内での論理およびコード関連タスクで大幅な改善を示し、論理、数学的論理、および一般的な能力のスコアが向上しています。
- GPT-OSS:20b はLMEvalで堅牢なベースラインパフォーマンスを提供しますが、高度な論理および指示遵守サブタスクではQwen3:30b-instructに後れを取ることが一般的です。
HumanEval(コード生成ベンチマーク)
データはあまりありませんが:
- Qwen3:30b-instruct はHumanEval-XLなどの多言語コード生成ベンチマークで強いパフォーマンスを示し、20以上のプログラミング言語をサポートし、多言語コード生成の精度が優れています。
- GPT-OSS:20b は競争力がありますが、HumanEvalベンチマークでは特に多言語および多言語プログラミングの文脈において、Qwen3:30b-instruct よりもやや低く、多言語トレーニングが広範囲でないためです。
要約表(文献からの近似トレンド):
| ベンチマーク | Qwen3:30b-instruct | GPT-OSS:20b | メモ |
|---|---|---|---|
| MMLU Accuracy | ~89-91% | ~80-85% | Qwen3 は広範な知識および論理において強力 |
| LMEval Scores | 高い、高度な論理およびコード | 中程度、ベースライン論理 | Qwen3 は数学および論理において優れている |
| HumanEval | 高い多言語コード生成パフォーマンス | 中程度 | Qwen3 はクロス言語コード生成において優れている |
正確なベンチマーク数が必要な場合は、最近の研究論文で参照されている P-MMEval および HumanEval-XL などの多言語大規模ベンチマークが、Qwen3 および同等の GPT-OSS バリアントのモデルについて詳細なスコアを提供していますが、これらは現在は直接の比較スコアの取得に最適化されていません。
Qwen3:30b と GPT-OSS:20b の速度比較
私のハードウェア(16GB VRAM)では、Qwen3:30b と GPT-OSS:20b を 4000 コンテキスト ウィンドウで実行しており、以下のように出力しています:
- qwen3:30b-a3b => 45.68 トークン/秒
- gpt-oss:20b => 129.52 トークン/秒
比較のために、qwen3:14b と gpt-oss:120b もテストしました:
- qwen3:14b => 60.12 トークン/秒
- gpt-oss:120b => 12.87 トークン/秒
より長いコンテキストウィンドウでは速度が遅くなり、qwen3:30b-a3b ではおそらくはるかに遅くなります。 これはまた、私のPCでの結果です。 技術的な詳細は詳細出力から取得し、割り当てられたメモリは以下に示しています。試してみるコマンドは:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps 4K コンテキストでのメモリ割り当てを表示
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Qwen3:30b のバリアント
qwen3:30b モデルには3つのバリアントが利用可能です:qwen3:30b、qwen3:30b-instruct、qwen3:30b-thinking。
主な違いと推奨事項
- qwen3:30b-instruct は、ユーザーの指示、明確さ、自然な対話が優先される会話に最適です。
- qwen3:30b は一般的な基礎モデルで、多様なタスクにおいて指示の遵守とツールの使用が重要である場合に適しています。
- qwen3:30b-thinking は、深い論理、数学、コーディングが主な焦点である場合に優れています。論理的/数学的厳密性を測定するタスクでは他のバリアントを上回りますが、創造的な執筆やカジュアルな会話には必ずしも優れているわけではありません。
直接ベンチマーク比較
| モデル | 論理(AIME25) | コーディング(LiveCodeBench) | 一般知識(MMLU Redux) | 速度とコンテキスト | 最適なユースケース |
|---|---|---|---|---|---|
| qwen3:30b | 70.9 | 57.4 | 89.5 | 256K tokens; Fast | 一般的な言語/エージェント/多言語 |
| qwen3:30b-instruct | N/A(30bに近い) | N/A | ~30bと同等 | 256K tokens | 指示の遵守、調整 |
| qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K tokens | 数学、コード、論理、長いドキュメント |
より多くのベンチマーク、ハードウェアの選択、およびパフォーマンスの調整については、LLM Performance: Benchmarks, Bottlenecks & Optimization ハブをご覧ください。
有用なリンク
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Ollamaのインストールと構成
- Ollamaのチートシート - 最も役に立つコマンド
- 構造化された出力でLLMを制限:Ollama、Qwen3、PythonまたはGo
- OllamaとPythonの統合:REST APIおよびPythonクライアントの例