比較: Qwen3:30b と GPT-OSS:20b

これらの2つのモデルの速度、パラメータ、および性能の比較

目次

ここに Qwen3:30b と GPT-OSS:20b の比較を示します。指示の遵守とパフォーマンスのパラメータ、仕様、速度に焦点を当てています。

スループット、レイテンシー、VRAM、およびランタイムとハードウェアにわたるベンチマークについてさらに詳しく知りたい場合は、LLM Performance: Benchmarks, Bottlenecks & Optimization をご参照ください。

7 llamas

アーキテクチャとパラメータ

特徴 Qwen3:30b-instruct GPT-OSS:20b
総パラメータ数 30.5 billion 21 billion
活性化されたパラメータ数 ~3.3 billion ~3.6 billion
レイヤー数 48 24
レイヤーごとのMoEエキスパート数 128 (8個がトークンごとにアクティブ) 32 (4個がトークンごとにアクティブ)
注意機構 グループクエリ注意(32Q /4KV) グループマルチクエリ注意(64Q /8KV)
コンテキストウィンドウ 32,768 native; Up to 262,144 extended 128,000 tokens
トークナイザー BPEに基づく、151,936語彙 GPTに基づく、約200,000語彙

指示の遵守

  • Qwen3:30b-instruct は、指示の遵守に最適化されており、強い人間の好みの調整が行われています。創造的な執筆、役割遊び、マルチターンの対話、多言語の指示遵守に優れています。このバリアントは、ユーザーの指示と一致したより自然で、制御された、そして引き込まれる応答を提供するために特に微調整されています。
  • GPT-OSS:20b は指示の遵守をサポートしていますが、通常は Qwen3:30b-instruct に比べて、微妙な指示調整ではやや劣ると評価されています。同等の関数呼び出し、構造化された出力、および論理モードを提供しますが、会話の調整や創造的な対話では少し遅れる可能性があります。

パフォーマンスと効率

  • Qwen3:30b-instruct は数学的論理、コーディング、複雑な論理タスク、そして119の言語と方言をカバーする多言語シナリオで優れています。「思考」モードを使用して論理を強化できますが、メモリコストが高くなります。
  • GPT-OSS:20b は OpenAI の o3-mini モデルと同等のパフォーマンスを達成しています。層数は少ないですが、レイヤーごとに幅広いエキスパートを使用し、MXFP4のネイティブ量子化により、消費者向けハードウェアで効率的な推論が可能で、メモリ要件が低い(約16GB vs Qwen3のより高いもの)。
  • GPT-OSS は特定のハードウェア構成、特に消費者向けGPUで約33%のメモリ効率が高く、速度も速いですが、Qwen3は複雑なユースケースではより高い調整と論理の深さを提供します。
  • Qwen3 は拡張コンテキスト長オプション(最大262,144トークン)が GPT-OSS(128,000トークン)に比べて長く、非常に長いコンテキストの理解が必要なタスクに有利です。

使用の推奨

  • 指示の遵守、創造的な生成、多言語サポート、複雑な論理が必要なユースケースでは Qwen3:30b-instruct を選択してください。
  • メモリ効率、消費者向けハードウェアでの推論速度、およびパラメータ数が少ないにもかかわらず競合するベースラインパフォーマンスが優先される場合、GPT-OSS:20b を選択してください。

この比較では、Qwen3:30b-instruct が高度な指示調整とより深く、能力のあるモデルであることを強調していますが、GPT-OSS:20b は標準ベンチマークで競争力のあるパフォーマンスを提供するよりコンパクトで効率的な代替案です。

Qwen3:30b-instruct と GPT-OSS:20b の指示遵守と主要パフォーマンスパラメータ(MMLU、LMEval、HumanEval)のベンチマークスコアは、検索結果では直接入手できません。しかし、既存の多言語およびマルチタスクベンチマークレポートに基づいて:

MMLU(Massive Multitask Language Understanding)

詳細は見つけるのが難しいですが:

  • Qwen3シリーズモデル、特に30Bスケール以上のモデルは、通常89%以上と強く、57の多様なドメインにわたる知識理解および論理能力を示しています。
  • GPT-OSS:20b もMMLUベンチマークでよく機能しますが、パラメータ数が少なく、指示微調整の強調が少ないため、より大きなQwenモデルに比べて通常スコアが低くなります。

LMEval(Language Model Evaluation Toolkit)

現在は多くの詳細がありません:

  • Qwen3モデルはLMEval内での論理およびコード関連タスクで大幅な改善を示し、論理、数学的論理、および一般的な能力のスコアが向上しています。
  • GPT-OSS:20b はLMEvalで堅牢なベースラインパフォーマンスを提供しますが、高度な論理および指示遵守サブタスクではQwen3:30b-instructに後れを取ることが一般的です。

HumanEval(コード生成ベンチマーク)

データはあまりありませんが:

  • Qwen3:30b-instruct はHumanEval-XLなどの多言語コード生成ベンチマークで強いパフォーマンスを示し、20以上のプログラミング言語をサポートし、多言語コード生成の精度が優れています。
  • GPT-OSS:20b は競争力がありますが、HumanEvalベンチマークでは特に多言語および多言語プログラミングの文脈において、Qwen3:30b-instruct よりもやや低く、多言語トレーニングが広範囲でないためです。

要約表(文献からの近似トレンド):

ベンチマーク Qwen3:30b-instruct GPT-OSS:20b メモ
MMLU Accuracy ~89-91% ~80-85% Qwen3 は広範な知識および論理において強力
LMEval Scores 高い、高度な論理およびコード 中程度、ベースライン論理 Qwen3 は数学および論理において優れている
HumanEval 高い多言語コード生成パフォーマンス 中程度 Qwen3 はクロス言語コード生成において優れている

正確なベンチマーク数が必要な場合は、最近の研究論文で参照されている P-MMEval および HumanEval-XL などの多言語大規模ベンチマークが、Qwen3 および同等の GPT-OSS バリアントのモデルについて詳細なスコアを提供していますが、これらは現在は直接の比較スコアの取得に最適化されていません。

Qwen3:30b と GPT-OSS:20b の速度比較

私のハードウェア(16GB VRAM)では、Qwen3:30bGPT-OSS:20b4000 コンテキスト ウィンドウで実行しており、以下のように出力しています:

  • qwen3:30b-a3b => 45.68 トークン/秒
  • gpt-oss:20b => 129.52 トークン/秒

比較のために、qwen3:14b と gpt-oss:120b もテストしました:

  • qwen3:14b => 60.12 トークン/秒
  • gpt-oss:120b => 12.87 トークン/秒

より長いコンテキストウィンドウでは速度が遅くなり、qwen3:30b-a3b ではおそらくはるかに遅くなります。 これはまた、私のPCでの結果です。 技術的な詳細は詳細出力から取得し、割り当てられたメモリは以下に示しています。試してみるコマンドは:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps 4K コンテキストでのメモリ割り当てを表示

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b のバリアント

qwen3:30b モデルには3つのバリアントが利用可能です:qwen3:30b、qwen3:30b-instruct、qwen3:30b-thinking。

主な違いと推奨事項

  • qwen3:30b-instruct は、ユーザーの指示、明確さ、自然な対話が優先される会話に最適です。
  • qwen3:30b は一般的な基礎モデルで、多様なタスクにおいて指示の遵守とツールの使用が重要である場合に適しています。
  • qwen3:30b-thinking は、深い論理、数学、コーディングが主な焦点である場合に優れています。論理的/数学的厳密性を測定するタスクでは他のバリアントを上回りますが、創造的な執筆やカジュアルな会話には必ずしも優れているわけではありません。

直接ベンチマーク比較

モデル 論理(AIME25) コーディング(LiveCodeBench) 一般知識(MMLU Redux) 速度とコンテキスト 最適なユースケース
qwen3:30b 70.9 57.4 89.5 256K tokens; Fast 一般的な言語/エージェント/多言語
qwen3:30b-instruct N/A(30bに近い) N/A ~30bと同等 256K tokens 指示の遵守、調整
qwen3:30b-thinking 85.0 66.0 91.4 256K tokens 数学、コード、論理、長いドキュメント

より多くのベンチマーク、ハードウェアの選択、およびパフォーマンスの調整については、LLM Performance: Benchmarks, Bottlenecks & Optimization ハブをご覧ください。

有用なリンク