比較:Qwen3:30bとGPT-OSS:20b

これらの2つのモデルの速度、パラメータ数、およびパフォーマンスを比較する

目次

以下は、Qwen3:30b と GPT-OSS:20b の比較です。 指示の遵循度(Instruction Following)とパフォーマンスパラメータ、仕様、速度に焦点を当てています。

スループット、レイテンシ、VRAM、ランタイムおよびハードウェア間のベンチマークについては、LLM パフォーマンス:ベンチマーク、ボトルネック & 最適化 を参照してください。

7 llamas

新しい Qwen シリーズ(ペナルティや思考対コーディングプリセットを含む)のエージェントループ指向のサンプリングデフォルト値については、Qwen と Gemma 向けのエージェント推論パラメータ で統合されています。

アーキテクチャとパラメータ

機能 Qwen3:30b-instruct GPT-OSS:20b
総パラメータ数 305億 21億
活性化パラメータ数 ~33億 ~36億
レイヤ数 48 24
レイヤあたりの MoE エキスパート数 128(1トークンあたり8個がアクティブ) 32(1トークンあたり4個がアクティブ)
アテンションメカニズム グループクエリアテンション(32Q /4KV) グループマルチクエリアテンション(64Q /8KV)
コンテキストウィンドウ ネイティブ32,768;最大262,144まで拡張可能 128,000 トークン
トークナイザー BPEベース、語彙数151,936 GPTベース、語彙数約200,000

指示の遵循(Instruction Following)

  • Qwen3:30b-instruct は、強力な人間好みに合わせた調整により、指示の遵循に最適化されています。クリエイティブなライティング、ロールプレイ、マルチターン対話、および多言語の指示遵循で優れています。このバリエーションは、ユーザーの指示に沿ったより自然で制御可能かつ魅力的な応答を提供するために、特にファインチューニングされています。
  • GPT-OSS:20b も指示の遵循をサポートしていますが、微妙な指示調整においては Qwen3:30b-instruct にわずかに劣ると評価されています。同等の関数呼び出し、構造化出力、および推論モードを提供しますが、会話的な整合性やクリエイティブな対話では遅れをとる可能性があります。

パフォーマンスと効率性

  • Qwen3:30b-instruct は、数学的推論、コーディング、複雑な論理タスク、および119言語と方言をカバーする多言語シナリオで優れています。「思考」モードにより推論能力が強化されますが、メモリコストが高くなります。
  • GPT-OSS:20b は、OpenAI の o3-mini モデルと同等のパフォーマンスを達成しています。レイヤ数は少ないものの、レイヤあたりのエキスパート幅が広く、MXFP4 量子化をネイティブにサポートしており、消費メモリが少なく(Qwen3 よりも低い ~16GB)で、コンシューマーハードウェアでの効率的な推論が可能です。
  • GPT-OSS は、特にコンシューマーGPUにおいて、特定のハードウェア構成で約33%メモリ効率が良く、高速です。しかし、Qwen3 は、特に複雑なユースケースにおいて、より優れた整合性と推論の深さを提供することが多いです。
  • Qwen3 は、GPT-OSS の 128,000 トークンと比較して、より長い拡張コンテキスト長さオプション(最大 262,144 トークン)を提供しており、非常に長いコンテキストの理解を必要とするタスクに有利です。

使用推奨

  • 優れた指示の遵循、クリエイティブな生成、多言語サポート、および複雑な推論を要求するユースケースには、Qwen3:30b-instruct を選択してください。
  • メモリ効率、コンシューマーハードウェア上の推論速度、および少ないパラメータ数での競争力のあるベースラインパフォーマンスが優先される場合は、GPT-OSS:20b を選択してください。

この比較は、Qwen3:30b-instruct が高度な指示調整により、より深く、より能力のあるモデルであることを示しています。一方、GPT-OSS:20b は、標準ベンチマークで競争力のあるパフォーマンスを提供する、よりコンパクトで効率的な代替手段です。

指示の遵循と主要なパフォーマンスパラメータ(MMLU、LMEval、HumanEval)に関する Qwen3:30b-instruct と GPT-OSS:20b を具体的に比較するベンチマークスコアは、検索結果では直接利用できません。しかし、既存の公開された多言語およびマルチタスクベンチマークレポートに基づくと以下の通りです:

MMLU(Massive Multitask Language Understanding)

詳細は難しかったが、以下のみ:

  • Qwen3 シリーズモデル、特に 30B スケール以上のモデルは、通常 89% を超える強力な MMLU スコアを示しており、57 の多様な分野横断的な知識理解と推論能力が非常に競争力あることを示しています。
  • GPT-OSS:20b も MMLU ベンチマークで良好なパフォーマンスを示しますが、パラメータ数が少なく、指示ファインチューニングへの重点が低いことから、より大きな Qwen モデルよりもスコアが低くなる傾向があります。

LMEval(Language Model Evaluation Toolkit)

現時点で詳細は少ない:

  • Qwen3 モデルは、LMEval 内での推論およびコード関連タスクで大幅な改善を示しており、論理、数学推論、および一般能力のスコアが向上しています。
  • GPT-OSS:20b は LMEval で堅牢なベースラインパフォーマンスを提供しますが、高度な推論および指示遵循サブタスクでは一般的に Qwen3:30b-instruct に遅れをとっています。

HumanEval(Code Generation Benchmark)

データは限定的:

  • Qwen3:30b-instruct は、HumanEval-XL などの多言語コード生成ベンチマークで強力なパフォーマンスを発揮し、20 以上のプログラミング言語をサポートし、優れた異言語コード生成精度を提供しています。
  • GPT-OSS:20b は競争力がありますが、多言語トレーニングが限られているため、特に多言語およびマルチ言語プログラミングコンテキストにおいて、HumanEval ベンチマークで Qwen3:30b-instruct よりもやや低いパフォーマンスを示します。

まとめテーブル(文献からの概略トレンド):

ベンチマーク Qwen3:30b-instruct GPT-OSS:20b 備考
MMLU 精度 ~89-91% ~80-85% Qwen3 は広範な知識と推論で優れている
LMEval スコア 高、高度な推論 & コード 中程度、ベースライン推論 Qwen3 は数学と論理で優れている
HumanEval 高、多言語コード生成パフォーマンス 中程度 Qwen3 は異言語コード生成で優れている

正確なベンチマーク数値が必要な場合、最近の研究論文で参照されている P-MMEval や HumanEval-XL などの専門的な大規模多言語ベンチマークは、Qwen3 および同等の GPT-OSS 変種を含むモデルの詳細なスコアを提供しますが、これらは現時点で直接的な並列スコア取得のために公開されてはいません。

Qwen3:30b と GPT-OSS:20b の速度比較

私のハードウェア(16GB VRAM)では、4000 コンテキスト ウィンドウで Qwen3:30bGPT-OSS:20b を実行しており、以下の結果が得られています:

  • qwen3:30b-a3b => 45.68 トークン/秒
  • gpt-oss:20b => 129.52 トークン/秒

比較のために、qwen3:14b と gpt-oss:120b もテストしました。

  • qwen3:14b => 60.12 トークン/秒
  • gpt-oss:120b => 12.87 トークン/秒

長いコンテキストウィンドウでは速度が遅くなります。qwen3:30b-a3b の場合は、おそらくさらに遅くなります。 これは、私の PC での結果です。 詳細は冗長出力から取得した技術的詳細と、割り当てられたメモリは以下の通りです。試すコマンド:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • 4K コンテキストでのメモリ割り当てを示す ollama ps

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b のバリエーション

qwen3:30b モデルには、qwen3:30b、qwen3:30b-instruct、qwen3:30b-thinking の3つのバリエーションがあります。

主な違いと推奨事項

  • qwen3:30b-instruct は、ユーザー指示、明確さ、自然な対話が優先される会話に最適です。
  • qwen3:30b は一般的な基盤であり、多様なタスクにおいて指示の遵循とツールの使用の両方が重要な場合に適しています。
  • qwen3:30b-thinking は、深い推論、数学、コーディングが主たる焦点となる場合に優れています。論理的/数学的厳密性を測定するタスクでは他のモデルを上回りますが、クリエイティブなライティングやカジュアルな会話には必ずしも優れているわけではありません。

直接ベンチマーク比較

モデル 推論 (AIME25) コーディング (LiveCodeBench) 一般知識 (MMLU Redux) 速度 & コンテキスト 理想的なユースケース
qwen3:30b 70.9 57.4 89.5 256K トークン;高速 一般言語/エージェント/多言語
qwen3:30b-instruct N/A (30b に近いと予想) N/A ~30b と同じ 256K トークン 指示の遵循、整列
qwen3:30b-thinking 85.0 66.0 91.4 256K トークン 数学、コード、推論、長文ドキュメント

さらにベンチマーク、ハードウェアの選択、パフォーマンスチューニングについては、LLM パフォーマンス:ベンチマーク、ボトルネック & 最適化 ハブをチェックしてください。

有用なリンク

購読する

システム、インフラ、AIエンジニアリングの新記事をお届けします。