比較:Qwen3:30b と GPT-OSS:20b

これらの2つのモデルの速度、パラメータ、パフォーマンスの比較

目次

ここに Qwen3:30b と GPT-OSS:20b の比較を示します。インストラクションに従う能力とパフォーマンスパラメータ、仕様、速度に焦点を当てています:

7 llamas

アーキテクチャとパラメータ

フィーチャー Qwen3:30b-instruct GPT-OSS:20b
総パラメータ数 305億 210億
有効パラメータ数 ~33億 ~36億
レイヤー数 48 24
レイヤーごとのMoEエキスパート数 128 (トークンごとに8個がアクティブ) 32 (トークンごとに4個がアクティブ)
注意機構 グループ化されたクエリ注意 (32Q /4KV) グループ化されたマルチクエリ注意 (64Q /8KV)
コンテキストウィンドウ 32,768 ナイティブ; 最大 262,144 拡張 128,000 トークン
トークナイザー BPEベース、151,936語彙 GPTベース、約200,000語彙

インストラクションに従う能力

  • Qwen3:30b-instruct は、インストラクションに従う能力を最適化しており、人間の好みと強く一致しています。創造的な執筆、役割プレイ、マルチターンの会話、多言語のインストラクションに従う能力に優れています。このバリアントは、ユーザーのインストラクションに従ってより自然で、制御された、そして魅力的な応答を提供するために特別に微調整されています。
  • GPT-OSS:20b はインストラクションに従う能力をサポートしていますが、Qwen3:30b-instruct と比較して、微妙なインストラクション調整ではやや劣ると評価されています。類似の関数呼び出し、構造化された出力、および論理モードを提供しますが、会話の一致や創造的な会話ではやや遅れています。

パフォーマンスと効率

  • Qwen3:30b-instruct は数学的推論、コーディング、複雑な論理タスク、および119の言語と方言をカバーする多言語シナリオで優れています。その「思考」モードは、より高度な推論を可能にしますが、メモリコストが高くなります。
  • GPT-OSS:20b は OpenAI の o3-mini モデルと同等のパフォーマンスを達成しています。レイヤー数は少ないですが、レイヤーごとのエキスパート数は広く、ネイティブの MXFP4 量子化を使用して、消費者ハードウェアでの効率的な推論を実現し、メモリ要件が低い(~16GB vs Qwen3 のより高いもの)。
  • GPT-OSS は特定のハードウェア構成、特に消費者向けGPUでは、33%ほどメモリ効率が高く、速度も速いですが、Qwen3 は複雑なユースケースではより高い一致と推論の深さを提供します。
  • Qwen3 は拡張コンテキスト長のオプションが長く(最大262,144トークン)、GPT-OSS の128,000トークンに比べて、非常に長いコンテキストの理解を必要とするタスクに有利です。

使用推奨

  • インストラクションに従う能力、創造的な生成、多言語サポート、複雑な推論が求められるユースケースでは Qwen3:30b-instruct を選択してください。
  • メモリ効率、消費者ハードウェアでの推論速度、およびパラメータ数が少ないにもかかわらず競争力のある基準パフォーマンスが優先される場合は GPT-OSS:20b を選択してください。

この比較では、Qwen3:30b-instruct が高度なインストラクション調整を備えたより深く、能力のあるモデルであることを強調しています。一方、GPT-OSS:20b は標準ベンチマークで競争力のあるパフォーマンスを提供するよりコンパクトで効率的な代替案を提供しています。

インストラクションに従う能力と主要なパフォーマンスパラメータ(MMLU、LMEval、HumanEval)を比較したベンチマークスコアは、検索結果には直接的に掲載されていません。しかし、既存の多言語およびマルチタスクベンチマークレポートに基づいて:

MMLU(Massive Multitask Language Understanding)

詳細は見つけるのが難しいですが:

  • Qwen3シリーズモデル、特に30Bスケール以上のモデルは、57の多様なドメインにわたる知識の理解と推論能力が非常に競争力があり、一般的に89%以上と高いMMLUスコアを示しています。
  • GPT-OSS:20b もMMLUベンチマークで良好なパフォーマンスを示しますが、パラメータ数が少なく、インストラクション微調整の強調が少ないため、より大きなQwenモデルに比べてスコアがやや低くなります。

LMEval(Language Model Evaluation Toolkit)

詳細は現時点ではあまりありません:

  • Qwen3モデルはLMEval内で論理や数学の推論、および一般的な能力において顕著な改善を示しています。
  • GPT-OSS:20b はLMEvalで堅牢な基準パフォーマンスを提供しますが、高度な推論やインストラクションに従うサブタスクではQwen3:30b-instructにやや劣ります。

HumanEval(コード生成ベンチマーク)

データはあまりありませんが:

  • Qwen3:30b-instruct はHumanEval-XLなどの多言語コード生成ベンチマークで優れたパフォーマンスを示し、20以上のプログラミング言語をサポートし、クロス言語コード生成の正確性が非常に高いです。
  • GPT-OSS:20b は競争力がありますが、HumanEvalベンチマークでは、特に多言語および多言語プログラミングの文脈において、Qwen3:30b-instruct よりやや劣ります。これは、多言語トレーニングがより広範囲でないためです。

概要表(文献からの近似トレンド):

ベンチマーク Qwen3:30b-instruct GPT-OSS:20b メモ
MMLUの精度 ~89-91% ~80-85% Qwen3は広範な知識と推論に優れている
LMEvalスコア 高く、高度な推論とコード 基準、基本的な推論 Qwen3は数学と論理に優れている
HumanEval 高い多言語コード生成パフォーマンス 基準 Qwen3はクロス言語コード生成に優れている

正確なベンチマーク数値が必要な場合は、最近の研究論文で参照されているP-MMEvalやHumanEval-XLなどの多言語大規模ベンチマークが、Qwen3および比較可能なGPT-OSSバリアントの詳細なスコアを提供していますが、これらは現在のところ直接的な比較スコアの取得には最適化されていません。

Qwen3:30b と GPT-OSS:20b の速度比較

私のハードウェア(16GB VRAM)では、Qwen3:30bGPT-OSS:20b4000 コンテキスト ウィンドウで動作しており、以下のように出力しています:

  • qwen3:30b-a3b => 45.68トークン/秒
  • gpt-oss:20b => 129.52トークン/秒

比較のために、qwen3:14b と gpt-oss:120b もテストしました:

  • qwen3:14b => 60.12トークン/秒
  • gpt-oss:120b => 12.87トークン/秒

より長いコンテキストウィンドウでは速度は遅くなり、qwen3:30b-a3b の場合はおそらくかなり遅くなります。 これは、私のPCでの結果です。 技術的な詳細は、詳細な出力と割り当てられたメモリから取得しており、試すべきコマンドは以下の通りです:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps 4Kコンテキストでのメモリ割り当てを表示

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b バリアント

qwen3:30b モデルには3つのバリアントが利用可能です:qwen3:30b、qwen3:30b-instruct、qwen3:30b-thinking。

主な違いと推奨

  • qwen3:30b-instruct は、ユーザーのインストラクション、明確さ、自然な会話が優先される会話に最適です。
  • qwen3:30b は、インストラクションに従う能力とツールの使用が多様なタスクにおいて重要である場合に適した一般的な基礎モデルです。
  • qwen3:30b-thinking は、深い推論、数学、コーディングが主な焦点である場合に優れています。論理的/数学的厳密性を測定するタスクでは他のバリアントを上回りますが、創造的な執筆やカジュアルな会話には必ずしも優れているわけではありません。

直接的なベンチマーク比較

モデル 推論 (AIME25) コーディング (LiveCodeBench) 一般知識 (MMLU Redux) 速度とコンテキスト 最適なユースケース
qwen3:30b 70.9 57.4 89.5 256Kトークン;高速 一般的な言語/エージェント/多言語
qwen3:30b-instruct N/A (30bに近い) N/A ~30bと同様 256Kトークン インストラクションに従う、一致
qwen3:30b-thinking 85.0 66.0 91.4 256Kトークン 数学、コード、推論、長いドキュメント

有用なリンク