Qwen3 30bはGPT-OSS 20bと比較してどのような違いがありますか？

Qwen3 30bは、指示遵守、推論、および多言語パフォーマンスにおいて一般的に優れています。一方、GPT-OSS 20bは、消費向けGPUにおいて高速でメモリ効率が優れており（多くの設定において、VRAM使用量が約33%低く、トークン生成速度が高い）、コストパフォーマンスに優れています。

Qwen3 30bとGPT-OSS 20b、どちらのモデルが高速ですか？

GPT-OSS 20bは一般的により高速です。16GBのVRAM環境で4Kのコンテキスト長を用いる場合、GPT-OSS 20bは約130トークン/秒を達成しますが、Qwen3 30b a3bは約46トークン/秒です。ただし、正確な数値はハードウェアやコンテキストのサイズによって異なります。

Qwen3 30bとGPT-OSS 20bのどちらを選ぶべきか

より高度な指示遵守、クリエイティブな出力や多言語対応、複雑な推論、または長いコンテキスト（最大262Kトークンなど）が必要な場合はQwen3 30bを、コンシューマー向けハードウェアでの高速処理やVRAM使用量の低減が優先される場合はGPT-OSS 20bを選択してください。

Qwen3 30bとGPT-OSS 20bにはどのくらいのVRAMが必要ですか？

Qwen3 30b a3bはCPUオフロード（モデルサイズ約20GB）を用いれば16GBのVRAMでも実行可能です。一方、GPT-OSS 20bは16GBのGPUに余裕を持って収まり（使用メモリ約14GB）、GPUのみで完全に実行できます。

LLMの性能とベンチマークに関する詳細はどこで見つけることができますか？

当社のLLMパフォーマンスハブでは、スループットとレイテンシのトレードオフ、VRAMの制限、並列リクエスト、およびランタイムとハードウェア間のベンチマークを網羅しています。

比較：Qwen3:30bとGPT-OSS:20b

これらの2つのモデルの速度、パラメータ数、およびパフォーマンスを比較する

以下は、Qwen3:30b と GPT-OSS:20b の比較です。指示の遵循度（Instruction Following）とパフォーマンスパラメータ、仕様、速度に焦点を当てています。

スループット、レイテンシ、VRAM、ランタイムおよびハードウェア間のベンチマークについては、LLM パフォーマンス：ベンチマーク、ボトルネック & 最適化を参照してください。

7 llamas

新しい Qwen シリーズ（ペナルティや思考対コーディングプリセットを含む）のエージェントループ指向のサンプリングデフォルト値については、Qwen と Gemma 向けのエージェント推論パラメータで統合されています。

アーキテクチャとパラメータ

機能	Qwen3:30b-instruct	GPT-OSS:20b
総パラメータ数	305億	21億
活性化パラメータ数	~33億	~36億
レイヤ数	48	24
レイヤあたりの MoE エキスパート数	128（1トークンあたり8個がアクティブ）	32（1トークンあたり4個がアクティブ）
アテンションメカニズム	グループクエリアテンション（32Q /4KV）	グループマルチクエリアテンション（64Q /8KV）
コンテキストウィンドウ	ネイティブ32,768；最大262,144まで拡張可能	128,000 トークン
トークナイザー	BPEベース、語彙数151,936	GPTベース、語彙数約200,000

指示の遵循（Instruction Following）

Qwen3:30b-instruct は、強力な人間好みに合わせた調整により、指示の遵循に最適化されています。クリエイティブなライティング、ロールプレイ、マルチターン対話、および多言語の指示遵循で優れています。このバリエーションは、ユーザーの指示に沿ったより自然で制御可能かつ魅力的な応答を提供するために、特にファインチューニングされています。
GPT-OSS:20b も指示の遵循をサポートしていますが、微妙な指示調整においては Qwen3:30b-instruct にわずかに劣ると評価されています。同等の関数呼び出し、構造化出力、および推論モードを提供しますが、会話的な整合性やクリエイティブな対話では遅れをとる可能性があります。

パフォーマンスと効率性

Qwen3:30b-instruct は、数学的推論、コーディング、複雑な論理タスク、および119言語と方言をカバーする多言語シナリオで優れています。「思考」モードにより推論能力が強化されますが、メモリコストが高くなります。
GPT-OSS:20b は、OpenAI の o3-mini モデルと同等のパフォーマンスを達成しています。レイヤ数は少ないものの、レイヤあたりのエキスパート幅が広く、MXFP4 量子化をネイティブにサポートしており、消費メモリが少なく（Qwen3 よりも低い ~16GB）で、コンシューマーハードウェアでの効率的な推論が可能です。
GPT-OSS は、特にコンシューマーGPUにおいて、特定のハードウェア構成で約33%メモリ効率が良く、高速です。しかし、Qwen3 は、特に複雑なユースケースにおいて、より優れた整合性と推論の深さを提供することが多いです。
Qwen3 は、GPT-OSS の 128,000 トークンと比較して、より長い拡張コンテキスト長さオプション（最大 262,144 トークン）を提供しており、非常に長いコンテキストの理解を必要とするタスクに有利です。

使用推奨

優れた指示の遵循、クリエイティブな生成、多言語サポート、および複雑な推論を要求するユースケースには、Qwen3:30b-instruct を選択してください。
メモリ効率、コンシューマーハードウェア上の推論速度、および少ないパラメータ数での競争力のあるベースラインパフォーマンスが優先される場合は、GPT-OSS:20b を選択してください。

この比較は、Qwen3:30b-instruct が高度な指示調整により、より深く、より能力のあるモデルであることを示しています。一方、GPT-OSS:20b は、標準ベンチマークで競争力のあるパフォーマンスを提供する、よりコンパクトで効率的な代替手段です。

指示の遵循と主要なパフォーマンスパラメータ（MMLU、LMEval、HumanEval）に関する Qwen3:30b-instruct と GPT-OSS:20b を具体的に比較するベンチマークスコアは、検索結果では直接利用できません。しかし、既存の公開された多言語およびマルチタスクベンチマークレポートに基づくと以下の通りです：

MMLU（Massive Multitask Language Understanding）

詳細は難しかったが、以下のみ：

Qwen3 シリーズモデル、特に 30B スケール以上のモデルは、通常 89% を超える強力な MMLU スコアを示しており、57 の多様な分野横断的な知識理解と推論能力が非常に競争力あることを示しています。
GPT-OSS:20b も MMLU ベンチマークで良好なパフォーマンスを示しますが、パラメータ数が少なく、指示ファインチューニングへの重点が低いことから、より大きな Qwen モデルよりもスコアが低くなる傾向があります。

LMEval（Language Model Evaluation Toolkit）

現時点で詳細は少ない：

Qwen3 モデルは、LMEval 内での推論およびコード関連タスクで大幅な改善を示しており、論理、数学推論、および一般能力のスコアが向上しています。
GPT-OSS:20b は LMEval で堅牢なベースラインパフォーマンスを提供しますが、高度な推論および指示遵循サブタスクでは一般的に Qwen3:30b-instruct に遅れをとっています。

HumanEval（Code Generation Benchmark）

データは限定的：

Qwen3:30b-instruct は、HumanEval-XL などの多言語コード生成ベンチマークで強力なパフォーマンスを発揮し、20 以上のプログラミング言語をサポートし、優れた異言語コード生成精度を提供しています。
GPT-OSS:20b は競争力がありますが、多言語トレーニングが限られているため、特に多言語およびマルチ言語プログラミングコンテキストにおいて、HumanEval ベンチマークで Qwen3:30b-instruct よりもやや低いパフォーマンスを示します。

まとめテーブル（文献からの概略トレンド）：

ベンチマーク	Qwen3:30b-instruct	GPT-OSS:20b	備考
MMLU 精度	~89-91%	~80-85%	Qwen3 は広範な知識と推論で優れている
LMEval スコア	高、高度な推論 & コード	中程度、ベースライン推論	Qwen3 は数学と論理で優れている
HumanEval	高、多言語コード生成パフォーマンス	中程度	Qwen3 は異言語コード生成で優れている

正確なベンチマーク数値が必要な場合、最近の研究論文で参照されている P-MMEval や HumanEval-XL などの専門的な大規模多言語ベンチマークは、Qwen3 および同等の GPT-OSS 変種を含むモデルの詳細なスコアを提供しますが、これらは現時点で直接的な並列スコア取得のために公開されてはいません。

Qwen3:30b と GPT-OSS:20b の速度比較

私のハードウェア（16GB VRAM）では、4000 コンテキスト ウィンドウで Qwen3:30b と GPT-OSS:20b を実行しており、以下の結果が得られています：

qwen3:30b-a3b => 45.68 トークン/秒
gpt-oss:20b => 129.52 トークン/秒

比較のために、qwen3:14b と gpt-oss:120b もテストしました。

qwen3:14b => 60.12 トークン/秒
gpt-oss:120b => 12.87 トークン/秒

長いコンテキストウィンドウでは速度が遅くなります。qwen3:30b-a3b の場合は、おそらくさらに遅くなります。これは、私の PC での結果です。詳細は冗長出力から取得した技術的詳細と、割り当てられたメモリは以下の通りです。試すコマンド：

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
4K コンテキストでのメモリ割り当てを示す ollama ps

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b のバリエーション

qwen3:30b モデルには、qwen3:30b、qwen3:30b-instruct、qwen3:30b-thinking の3つのバリエーションがあります。

主な違いと推奨事項

qwen3:30b-instruct は、ユーザー指示、明確さ、自然な対話が優先される会話に最適です。
qwen3:30b は一般的な基盤であり、多様なタスクにおいて指示の遵循とツールの使用の両方が重要な場合に適しています。
qwen3:30b-thinking は、深い推論、数学、コーディングが主たる焦点となる場合に優れています。論理的/数学的厳密性を測定するタスクでは他のモデルを上回りますが、クリエイティブなライティングやカジュアルな会話には必ずしも優れているわけではありません。

直接ベンチマーク比較

モデル	推論 (AIME25)	コーディング (LiveCodeBench)	一般知識 (MMLU Redux)	速度 & コンテキスト	理想的なユースケース
qwen3:30b	70.9	57.4	89.5	256K トークン；高速	一般言語/エージェント/多言語
qwen3:30b-instruct	N/A (30b に近いと予想)	N/A	~30b と同じ	256K トークン	指示の遵循、整列
qwen3:30b-thinking	85.0	66.0	91.4	256K トークン	数学、コード、推論、長文ドキュメント

さらにベンチマーク、ハードウェアの選択、パフォーマンスチューニングについては、LLM パフォーマンス：ベンチマーク、ボトルネック & 最適化ハブをチェックしてください。