16GB VRAM GPU用の最適なLLM

RTX 4080(16GB VRAM)でのLLM速度テスト

目次

大型言語モデルをローカルで実行することで、プライバシーの確保、オフラインでの利用、およびAPIコストのゼロ化が可能です。このベンチマークでは、RTX 4080上で動作する9つの人気のあるLLM([LLMs on Ollama on an RTX 4080](https://www.glukhov.org/ja/post/2026/01/choosing-best-llm-for-ollama-on-16gb-vram-gpu/ “LLMs on Ollama on an RTX 4080”)の実際の性能が明らかになります。

16GBのVRAMを持つGPUでは、常にトレードオフに直面しました:より大きなモデルで潜在的に高い品質を得るか、より小さなモデルで高速な推論を実現するかです。

7 llamas - Comparing LLMs on Ollama

TL;DR

RTX 4080 16GBとOllama 0.15.2でLLMの性能を比較した表は以下の通りです:

モデル RAM+VRAM使用量 CPU/GPU分割 トークン/秒
gpt-oss:20b 14 GB 100% GPU 139.93
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3-vl:30b-a3b 22 GB 30%/70% 50.99
glm-4.7-flash 21 GB 27%/73% 33.86
nemotron-3-nano:30b 25 GB 38%/62% 32.77
devstral-small-2:24b 19 GB 18%/82% 18.67
mistral-small3.2:24b 19 GB 18%/82% 18.51
gpt-oss:120b 66 GB 78%/22% 12.64

主要な洞察: VRAMに完全に収まるモデルははるかに高速です。GPT-OSS 20Bは139.93トークン/秒を達成しますが、GPT-OSS 120BはCPUオフロードにより12.64トークン/秒と、11倍の速度差があります。

テストハードウェア構成

ベンチマークは以下のシステムで実施されました:

  • GPU: NVIDIA RTX 4080(16GB VRAM)
  • CPU: Intel Core i7-14700(8 Pコア + 12 Eコア)
  • RAM: 64GB DDR5-6000

これは、ローカルLLM推論用の一般的な高級消費者向け構成です。16GBのVRAMは、モデルがGPU上で完全に実行されるか、CPUオフロードが必要になるかを決定する重要な制約です。

モデルがVRAM容量を超える場合、CPU性能がオフロードされたレイヤーの推論速度に直接影響を与えるため、OllamaがIntel CPUコアを使用する方法を理解することが重要になります。

このベンチマークの目的

このベンチマークの主な目的は、現実的な条件下での推論速度を測定することです。すでに経験から、Mistral Small 3.2 24Bは言語品質に優れており、Qwen3 14Bは私の特定の使用ケースでは指示に従う能力が優れていることを知っています。

このベンチマークは、実用的な質問に答えるものです:各モデルがテキストをどのくらいの速さで生成し、VRAMの制限を超えた場合の速度ペナルティはどのくらいですか?

テストパラメータは以下の通りです:

  • コンテキストサイズ: 19,000トークン
  • プロンプト: “オーストラリアの首都都市の気候と気温を比較してください”
  • 評価指標: 生成中のトークン/秒(eval rate)

Ollamaのインストールとバージョン

すべてのテストでは、テスト時の最新リリースであるOllamaバージョン0.15.2を使用しました。このベンチマークで使用されたOllamaコマンドの完全なリファレンスについては、Ollamaチートシートをご覧ください。

LinuxでのOllamaインストール方法:

curl -fsSL https://ollama.com/install.sh | sh

インストール確認:

ollama --version

モデルを別のドライブに保存する必要がある場合は、Ollamaモデルを別のドライブに移動する方法をご覧ください。

テストしたモデル

以下のモデルがベンチマークされました:

モデル パラメータ 量子化 メモ
gpt-oss:20b 20B Q4_K_M 最も速い
gpt-oss:120b 120B Q4_K_M 最大のテストモデル
qwen3:14b 14B Q4_K_M 指示に従う能力が最も優れている
qwen3-vl:30b-a3b 30B Q4_K_M ビジョン機能あり
ministral-3:14b 14B Q4_K_M Mistralの効率的なモデル
mistral-small3.2:24b 24B Q4_K_M 言語品質が優れている
devstral-small-2:24b 24B Q4_K_M コードに特化
glm-4.7-flash 30B Q4_K_M 思考モデル
nemotron-3-nano:30b 30B Q4_K_M NVIDIAの提供モデル

モデルをダウンロードするには:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

CPUオフロードの理解

モデルのメモリ要件が利用可能なVRAMを超えると、Ollamaは自動的にモデルのレイヤーをGPUとシステムRAMの間で分配します。この結果は、“18%/82% CPU/GPU"などのパーセンテージ分割として表示されます。

これは性能に大きな影響を与えます。各トークン生成には、CPUとGPUメモリ間のデータ転送が必要で、オフロードされたレイヤーごとにボトルネックが増加します。

私たちの結果から明確なパターンが見られます:

  • 100% GPUモデル: 61-140トークン/秒
  • 70-82% GPUモデル: 19-51トークン/秒
  • 22% GPU(主にCPU): 12.6トークン/秒

これは、20Bパラメータモデルが120Bモデルよりも実際には11倍速く実行できる理由を説明しています。複数の同時リクエストを処理する予定がある場合、Ollamaが並列リクエストを処理する方法を理解することが容量計画に不可欠です。

詳細なベンチマーク結果

GPU上100%で動作するモデル

GPT-OSS 20B — 速度のチャンピオン

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

139.93トークン/秒の速度で、GPT-OSS 20Bは速度が重要となるアプリケーションでは明確な勝者です。14GBのVRAMしか使用しないため、より大きなコンテキストウィンドウや他のGPUワークロードに余裕があります。

Qwen3 14B — すばらしいバランス

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

私の経験では、Qwen3 14Bは指示に従う能力が最も優れており、快適な12GBのメモリ使用量があります。61.85トークン/秒の速度では、インタラクティブな使用には十分に応答性があります。

Qwen3をアプリケーションに統合する開発者向けには、OllamaとQwen3を使用したLLM構造化出力をご覧ください。

Ministral 3 14B — 高速でコンパクト

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistralの小さなモデルは、VRAMに完全に収まる70.13トークン/秒を実現します。最大の速度でMistralファミリの品質が必要な場合に最適な選択肢です。

CPUオフロードが必要なモデル

Qwen3-VL 30B — 部分的にオフロードされた性能の最適モデル

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

30%のレイヤーがCPU上にあるにもかかわらず、Qwen3-VLは50.99トークン/秒を維持し、いくつかの100% GPUモデルよりも速いです。視覚機能により、マルチモーダルタスクで多様性が得られます。

Mistral Small 3.2 24B — 質と速度のトレードオフ

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2は優れた言語品質を提供しますが、速度のペナルティが大きいです。18.51トークン/秒では、インタラクティブなチャットで明らかに遅くなります。品質が重要で、レイテンシーが問題にならないタスクには価値があります。

GLM 4.7 Flash — MoE思考モデル

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flashは30B-A3BのMixture of Expertsモデルで、30Bの総パラメータのうち1トークンあたりにのみ3Bがアクティブです。“思考"モデルとして、応答前の内部的な推論を生成します。33.86トークン/秒は思考と出力トークンの両方を含みます。CPUオフロードにもかかわらず、MoEアーキテクチャにより、比較的高速に保たれています。

GPT-OSS 120B — 重いモデル

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

16GB VRAM上で120Bモデルを実行することは技術的には可能ですが、非常に困難です。78%がCPU上にあるため、12.64トークン/秒ではインタラクティブな使用が非常に困難です。遅延が問題にならないバッチ処理に適しています。

実用的な推奨事項

インタラクティブなチャット

100% VRAMに収まるモデルを使用してください:

  1. GPT-OSS 20B — 最大の速度(139.93 t/s)
  2. Ministral 3 14B — Mistralの品質と良い速度(70.13 t/s)
  3. Qwen3 14B — 指示に従う能力が最も優れている(61.85 t/s)

より良いチャット体験のために、ローカルOllama LLM向けのオープンソースチャットUIをご覧ください。

バッチ処理

速度が重要な場合:

  • Mistral Small 3.2 24B — 言語品質が優れている
  • Qwen3-VL 30B — ビジョン+テキスト機能

開発とコーディング

Ollamaでアプリケーションを開発している場合:

代替ホスティングオプション

Ollamaの制限が気になる場合は、ローカルLLMホスティングガイドまたはDockerモデルランナーとOllamaの比較をご覧ください。

結論

16GB VRAMでは、適切に選ぶことで、印象的な速度で有効なLLMを実行できます。主な見解は以下の通りです:

  1. インタラクティブな使用にはVRAMの制限内に留まることが重要です。20Bモデルの140トークン/秒は、実用的な目的では120Bモデルの12トークン/秒よりも優れています。

  2. GPT-OSS 20Bは純粋な速度で勝利しますが、Qwen3 14Bは指示に従うタスクにおいて速度と能力のバランスが最も優れています。

  3. CPUオフロードは機能しますが、3-10倍の遅延が予想されます。バッチ処理には許容できますが、チャットでは不満が残ります。

  4. コンテキストサイズは重要です。ここでは19,000トークンのコンテキストが使用され、VRAMの使用量が大幅に増加しました。コンテキストサイズを減らしてGPU利用率を向上させることを検討してください。

ローカルLLMとウェブ結果を組み合わせたAI駆動の検索については、Ollamaを使用してPerplexicaを自宅でホストをご覧ください。

有用なリンク

内部リソース

外部リファレンス