16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較
RTX 4080(16GB VRAM)でのLLM速度テスト
ローカル環境で大型言語モデル(LLM)を動作させることで、プライバシーの保護、オフラインでの利用、そしてAPIコストのゼロ化を実現できます。 このベンチマークでは、RTX 4080搭載のOllama上のLLMs on Ollama on an RTX 4080で一般的に利用される14つのLLMからどのようなパフォーマンスが期待できるかを具体的に明らかにします。
16GBのVRAMを持つGPUを使用する際、私は常にトレードオフに直面していました。 潜在的な品質向上をもたらす大規模モデルか、それとも推論速度が速い小規模モデルか。 LLMのパフォーマンス(スループットとレイテンシ、VRAMの制限、並列リクエスト、ランタイム間のベンチマーク)について詳しくは、LLM Performance: Benchmarks, Bottlenecks & Optimizationをご覧ください。
この記事ではOllamaに焦点を当てています。19K、32K、64Kのコンテキスト長におけるllama.cppでの測定(DenseおよびMoEチェックポイントにおけるVRAM使用量、GPU負荷、トークン/秒)については、16 GB VRAM LLM benchmarks with llama.cpp (speed and context)をご覧ください。
スループットとVRAMの分配が許容範囲内にある場合でも、エージェントスタイルのワークロードでは、QwenやGemma系のスタックに適した温度(temperature)とペナルティのプリセットが必要です。詳細はagentic inference parameters for Qwen and Gemmaを参照してください。

TL;DR
以下は、Ollama 0.17.7およびRTX 4080 16GBにおけるLLMパフォーマンスの比較表を更新したものです。(2026年3月9日) Qwen 3.5の9b、9bq8、27b、35bモデルを追加しました。
| モデル | 使用RAM+VRAM | CPU/GPU比率 | トークン/秒 |
|---|---|---|---|
| gpt-oss:20b | 14 GB | 100% GPU | 139.93 |
| qwen3.5:9b | 9.3 GB | 100% GPU | 90.89 |
| ministral-3:14b | 13 GB | 100% GPU | 70.13 |
| qwen3:14b | 12 GB | 100% GPU | 61.85 |
| qwen3.5:9b-q8_0 | 13 GB | 100% GPU | 61.22 |
| qwen3-coder:30b | 20 GB | 25%/75% CPU/GPU | 57.17 |
| qwen3-vl:30b-a3b | 22 GB | 30%/70% CPU/GPU | 50.99 |
| glm-4.7-flash | 21 GB | 27%/73% CPU/GPU | 33.86 |
| nemotron-3-nano:30b | 25 GB | 38%/62% CPU/GPU | 32.77 |
| qwen3.5:35b | 27 GB | 43%/57% CPU/GPU | 20.66 |
| devstral-small-2:24b | 19 GB | 18%/82% CPU/GPU | 18.67 |
| mistral-small3.2:24b | 19 GB | 18%/82% CPU/GPU | 18.51 |
| gpt-oss:120b | 66 GB | 78%/22% CPU/GPU | 12.64 |
| qwen3.5:27b | 24 GB | 43%/57% CPU/GPU | 6.48 |
主要な洞察: VRAMに完全に収まるモデルは、パフォーマンスが劇的に向上します。GPT-OSS 20Bは139.93トークン/秒を達成していますが、CPUオフロードが重度なGPT-OSS 120Bは12.64トークン/秒と非常に遅く、速度差は11倍もあります。
テスト用ハードウェア構成
本ベンチマークは以下のシステム環境で実施されました:
- GPU: NVIDIA RTX 4080 (16GB VRAM搭載)
- CPU: Intel Core i7-14700 (8 P-cores + 12 E-cores)
- RAM: 64GB DDR5-6000
これは、ローカルLLM推論向けの一般的なハイエンドコンシューマー構成を表しています。 16GBのVRAMが重要な制約となります。これは、どのモデルがGPUのみで実行可能か、あるいはCPUオフロードを必要とするかを決定づけます。
モデルがVRAM容量を超えた場合、how Ollama uses Intel CPU coresの理解が重要になります。CPUのパフォーマンスは、オフロードされたレイヤーの推論速度に直接影響を及ぼすためです。
本ベンチマークの目的
主な目的は、現実的な条件下での推論速度を測定することでした。経験則から、Mistral Small 3.2 24Bが言語品質に優れ、Qwen3 14Bが私の特定のユースケースにおいて優れた指示遵守能力を持つことはすでに知っていました。
本ベンチマークは、実用的な問いに答えるものです:各モデルはどのくらいの速度でテキストを生成できるか、またVRAMの制限を超えた場合の速度ペナルティはどのくらいか?
テストパラメータは以下の通りです:
- コンテキストサイズ: 19,000トークン。これは私のGenerateリクエストにおける平均値です。
- プロンプト: “compare weather and climate between capital cities of australia”(オーストラリアの州都間の気候と天候を比較せよ)
- 指標: eval rate(生成中のトークン/秒)
Ollamaのインストールとバージョン
すべてのテストは、テスト当時の最新リリースであったOllamaバージョン0.15.2を使用しました。 その後、Qwen3.5モデルを追加するためにOllama v 0.17.7で再実行しました。 本ベンチマークで使用されたOllamaコマンドの完全なリファレンスについては、Ollama cheatsheetをご覧ください。
簡単にまとめると、LinuxへのOllamaインストールは以下の通りです:
curl -fsSL https://ollama.com/install.sh | sh
インストールの確認:
ollama --version
スペースの制約によりモデルを別のドライブに保存する必要がある場合は、how to move Ollama models to a different driveを参照してください。
テスト対象モデル
以下のモデルがアルファベット順にベンチマークされました:
| モデル | パラメータ数 | 量子化 | 備考 |
|---|---|---|---|
| devstral-small-2:24b | 24B | Q4_K_M | コーディング特化 |
| glm-4.7-flash | 30B | Q4_K_M | 思考型モデル |
| gpt-oss:20b | 20B | Q4_K_M | 総合的に最速 |
| gpt-oss:120b | 120B | Q4_K_M | 最大規模のテスト対象 |
| ministral-3:14b | 14B | Q4_K_M | Mistralの効率的なモデル |
| mistral-small3.2:24b | 24B | Q4_K_M | 優れた言語品質 |
| nemotron-3-nano:30b | 30B | Q4_K_M | NVIDIA提供 |
| qwen3:14b | 14B | Q4_K_M | 指示遵守能力が最高 |
| qwen3.5:9b | 9B | Q4_K_M | 高速、完全GPU実行 |
| qwen3.5:9b-q8_0 | 9B | Q8_0 | 高品質、完全GPU実行 |
| qwen3.5:27b | 27B | Q4_K_M | 優れた品質、Ollamaでは低速 |
| qwen3-vl:30b-a3b | 30B | Q4_K_M | ビジョン機能付き |
| qwen3-coder:30b | 30B | Q4_K_M | コーディング特化 |
| qwen3.5:35b | 35B | Q4_K_M | 優れたコーディング能力 |
任意のモデルをダウンロードするには:
ollama pull gpt-oss:20b
ollama pull qwen3:14b
CPUオフロードの理解
モデルのメモリ要件が利用可能なVRAMを超えた場合、Ollamaは自動的にモデルのレイヤーをGPUとシステムRAMの間に分散します。出力には「18%/82% CPU/GPU」といった割合として表示されます。
これはパフォーマンスに大きな影響を及ぼします。 各トークンの生成には、CPUとGPUメモリ間のデータ転送が必要であり、CPUにオフロードされるレイヤー数が増えるほどこのボトルネックは悪化します。
結果からパターンは明確です:
- 100% GPUモデル: 61-140 トークン/秒
- 70-82% GPUモデル: 19-51 トークン/秒
- 22% GPU(主にCPU): 12.6 トークン/秒
これが、20Bパラメータのモデルが実際に120Bのモデルよりも11倍高速である理由を説明しています。複数の並行リクエストを提供する予定の場合、how Ollama handles parallel requestsを理解することは、キャパシティプランニングにおいて不可欠です。
詳細なベンチマーク結果
100% GPUで実行されるモデル
GPT-OSS 20B — 速度の王者
ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:20b 14 GB 100% GPU 19000
eval count: 2856 token(s)
eval duration: 20.410517947s
eval rate: 139.93 tokens/s
139.93トークン/秒を記録したGPT-OSS 20Bは、速度が重要なアプリケーションにおいて明確な勝者です。VRAM使用量はわずか14GBであり、より大きなコンテキストウィンドウや他のGPUワークロードのために余裕を残しています。
Qwen3 14B — 優れたバランス
ollama run qwen3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3:14b 12 GB 100% GPU 19000
eval count: 3094 token(s)
eval duration: 50.020594575s
eval rate: 61.85 tokens/s
私の経験では、Qwen3 14Bは指示遵守能力が最も優れており、12GBという快適なメモリフットプリントを実現しています。61.85トークン/秒という速度は、インタラクティブな使用にも十分なレスポンスがあります。
Qwen3をアプリケーションに統合する開発者向けには、構造化されたJSONレスポンスを抽出する方法についてLLM Structured Output with Ollama and Qwen3をご覧ください。
Ministral 3 14B — 高速かつコンパクト
ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
ministral-3:14b 13 GB 100% GPU 19000
eval count: 1481 token(s)
eval duration: 21.11734277s
eval rate: 70.13 tokens/s
Mistralの小型モデルは、VRMに完全に収まりながら70.13トークン/秒を達成しました。Mistral系の品質を最大速度で必要とする場合、堅実な選択です。
qwen3.5:9b - 素早く新しいモデル
ollama run qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:9b 6488c96fa5fa 9.3 GB 100% GPU 19000
eval count: 3802 token(s)
eval duration: 41.830174597s
eval rate: 90.89 tokens/s
qwen3.5:9b-q8_0 - q8量子化
この量子化は、q4と比較してqwen3.5:9bのパフォーマンスを30%低下させます。
ollama run qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:9b-q8_0 441ec31e4d2a 13 GB 100% GPU 19000
eval count: 3526 token(s)
eval duration: 57.595540159s
eval rate: 61.22 tokens/s
CPUオフロードを必要とするモデル
qwen3-coder:30b - テキストオンリーであるため、30b LLMセット中最速
ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3-coder:30b 06c1097efce0 20 GB 25%/75% CPU/GPU 19000
22%/605%
eval count: 559 token(s)
eval duration: 9.77768875s
eval rate: 57.17 tokens/s
Qwen3-VL 30B — 部分的オフロードで最高のパフォーマンス
ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
qwen3-vl:30b-a3b-instruct 22 GB 30%/70% CPU/GPU 19000
eval count: 1450 token(s)
eval duration: 28.439319709s
eval rate: 50.99 tokens/s
レイヤーの30%がCPU上にあるにもかかわらず、Qwen3-VLは50.99トークン/秒を維持しており、一部の100% GPUモデルよりも高速です。ビジョン機能により、マルチモーダルタスクにおける versatility(多様性)が追加されます。
Mistral Small 3.2 24B — 品質と速度のトレードオフ
ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 19000
eval count: 831 token(s)
eval duration: 44.899859038s
eval rate: 18.51 tokens/s
Mistral Small 3.2は優れた言語品質を提供しますが、その分速度ペナルティが大きく支払われます。18.51トークン/秒という速度は、インタラクティブなチャットでは明らかに遅く感じられます。レイテンシよりも品質が重要なタスクには価値があります。
GLM 4.7 Flash — MoE思考モデル
ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
glm-4.7-flash 21 GB 27%/73% CPU/GPU 19000
eval count: 2446 token(s)
eval duration: 1m12.239164004s
eval rate: 33.86 tokens/s
GLM 4.7 Flashは30B-A3BのMixture of Experts(専門家の混合)モデルです。総パラメータ数は30Bですが、各トークンごとにアクティブになるのは3Bのみです。「思考」モデルとして、レスポンス前に内部的な推論を生成します。33.86トークン/秒という数値には、思考トークンと出力トークンの両方が含まれます。CPUオフロードがあるものの、MoEアーキテクチャにより比較的高速に保たれています。
qwen3.5:35b - 自己ホスト環境でのパフォーマンスが良好な新モデル
ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:35b 4af949f8bdf0 27 GB 43%/57% CPU/GPU 19000
eval count: 3418 token(s)
eval duration: 2m45.458926548s
eval rate: 20.66 tokens/s
GPT-OSS 120B — 重量級モデル
ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000
NAME SIZE PROCESSOR CONTEXT
gpt-oss:120b 66 GB 78%/22% CPU/GPU 19000
eval count: 5008 token(s)
eval duration: 6m36.168233066s
eval rate: 12.64 tokens/s
16GB VRAMで120Bモデルを動作させることは技術的には可能ですが、苦痛を伴います。78%がCPU上で実行されるため、12.64トークン/秒という速度はインタラクティブな使用には耐え難いものです。レイテンシが重要でないバッチ処理には適しています。
qwen3.5:27b - 賢いがOllamaでは遅い
ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia
NAME ID SIZE PROCESSOR CONTEXT
qwen3.5:27b 193ec05b1e80 24 GB 43%/57% CPU/GPU 19000
eval count: 3370 token(s)
eval duration: 8m40.087510281s
eval rate: 6.48 tokens/s
私はqwen3.5:27bをテストし、OpenCodeでのこのモデルのパフォーマンスについて極めて良い評価を得ました。 非常に有能で、知識豊富、ツール呼び出し能力も本当に優れています。ただし、私のマシン上のOllamaでは遅いです。 他のLLM自己ホスティングプラットフォームを試しましたが、はるかに高い速度が得られました。 Ollamaを手放す時期が来たのかもしれません。 後ほどそれについて書きます。
実用的な推奨事項
インタラクティブチャット用
VRAMに100%収まるモデルを使用してください:
- GPT-OSS 20B — 最大速度 (139.93 t/s)
- Ministral 3 14B — Mistralの品質を備えた良好な速度 (70.13 t/s)
- Qwen3 14B — 最高の指示遵守能力 (61.85 t/s)
より良いチャット体験を求める場合は、Open-Source Chat UIs for local Ollamaをご検討ください。
バッチ処理用
これも私の環境(14GB VRAM)での結果です。
速度がそれほど重要でない場合:
- Mistral Small 3.2 24B — 優れた言語品質
- Qwen3-VL 30B — ビジョン+テキスト機能
速度が全く重要でない場合:
- Qwen3.5:35b - 優れたコーディング能力
- Qwen3.5:27b - 非常に優秀だが、Ollamaでは遅い。ただし、llama.cppでホストした際にはかなりの成功を収めました。
開発とコーディング用
Ollamaでアプリケーションを構築している場合:
その他のホスティングオプション
Ollamaの制限事項が懸念される場合(Ollama enshittification concernsを参照)、Local LLM Hosting Guideで紹介されている他のオプションを検討するか、Docker Model Runner vs Ollamaを比較してください。
結論
16GBのVRAMがあれば、賢く選択すれば印象的な速度で有能なLLMを動作させることができます。主要な発見は以下の通りです:
-
インタラクティブな使用ではVRAMの制限内にとどまること。140トークン/秒の20Bモデルは、実用的な目的のほとんどにおいて、12トークン/秒の120Bモデルを上回ります。
-
GPT-OSS 20Bが純粋な速度で勝利しますが、Qwen3 14Bは指示遵守タスクにおいて速度と能力の最も良いバランスを提供します。
-
CPUオフロードは機能しますが、3〜10倍の速度低下を想定してください。バッチ処理には許容可能ですが、チャットには frustratiing(苛立たしい)ものです。
-
コンテキストサイズは重要です。 ここで使用した19KのコンテキストはVRAM使用量を大幅に増加させます。GPUの効率的な利用のためにコンテキストを削減してください。
ローカルLLMとウェブ検索結果を組み合わせたAI駆動の検索については、self-hosting Perplexica with Ollamaをご覧ください。
さらに多くのベンチマーク、VRAMとスループットのトレードオフ、Ollamaおよび他のランタイムでのパフォーマンスチューニングを探索するには、LLM Performance: Benchmarks, Bottlenecks & Optimizationハブをチェックしてください。
有用なリンク
内部リソース
- Ollama cheatsheet: Most useful Ollama commands
- How Ollama Handles Parallel Requests
- How Ollama is using Intel CPU Performance and Efficient Cores
- Local LLM Hosting: Complete 2026 Guide - Ollama, vLLM, LocalAI, Jan, LM Studio & More