16GB VRAMを持つGPUでOllamaを使用した場合、どのLLMが最も高速ですか？

GPT-OSS 20Bは、16GB VRAMに完全に収まるうえで139.93トークン/秒という最高の速度を達成しました。CPUオフロードなしに100％GPU上で動作するため、速度が重要なアプリケーションに最適です。

16GBのVRAMを超えた場合、LLMにはどのような影響がありますか？

Ollamaはモデルのレイヤーを自動的にシステムRAMおよびCPUにオフロードします。これによりパフォーマンスが大幅に低下します。例えば、Mistral Small 3.2 24Bでは、18％のレイヤーがCPUで実行されている場合、トークン/秒は18.51に低下します。

コンテキストサイズがOllamaでのVRAM使用量に与える影響は？

より大きなコンテキストウィンドウは、KVキャッシュのためにより多くのVRAMを必要とします。19Kのコンテキストを使用する場合、4KのコンテキストでVRAMに収まるモデルは、CPUオフロードが必要になる可能性があります。GPU利用率を最大限に高める必要がある場合は、コンテキストサイズを小さくしてください。

16GBのGPUではQwen3 14Bは適していますか？

はい。Qwen3 14Bは12GBのVRAMのみを使用し、61.85トークン/秒の速度でGPU上でのみ100%動作します。指示に従う性能が優れており、16GBのメモリに余裕を持って収まり、さらに大きなコンテキストサイズにも対応可能です。

CPUオフローディングを使用してより大きなモデルを使うべきか、GPU上に完全に載せた小さなモデルを使うべきか？

インタラクティブなユースケースでは、GPU上で100％動作する小型モデルが通常より適しています。CPUへのオフロードによる速度の低下は顕著で、GPT-OSS 120Bの12.64トークン/秒は、GPT-OSS 20Bの139.93トークン/秒と比較して遅く感じられます。

LLMの性能ベンチマークや最適化ガイドをもっと見つけるにはどこに行けばよいですか？

弊社のLLMパフォーマンスハブでは、スループットとレイテンシの関係、VRAMの制限、並列リクエスト、メモリの割り当て、そしてランタイムとハードウェアにわたるベンチマークについて取り上げています。

OllamaにおけるVRAMの使用量とトークン速度の関係はどのようになりますか？

VRAMに完全に収まるモデルはCPUのオフロードを避け、はるかに高速に動作します。LLMパフォーマンスガイドでは、VRAMの限界とそれが推論速度に与える影響について説明されています。

16GB VRAM GPU上でOllamaを使用したLLMの性能比較

RTX 4080（16GB VRAM）でのLLM速度テスト

大規模言語モデルをローカルで実行すると、プライバシーの確保、オフラインでの使用が可能になり、APIコストはゼロになります。このベンチマークでは、RTX 4080上で動作する14のポピュラーなLLMs on Ollamaから期待できる性能が明らかになります。

16GBのVRAMを持つGPUでは、常にトレードオフに直面しました：より大きなモデルで潜在的な品質の向上、またはより小さなモデルで高速な推論。LLMの性能に関する詳細な情報—スループットとレイテンシー、VRAMの制限、並列リクエスト、およびランタイムにわたるベンチマークについては、LLM Performance: Benchmarks, Bottlenecks & Optimizationを参照してください。

LLM performance on Ollama - reranking cockroaches

TL;DR

RTX 4080 16GBでOllama 0.17.7を使用したLLM性能の比較表を更新しました。(2026-03-09)にQwen 3.5 9b, 9bq8, 27b, 35bモデルを追加しました：

モデル	RAM+VRAM 使用量	CPU/GPU 分割	タークン/秒
gpt-oss:20b	14 GB	100% GPU	139.93
qwen3.5:9b	9.3 GB	100% GPU	90.89
ministral-3:14b	13 GB	100% GPU	70.13
qwen3:14b	12 GB	100% GPU	61.85
qwen3.5:9b-q8_0	13 GB	100% GPU	61.22
qwen3-coder:30b	20 GB	25%/75% CPU/GPU	57.17
qwen3-vl:30b-a3b	22 GB	30%/70% CPU/GPU	50.99
glm-4.7-flash	21 GB	27%/73% CPU/GPU	33.86
nemotron-3-nano:30b	25 GB	38%/62% CPU/GPU	32.77
qwen3.5:35b	27 GB	43%/57% CPU/GPU	20.66
devstral-small-2:24b	19 GB	18%/82% CPU/GPU	18.67
mistral-small3.2:24b	19 GB	18%/82% CPU/GPU	18.51
gpt-oss:120b	66 GB	78%/22% CPU/GPU	12.64
qwen3.5:27b	24 GB	43%/57% CPU/GPU	6.48

重要な洞察：VRAMに完全に収まるモデルははるかに高速です。GPT-OSS 20Bは139.93トークン/秒を達成しますが、GPT-OSS 120BはCPUオフロードが重く、12.64トークン/秒と11倍の速度差があります。

テストハードウェア構成

ベンチマークは以下のシステムで実施されました：

GPU：NVIDIA RTX 4080（16GB VRAM）
CPU：Intel Core i7-14700（8 P-コア + 12 E-コア）
RAM：64GB DDR5-6000

これは、ローカルLLM推論のための一般的な高級コンシューマー構成です。16GB VRAMは重要な制約で、これはGPU上で完全に実行できるモデルとCPUオフロードが必要なモデルを決定します。

モデルがVRAM容量を超える場合、OllamaがIntel CPUコアを使用する方法を理解することが重要になります。CPU性能はオフロードされたレイヤーの推論速度に直接影響を与えます。

このベンチマークの目的

このベンチマークの主な目的は、現実的な条件下での推論速度を測定することでした。私は、Mistral Small 3.2 24Bが言語品質に優れており、Qwen3 14Bが私の特定の使用ケースにおいて指示に従う能力が優れているという経験がありました。

このベンチマークは実用的な質問に答えます：各モデルがテキストをどのくらいの速度で生成し、VRAMの制限を超えた場合の速度ペナルティはどれくらいですか？

テストパラメータ：

コンテキストサイズ：19,000トークン。これは私のGenerateリクエストの平均値です。
プロンプト：“compare weather and climate between capital cities of australia”
メトリクス：評価速度（生成中のトークン/秒）

Ollamaのインストールとバージョン

すべてのテストではOllamaバージョン0.15.2を使用しました。テスト時の最新リリースです。後日、Ollama v 0.17.7で再実行しました—Qwen3.5モデルを追加するためです。このベンチマークで使用したOllamaコマンドの完全な参照については、Ollama cheatsheetを参照してください。

LinuxでOllamaをインストールする方法：

curl -fsSL https://ollama.com/install.sh | sh

インストールを確認：

ollama --version

スペース制約によりモデルを別のドライブに保存する必要がある場合は、Ollamaモデルを別のドライブに移動する方法を確認してください。

テストしたモデル

以下のモデルがアルファベット順にベンチマークされました：

モデル	パラメータ	量子化	メモ
devstral-small-2:24b	24B	Q4_K_M	コードに特化
glm-4.7-flash	30B	Q4_K_M	考えモデル
gpt-oss:20b	20B	Q4_K_M	最も高速
gpt-oss:120b	120B	Q4_K_M	最大のテストモデル
ministral-3:14b	14B	Q4_K_M	Mistralの効率的なモデル
mistral-small3.2:24b	24B	Q4_K_M	すぐれた言語品質
nemotron-3-nano:30b	30B	Q4_K_M	NVIDIAの提供
qwen3:14b	14B	Q4_K_M	指示に従う能力が最良
qwen3.5:9b	9B	Q4_K_M	高速で完全にGPU
qwen3.5:9b-q8_0	9B	Q8_0	高品質で完全にGPU
qwen3.5:27b	27B	Q4_K_M	高品質だがOllamaでは遅い
qwen3-vl:30b-a3b	30B	Q4_K_M	視覚機能あり
qwen3-coder:30b	30B	Q4_K_M	コードに特化
qwen3.5:35b	35B	Q4_K_M	良いコード能力

モデルをダウンロードするには：

ollama pull gpt-oss:20b
ollama pull qwen3:14b

CPUオフロードの理解

モデルのメモリ要件が利用可能なVRAMを超えると、Ollamaは自動的にモデルレイヤーをGPUとシステムRAMの間で分配します。出力は「18%/82% CPU/GPU」といったパーセンテージの分割として表示されます。

これは大きなパフォーマンスの影響を与えます。 各トークン生成にはCPUとGPUメモリ間のデータ転送が必要であり、オフロードされたレイヤーごとにボトルネックが重なってきます。

結果からパターンが明確です：

100% GPUモデル：61-140トークン/秒
70-82% GPUモデル：19-51トークン/秒
22% GPU（主にCPU）：12.6トークン/秒

これは、20Bパラメータモデルが実際には120Bモデルを11倍も上回る理由を説明しています。複数の同時リクエストを処理する予定がある場合は、Ollamaが並列リクエストを処理する方法を理解することが容量計画において不可欠です。

詳細なベンチマーク結果

GPU上100%で動作するモデル

GPT-OSS 20B — 速度のチャンピオン

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

139.93トークン/秒で、GPT-OSS 20Bは速度を重視するアプリケーションにおいて明確な勝者です。14GBのVRAMのみを使用し、より大きなコンテキストウィンドウやその他のGPUワークロードに余裕があります。

Qwen3 14B — 優れたバランス

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

私の経験では、Qwen3 14Bは指示に従う能力が最良で、12GBのメモリ使用量が快適です。61.85トークン/秒で、インタラクティブな使用には十分な応答速度です。

Qwen3をアプリケーションに統合する開発者向けには、LLM Structured Output with Ollama and Qwen3で構造化されたJSON応答の抽出方法をご覧ください。

Ministral 3 14B — 高速でコンパクト

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistralの小さなモデルは70.13トークン/秒で、完全にVRAMに収まります。最大の速度でMistralファミリの品質が必要な場合の良い選択肢です。

qwen3.5:9b - 速く、新しいモデル

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - q8量子化

この量子化はq4に比べてqwen3.5:9bの性能を30％低下させます。

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

CPUオフロードが必要なモデル

qwen3-coder:30b - 30B LLMセットの中で最も速いモデル、テキスト専用だから

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — 部分的にオフロードされた性能が最も良い

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

30％のレイヤーがCPUにあるにもかかわらず、Qwen3-VLは50.99トークン/秒を維持します。視覚機能により、マルチモーダルタスクにおいて多様性が加わります。

Mistral Small 3.2 24B — 質と速度のトレードオフ

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2は優れた言語品質を提供しますが、速度のペナルティが大きいです。18.51トークン/秒では、インタラクティブなチャットで明らかに遅くなります。品質が重要で、レイテンシーが重要でないタスクには価値があります。

GLM 4.7 Flash — MoE思考モデル

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flashは30B-A3B Mixture of Expertsモデルで、30Bの総パラメータ数のうち、1トークンあたりに3Bがアクティブです。“思考"モデルとして、応答前の内部的な推論を生成します。33.86トークン/秒は思考と出力トークンの両方を含みます。CPUオフロードにもかかわらず、MoEアーキテクチャにより、比較的速いです。

qwen3.5:35b - 自己ホスティング性能が良好な新モデル

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — ヘビーなモデル

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

16GB VRAMで120Bモデルを実行することは技術的には可能ですが、非常に困難です。78％がCPUにあるため、12.64トークン/秒でインタラクティブな使用は不快です。ラテンシーが重要でないバッチ処理に適しています。

qwen3.5:27b - Ollamaでは遅いがスマートなモデル

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

qwen3.5:27bをテストしましたが、OpenCodeでこのモデルの性能に関する非常に良い評価を得ました。非常に能力があり、知識が豊富で、素晴らしいツール呼び出し機能がありますが、私のマシンではOllama上では遅いです。他のLLM自ホスティングプラットフォームを試して、はるかに高い速度を得ました。Ollamaを離れることの時が来たと思います。後で少し詳しく書きます。

実用的な推奨事項

インタラクティブなチャット

VRAMに完全に収まるモデルを使用してください：

GPT-OSS 20B — 最大の速度（139.93 t/s）
Ministral 3 14B — Mistral品質の良好な速度（70.13 t/s）
Qwen3 14B — 指示に従う能力が最良（61.85 t/s）

より良いチャット体験のために、ローカルOllama用のオープンソースチャットUIを検討してください。

バッチ処理

これはまた、私の機器では14GB VRAMです。

速度がより重要でない場合：

Mistral Small 3.2 24B — 優れた言語品質
Qwen3-VL 30B — 視覚+テキストの能力

速度がまったく重要でない場合：

Qwen3.5:35b - 良好なコーディング能力
Qwen3.5:27b - 非常に良好だが、Ollamaでは遅い。llama.cpp上でこのモデルをホストするには成功しました。

開発とコーディング

Ollamaでアプリケーションを開発している場合：

代替ホスティングオプション

Ollamaの制限が気になる場合は（Ollama enshittificationの懸念を参照）、ローカルLLMホスティングガイドまたはDockerモデルランナーとOllamaの比較を参照してください。

結論

16GB VRAMでは、適切な選択をすれば、印象的な速度で機能的なLLMを実行できます。主要な発見点：

インタラクティブな使用にはVRAMの制限内に留まることが重要です。20Bモデルの140トークン/秒は、120Bモデルの12トークン/秒を圧倒的に上回ります。
GPT-OSS 20Bは純粋な速度で勝利しますが、Qwen3 14Bは指示に従うタスクにおける速度と能力のバランスが最良です。
CPUオフロードは機能しますが、3-10倍の遅延を予期してください。バッチ処理には受け入れ可能ですが、チャットには不快です。
コンテキストサイズは重要です。 ここでは19Kのコンテキストが使用され、VRAMの使用量を大幅に増加させます。GPU利用率を向上させるためにコンテキストサイズを減らしてください。

ローカルLLMとウェブ結果を組み合わせたAI駆動型の検索については、Ollamaと併用したPerplexicaの自ホスティングを参照してください。

Ollamaと他のランタイムにわたるベンチマーク、VRAMとスループットのトレードオフ、およびパフォーマンスチューニングについては、LLM Performance: Benchmarks, Bottlenecks & Optimizationハブを参照してください。