16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較

RTX 4080(16GB VRAM)でのLLM速度テスト

目次

ローカル環境で大型言語モデル(LLM)を動作させることで、プライバシーの保護、オフラインでの利用、そしてAPIコストのゼロ化を実現できます。 このベンチマークでは、RTX 4080搭載のOllama上のLLMs on Ollama on an RTX 4080で一般的に利用される14つのLLMからどのようなパフォーマンスが期待できるかを具体的に明らかにします。

16GBのVRAMを持つGPUを使用する際、私は常にトレードオフに直面していました。 潜在的な品質向上をもたらす大規模モデルか、それとも推論速度が速い小規模モデルか。 LLMのパフォーマンス(スループットとレイテンシ、VRAMの制限、並列リクエスト、ランタイム間のベンチマーク)について詳しくは、LLM Performance: Benchmarks, Bottlenecks & Optimizationをご覧ください。

この記事ではOllamaに焦点を当てています。19K、32K、64Kのコンテキスト長におけるllama.cppでの測定(DenseおよびMoEチェックポイントにおけるVRAM使用量、GPU負荷、トークン/秒)については、16 GB VRAM LLM benchmarks with llama.cpp (speed and context)をご覧ください。

スループットとVRAMの分配が許容範囲内にある場合でも、エージェントスタイルのワークロードでは、QwenやGemma系のスタックに適した温度(temperature)とペナルティのプリセットが必要です。詳細はagentic inference parameters for Qwen and Gemmaを参照してください。

LLM performance on Ollama - reranking cockroaches

TL;DR

以下は、Ollama 0.17.7およびRTX 4080 16GBにおけるLLMパフォーマンスの比較表を更新したものです。(2026年3月9日) Qwen 3.5の9b、9bq8、27b、35bモデルを追加しました。

モデル 使用RAM+VRAM CPU/GPU比率 トークン/秒
gpt-oss:20b 14 GB 100% GPU 139.93
qwen3.5:9b 9.3 GB 100% GPU 90.89
ministral-3:14b 13 GB 100% GPU 70.13
qwen3:14b 12 GB 100% GPU 61.85
qwen3.5:9b-q8_0 13 GB 100% GPU 61.22
qwen3-coder:30b 20 GB 25%/75% CPU/GPU 57.17
qwen3-vl:30b-a3b 22 GB 30%/70% CPU/GPU 50.99
glm-4.7-flash 21 GB 27%/73% CPU/GPU 33.86
nemotron-3-nano:30b 25 GB 38%/62% CPU/GPU 32.77
qwen3.5:35b 27 GB 43%/57% CPU/GPU 20.66
devstral-small-2:24b 19 GB 18%/82% CPU/GPU 18.67
mistral-small3.2:24b 19 GB 18%/82% CPU/GPU 18.51
gpt-oss:120b 66 GB 78%/22% CPU/GPU 12.64
qwen3.5:27b 24 GB 43%/57% CPU/GPU 6.48

主要な洞察: VRAMに完全に収まるモデルは、パフォーマンスが劇的に向上します。GPT-OSS 20Bは139.93トークン/秒を達成していますが、CPUオフロードが重度なGPT-OSS 120Bは12.64トークン/秒と非常に遅く、速度差は11倍もあります。

テスト用ハードウェア構成

本ベンチマークは以下のシステム環境で実施されました:

  • GPU: NVIDIA RTX 4080 (16GB VRAM搭載)
  • CPU: Intel Core i7-14700 (8 P-cores + 12 E-cores)
  • RAM: 64GB DDR5-6000

これは、ローカルLLM推論向けの一般的なハイエンドコンシューマー構成を表しています。 16GBのVRAMが重要な制約となります。これは、どのモデルがGPUのみで実行可能か、あるいはCPUオフロードを必要とするかを決定づけます。

モデルがVRAM容量を超えた場合、how Ollama uses Intel CPU coresの理解が重要になります。CPUのパフォーマンスは、オフロードされたレイヤーの推論速度に直接影響を及ぼすためです。

本ベンチマークの目的

主な目的は、現実的な条件下での推論速度を測定することでした。経験則から、Mistral Small 3.2 24Bが言語品質に優れ、Qwen3 14Bが私の特定のユースケースにおいて優れた指示遵守能力を持つことはすでに知っていました。

本ベンチマークは、実用的な問いに答えるものです:各モデルはどのくらいの速度でテキストを生成できるか、またVRAMの制限を超えた場合の速度ペナルティはどのくらいか?

テストパラメータは以下の通りです:

  • コンテキストサイズ: 19,000トークン。これは私のGenerateリクエストにおける平均値です。
  • プロンプト: “compare weather and climate between capital cities of australia”(オーストラリアの州都間の気候と天候を比較せよ)
  • 指標: eval rate(生成中のトークン/秒)

Ollamaのインストールとバージョン

すべてのテストは、テスト当時の最新リリースであったOllamaバージョン0.15.2を使用しました。 その後、Qwen3.5モデルを追加するためにOllama v 0.17.7で再実行しました。 本ベンチマークで使用されたOllamaコマンドの完全なリファレンスについては、Ollama cheatsheetをご覧ください。

簡単にまとめると、LinuxへのOllamaインストールは以下の通りです:

curl -fsSL https://ollama.com/install.sh | sh

インストールの確認:

ollama --version

スペースの制約によりモデルを別のドライブに保存する必要がある場合は、how to move Ollama models to a different driveを参照してください。

テスト対象モデル

以下のモデルがアルファベット順にベンチマークされました:

モデル パラメータ数 量子化 備考
devstral-small-2:24b 24B Q4_K_M コーディング特化
glm-4.7-flash 30B Q4_K_M 思考型モデル
gpt-oss:20b 20B Q4_K_M 総合的に最速
gpt-oss:120b 120B Q4_K_M 最大規模のテスト対象
ministral-3:14b 14B Q4_K_M Mistralの効率的なモデル
mistral-small3.2:24b 24B Q4_K_M 優れた言語品質
nemotron-3-nano:30b 30B Q4_K_M NVIDIA提供
qwen3:14b 14B Q4_K_M 指示遵守能力が最高
qwen3.5:9b 9B Q4_K_M 高速、完全GPU実行
qwen3.5:9b-q8_0 9B Q8_0 高品質、完全GPU実行
qwen3.5:27b 27B Q4_K_M 優れた品質、Ollamaでは低速
qwen3-vl:30b-a3b 30B Q4_K_M ビジョン機能付き
qwen3-coder:30b 30B Q4_K_M コーディング特化
qwen3.5:35b 35B Q4_K_M 優れたコーディング能力

任意のモデルをダウンロードするには:

ollama pull gpt-oss:20b
ollama pull qwen3:14b

CPUオフロードの理解

モデルのメモリ要件が利用可能なVRAMを超えた場合、Ollamaは自動的にモデルのレイヤーをGPUとシステムRAMの間に分散します。出力には「18%/82% CPU/GPU」といった割合として表示されます。

これはパフォーマンスに大きな影響を及ぼします。 各トークンの生成には、CPUとGPUメモリ間のデータ転送が必要であり、CPUにオフロードされるレイヤー数が増えるほどこのボトルネックは悪化します。

結果からパターンは明確です:

  • 100% GPUモデル: 61-140 トークン/秒
  • 70-82% GPUモデル: 19-51 トークン/秒
  • 22% GPU(主にCPU): 12.6 トークン/秒

これが、20Bパラメータのモデルが実際に120Bのモデルよりも11倍高速である理由を説明しています。複数の並行リクエストを提供する予定の場合、how Ollama handles parallel requestsを理解することは、キャパシティプランニングにおいて不可欠です。

詳細なベンチマーク結果

100% GPUで実行されるモデル

GPT-OSS 20B — 速度の王者

ollama run gpt-oss:20b --verbose
/set parameter num_ctx 19000

NAME           SIZE     PROCESSOR    CONTEXT
gpt-oss:20b    14 GB    100% GPU     19000

eval count:           2856 token(s)
eval duration:        20.410517947s
eval rate:            139.93 tokens/s

139.93トークン/秒を記録したGPT-OSS 20Bは、速度が重要なアプリケーションにおいて明確な勝者です。VRAM使用量はわずか14GBであり、より大きなコンテキストウィンドウや他のGPUワークロードのために余裕を残しています。

Qwen3 14B — 優れたバランス

ollama run qwen3:14b --verbose
/set parameter num_ctx 19000

NAME         SIZE     PROCESSOR    CONTEXT
qwen3:14b    12 GB    100% GPU     19000

eval count:           3094 token(s)
eval duration:        50.020594575s
eval rate:            61.85 tokens/s

私の経験では、Qwen3 14Bは指示遵守能力が最も優れており、12GBという快適なメモリフットプリントを実現しています。61.85トークン/秒という速度は、インタラクティブな使用にも十分なレスポンスがあります。

Qwen3をアプリケーションに統合する開発者向けには、構造化されたJSONレスポンスを抽出する方法についてLLM Structured Output with Ollama and Qwen3をご覧ください。

Ministral 3 14B — 高速かつコンパクト

ollama run ministral-3:14b --verbose
/set parameter num_ctx 19000

NAME               SIZE     PROCESSOR    CONTEXT
ministral-3:14b    13 GB    100% GPU     19000

eval count:           1481 token(s)
eval duration:        21.11734277s
eval rate:            70.13 tokens/s

Mistralの小型モデルは、VRMに完全に収まりながら70.13トークン/秒を達成しました。Mistral系の品質を最大速度で必要とする場合、堅実な選択です。

qwen3.5:9b - 素早く新しいモデル

ollama run  qwen3.5:9b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME          ID              SIZE      PROCESSOR    CONTEXT
qwen3.5:9b    6488c96fa5fa    9.3 GB    100% GPU     19000

eval count:           3802 token(s)
eval duration:        41.830174597s
eval rate:            90.89 tokens/s

qwen3.5:9b-q8_0 - q8量子化

この量子化は、q4と比較してqwen3.5:9bのパフォーマンスを30%低下させます。

ollama run  qwen3.5:9b-q8_0 --verbose
/set parameter num_ctx 19000

compare weather and climate between capital cities of australia
NAME               ID              SIZE     PROCESSOR    CONTEXT
qwen3.5:9b-q8_0    441ec31e4d2a    13 GB    100% GPU     19000

eval count:           3526 token(s)
eval duration:        57.595540159s
eval rate:            61.22 tokens/s

CPUオフロードを必要とするモデル

qwen3-coder:30b - テキストオンリーであるため、30b LLMセット中最速

ollama run qwen3-coder:30b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME               ID              SIZE     PROCESSOR          CONTEXT
qwen3-coder:30b    06c1097efce0    20 GB    25%/75% CPU/GPU    19000
22%/605%

eval count:           559 token(s)
eval duration:        9.77768875s
eval rate:            57.17 tokens/s

Qwen3-VL 30B — 部分的オフロードで最高のパフォーマンス

ollama run qwen3-vl:30b-a3b-instruct --verbose
/set parameter num_ctx 19000

NAME                         SIZE     PROCESSOR          CONTEXT
qwen3-vl:30b-a3b-instruct    22 GB    30%/70% CPU/GPU    19000

eval count:           1450 token(s)
eval duration:        28.439319709s
eval rate:            50.99 tokens/s

レイヤーの30%がCPU上にあるにもかかわらず、Qwen3-VLは50.99トークン/秒を維持しており、一部の100% GPUモデルよりも高速です。ビジョン機能により、マルチモーダルタスクにおける versatility(多様性)が追加されます。

Mistral Small 3.2 24B — 品質と速度のトレードオフ

ollama run mistral-small3.2:24b --verbose
/set parameter num_ctx 19000

NAME                    SIZE     PROCESSOR          CONTEXT
mistral-small3.2:24b    19 GB    18%/82% CPU/GPU    19000

eval count:           831 token(s)
eval duration:        44.899859038s
eval rate:            18.51 tokens/s

Mistral Small 3.2は優れた言語品質を提供しますが、その分速度ペナルティが大きく支払われます。18.51トークン/秒という速度は、インタラクティブなチャットでは明らかに遅く感じられます。レイテンシよりも品質が重要なタスクには価値があります。

GLM 4.7 Flash — MoE思考モデル

ollama run glm-4.7-flash --verbose
/set parameter num_ctx 19000

NAME                 SIZE     PROCESSOR          CONTEXT
glm-4.7-flash        21 GB    27%/73% CPU/GPU    19000

eval count:           2446 token(s)
eval duration:        1m12.239164004s
eval rate:            33.86 tokens/s

GLM 4.7 Flashは30B-A3BのMixture of Experts(専門家の混合)モデルです。総パラメータ数は30Bですが、各トークンごとにアクティブになるのは3Bのみです。「思考」モデルとして、レスポンス前に内部的な推論を生成します。33.86トークン/秒という数値には、思考トークンと出力トークンの両方が含まれます。CPUオフロードがあるものの、MoEアーキテクチャにより比較的高速に保たれています。

qwen3.5:35b - 自己ホスト環境でのパフォーマンスが良好な新モデル

ollama run qwen3.5:35b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:35b    4af949f8bdf0    27 GB    43%/57% CPU/GPU    19000

eval count:           3418 token(s)
eval duration:        2m45.458926548s
eval rate:            20.66 tokens/s

GPT-OSS 120B — 重量級モデル

ollama run gpt-oss:120b --verbose
/set parameter num_ctx 19000

NAME            SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    66 GB    78%/22% CPU/GPU    19000

eval count:           5008 token(s)
eval duration:        6m36.168233066s
eval rate:            12.64 tokens/s

16GB VRAMで120Bモデルを動作させることは技術的には可能ですが、苦痛を伴います。78%がCPU上で実行されるため、12.64トークン/秒という速度はインタラクティブな使用には耐え難いものです。レイテンシが重要でないバッチ処理には適しています。

qwen3.5:27b - 賢いがOllamaでは遅い

ollama run qwen3.5:27b --verbose
/set parameter num_ctx 19000
compare weather and climate between capital cities of australia

NAME           ID              SIZE     PROCESSOR          CONTEXT
qwen3.5:27b    193ec05b1e80    24 GB    43%/57% CPU/GPU    19000

eval count:           3370 token(s)
eval duration:        8m40.087510281s
eval rate:            6.48 tokens/s

私はqwen3.5:27bをテストし、OpenCodeでのこのモデルのパフォーマンスについて極めて良い評価を得ました。 非常に有能で、知識豊富、ツール呼び出し能力も本当に優れています。ただし、私のマシン上のOllamaでは遅いです。 他のLLM自己ホスティングプラットフォームを試しましたが、はるかに高い速度が得られました。 Ollamaを手放す時期が来たのかもしれません。 後ほどそれについて書きます。

実用的な推奨事項

インタラクティブチャット用

VRAMに100%収まるモデルを使用してください:

  1. GPT-OSS 20B — 最大速度 (139.93 t/s)
  2. Ministral 3 14B — Mistralの品質を備えた良好な速度 (70.13 t/s)
  3. Qwen3 14B — 最高の指示遵守能力 (61.85 t/s)

より良いチャット体験を求める場合は、Open-Source Chat UIs for local Ollamaをご検討ください。

バッチ処理用

これも私の環境(14GB VRAM)での結果です。

速度がそれほど重要でない場合:

  • Mistral Small 3.2 24B — 優れた言語品質
  • Qwen3-VL 30B — ビジョン+テキスト機能

速度が全く重要でない場合:

  • Qwen3.5:35b - 優れたコーディング能力
  • Qwen3.5:27b - 非常に優秀だが、Ollamaでは遅い。ただし、llama.cppでホストした際にはかなりの成功を収めました。

開発とコーディング用

Ollamaでアプリケーションを構築している場合:

その他のホスティングオプション

Ollamaの制限事項が懸念される場合(Ollama enshittification concernsを参照)、Local LLM Hosting Guideで紹介されている他のオプションを検討するか、Docker Model Runner vs Ollamaを比較してください。

結論

16GBのVRAMがあれば、賢く選択すれば印象的な速度で有能なLLMを動作させることができます。主要な発見は以下の通りです:

  1. インタラクティブな使用ではVRAMの制限内にとどまること。140トークン/秒の20Bモデルは、実用的な目的のほとんどにおいて、12トークン/秒の120Bモデルを上回ります。

  2. GPT-OSS 20Bが純粋な速度で勝利しますが、Qwen3 14Bは指示遵守タスクにおいて速度と能力の最も良いバランスを提供します。

  3. CPUオフロードは機能しますが、3〜10倍の速度低下を想定してください。バッチ処理には許容可能ですが、チャットには frustratiing(苛立たしい)ものです。

  4. コンテキストサイズは重要です。 ここで使用した19KのコンテキストはVRAM使用量を大幅に増加させます。GPUの効率的な利用のためにコンテキストを削減してください。

ローカルLLMとウェブ検索結果を組み合わせたAI駆動の検索については、self-hosting Perplexica with Ollamaをご覧ください。

さらに多くのベンチマーク、VRAMとスループットのトレードオフ、Ollamaおよび他のランタイムでのパフォーマンスチューニングを探索するには、LLM Performance: Benchmarks, Bottlenecks & Optimizationハブをチェックしてください。

有用なリンク

内部リソース

外部リファレンス

購読する

システム、インフラ、AIエンジニアリングの新記事をお届けします。