llama.cpp で LLM を実行する際、GPU 負荷が低いとは何を意味しますか？

多くのレイヤーが CPU に留まるため、トークン生成速度が著しく低下することがあります。ngl 設定で GPU レイヤーオフロード数を増やしたり、より小さい量子化モデルを選択したり、コンテキスト長を短くしてモデルの多くを GPU 上に収めることを試みてください。

コンテキストウィンドウが長い場合、16GB の VRAM におけるトークン毎秒の速度にどのような影響を与えるのでしょうか。

コンテキストが長くなると KV キャッシュと VRAM 使用量が増加し、1 秒あたりのトークン数が低下したり、部分的なオフロードを強要されたりします。一方、コンテキストを短くしたり、モデルを小さくしたり、より積極的な量子化を行うことで、単一の 16GB カードでも高速な処理を維持できます。

16GB に大規模モデルを収容する際に重要な量子化のトレードオフとは？

低位数量子化は VRAM 使用量を削減し、トークン生成速度を向上させますが、品質が低下する可能性があります。IQ3 や IQ4 形式の量子化は、16GB の GPU 1 台で llama.cpp を使用し、長文脈や大規模なチェックポイントが必要となる場合の一般的な妥協案です。

16 GB の単一 GPU で、Mixture-of-Experts モデルは高速に実行可能ですか？

MoE モデルは、各順方向ステップでネットワークの一部のみが実行されるため、高いトークン毎秒数を達成できますが、選択したコンテキスト長におけるアクティブなエキスパート、重み、および KV キャッシュに必要な十分な VRAM が必要です。

同じ GPU 上で 64K コンテキストが 32K よりも大幅に遅い場合、どのような対策を検討すべきでしょうか。

ngl で GPU 上に読み込まれるレイヤー数を調整するか、タスクに適合する短いコンテキストを受け入れるか、あるいはより軽量な量子化モデルに移行して、より多くのレイヤーをデバイス上に保持し、KV キャッシュの圧力を軽減します。

16GB VRAM LLM ベンチマーク：llama.cpp による速度とコンテキスト評価

llama.cpp の 16 GB VRAM におけるトークン生成速度（表）。

ここでは、VRAM 16GB の GPU で動作するいくつかの LLM の速度を比較し、セルフホスティングに最適なモデルを選定しています。

私は llama.cpp 上で、コンテキストウィンドウを 19K、32K、64K トークンでこれらの LLM を実行しました。

Stylized GPU with VRAM blocks and benchmark-style charts

本記事では、速度の観点から可能な限り高いパフォーマンスを引き出すための試みを記録しています。

LLM 速度比較表（トークン/秒と VRAM）

Model	Size	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K Load	32K T/s	64K VRAM	64K Load	64K: T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS	13.2	13.8GB	96%/100%	147.5	14.0GB	96%/101%	149.1	14.7GB	96%/101%	145.8
Qwen3.6-35B-A3B-UD-IQ4_XS	17.7	14.3GB	62%/266%	95.0	14.9GB	58%/279%	92.3	14.9GB	57%/293%	86.4
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-IQ3_XXS-bartowsky	11.3	12.8	98/100	44.9	13.5	98/100	44.9	14.5	45/415	23.6
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-27B-IQ4_XS.gguf	15.0	14.6	49/406	20.5	14.7	37/465	17.4	14.7	23/533	13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
Qwen3.5-122B-A10B-UD-IQ3_S	46.5	14.7	25/516	19.4	14.7	24/516	19.5	14.7	24/516	19.6
Qwen3-Coder-Next-UD-IQ4_XS	38.4	14.6	32/460	41.1	14.7	29/440	41.3	14.8	32/460	38.3
Nemotron Super 120b IQ3_XXS	56.2	15.0	26/517	17.5	14.6	26/531	17.4	14.6	26/535	17.6
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K、32K、64K はコンテキストサイズを示しています。

上記の「Load」は「GPU 負荷」です。この項目の数字が低い場合、モデルは主に CPU で実行されており、このハードウェアでは十分な速度が出せていないことを意味します。このパターンは、GPU に収容できるモデルの容量が少なすぎる場合や、コンテキストがホスト（CPU/システムメモリ）への転送を促す場合に現れます。

llama.cpp、LLM パフォーマンス、OpenCode および他の比較について

インストールパス、llama-cli と llama-server の例、および VRAM とトークン/秒（コンテキストサイズ、バッチ処理、-ngl など）に影響するフラグについては、まず llama.cpp クイックスタート（CLI とサーバー）から始めてください。

より広範なパフォーマンスの全体像（スループットとレイテンシ、VRAM 制限、並行リクエスト、およびハードウェアとランタイムにわたるベンチマークの整合性）については、2026 年の LLM パフォーマンス：ベンチマーク、ボトルネック、最適化を参照してください。

レスポンスの質については、他の記事で分析されています。例えば以下があります：

OpenCode 向けのベスト LLM - ローカルでのテスト. Opencode については、OpenCode クイックスタート：インストール、設定、ターミナル AI コーディングエージェントの使用でお読みいただけます。
Hugo ページ翻訳の品質比較 - Ollama 上の LLM

Ollama 上の LLM についても同様のテストを行いました：16GB VRAM GPU 向けのベスト LLM.

コンテキスト長がトークン/秒に与える影響

19K から 32K や 64K トークンへと移行する際、KV キャッシュが成長し、VRAM への圧力が高まります。一部の行では 64K でトークン/秒が大幅に低下するのに対し、他の行は平坦な状態を維持します。これは、モデルが一般的に「遅い」と仮定するのではなく、量子化、コンテキスト制限、またはレイヤーオフロードを見直す必要がある信号となります。

私がテストのために選んだモデルと量子化は、自分で実行し、この環境でコスト/ベネフィットの観点から良い利益を得られるかどうかを確認するためです。したがって、ここでは 200k コンテキストを持つ q8 量子化は含まれていません :) …

GPU/CPU は nvitop で測定された負荷です。

llama.cpp が GPU へのレイヤーのアンロードを自動構成する際、1GB の空き容量を確保しようとします。私はコマンドラインパラメータ -ngl を介してこのパラメータを手動で指定しますが、ここでは微調整は行わず、単にコンテキストウィンドウサイズを 32k から 64k に増加させた際にパフォーマンスが大幅に低下する場合は、オフロードされたレイヤー数を微調整することで 64k での速度向上を試みることができることを理解する必要があります。

テスト環境と llama.cpp のセットアップ

以下の構成を持つ PC で LLM の速度をテストしました：

CPU: i-14700
RAM: 64GB 6000Hz (2x32GB)
GPU: RTX-4080
Ubuntu (Nvidia ドライバー搭載)
llama.cpp/llama-cli (アンロードされたレイヤーの指定なし)
llama-cli 開始前の初期 VRAM 使用量: 300MB

128K コンテキストでの追加実行（Qwen3.5 27B と 122B）

Model	128K Load	128K: T/s
Qwen3.5-27B-UD-IQ3_XXS	16/625	9.6
Qwen3.5-122B-A10B-UD-IQ3_XXS	27/496	19.2

微調整後の実行

いくつかの興味深いモデルと量子化について、VRAM をより効果的に利用するための特別な llama.cpp コマンドラインパラメータを試みました。以下が達成できた結果です：

Model	Context	Layers on GPU	CPU/CPU load	Speed
Qwen3.5-27B-IQ4_XS.gguf	18k	65	98%/100%	38.0
Qwen3.5-27B-IQ4_XS.gguf	64k	53	33%/488%	15.7

16 GB VRAM 構築のまとめ

私の現在の最推しである Qwen3.5-27B-UD-IQ3_XXS は、スイートスポットである 50k コンテキストで良好な結果を示しています（約 36t/s を得ています）。
Qwen3.5-122B-A10B-UD-IQ3_XXS は、64K 以上のコンテキストにおいて、パフォーマンス面で Qwen3.5 27B を凌駕しています。
Qwen3.5-35B-A3B-UD-IQ3_S を 100k トークンのコンテキストに対応させ、VRAM に収容させることができ、パフォーマンスの低下はありません。
16GB VRAM では gemma-4-31B は使用しないが、gemma-4-26B は中程度に良いかもしれない… 確認が必要。
Nemotron cascade 2 と GLM-4.7 Flash REAP 23B がどれほど良く動作するかテストする必要があります。Qwen3.5-35B q3 よりも優れているでしょうか？疑わしいですが、依然として確認のためにテストする価値があります。