LLM Performance

70Bパラメータのモデルは1回のフォワードパスで1つのトークンを生成し、各パスではVRAMから重みを読み込み、コンテキスト全体でアテンションを計算し、メモリを同期します。トークンの間では、逐次依存関係が解決されるのを待つ間、GPUはアイドル状態になります。

16GB GPUにおけるQwen 3.6 27Bおよび35B MTPと標準モデルの比較

RTX 4080（16 GB VRAM）環境で、Qwen 3.6 27Bおよび35Bにおける推論デコーディング（マルチトークン予測、MTP）のパフォーマンスをテストしました。

ほとんどのLLM「構造化出力」チュートリアルは、本気度にかけるものです。それらは、JSONを丁寧な口調でリクエストし、モデルが適切に動作することを祈る方法を教えます。それでは検証ではありません。それは単に括弧で囲まれた楽観主義にすぎません。

このページは、エージェント型LLM推論チューニングの実用的なリファレンス（temperature、top_p、top_k、ペナルティ、およびマルチステップやツール多用なワークフローにおけるそれらの相互作用）です。

より広範なLLMパフォーマンスエンジニアリングハブと併せて参照し、明確なLLMホスティングとサービングの概要と組み合わせることで、モデルがリソース不足に陥った際にはスループットとスケジューリングが依然として支配的ですが、不安定なサンプリングはGPUが処理を終える前にリトライと出力トークンを消費してしまうことがわかります。

このページでは以下をまとめます：

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表（トークン/秒とVRAM）

モデル	サイズ	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K ロード	32K T/s	64K VRAM	64K ロード	64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS	13.2	13.8GB	96%/100%	147.5	14.0GB	96%/101%	149.1	14.7GB	96%/101%	145.8
Qwen3.6-35B-A3B-UD-IQ4_XS	17.7	14.3GB	62%/266%	95.0	14.9GB	58%/279%	92.3	14.9GB	57%/293%	86.4
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-IQ3_XXS-bartowsky	11.3	12.8	98/100	44.9	13.5	98/100	44.9	14.5	45/415	23.6
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-27B-IQ4_XS.gguf	15.0	14.6	49/406	20.5	14.7	37/465	17.4	14.7	23/533	13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
Qwen3.5-122B-A10B-UD-IQ3_S	46.5	14.7	25/516	19.4	14.7	24/516	19.5	14.7	24/516	19.6
Mistral-Small-4-119B UD-IQ3_XXS	42.8	14.8	28/585	30.4	14.7	27/574	28.5	14.9	20/590	31.5
Qwen3-Coder-Next-UD-IQ4_XS	38.4	14.6	32/460	41.1	14.7	29/440	41.3	14.8	32/460	38.3
Nemotron Super 120b IQ3_XXS	56.2	15.0	26/517	17.5	14.6	26/531	17.4	14.6	26/535	17.6
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K、32K、64Kはコンテキストのサイズを示します。

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

ローカル環境で大型言語モデル（LLM）を動作させることで、プライバシーの保護、オフラインでの利用、そしてAPIコストのゼロ化を実現できます。このベンチマークでは、RTX 4080搭載のOllama上のLLMs on Ollama on an RTX 4080で一般的に利用される14つのLLMからどのようなパフォーマンスが期待できるかを具体的に明らかにします。

プロダクション環境で大規模言語モデル（LLM）を扱う際、構造化され、型安全性のある出力を得ることが極めて重要です。この問題の解決策として、2つの人気フレームワーク—BAMLとInstructor—がそれぞれ異なるアプローチを採用しています。

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaの性能比較

私は、Ollama上でGPT-OSS 120bのパフォーマンステストを3つの異なるプラットフォームで確認しました：NVIDIA DGX Spark, Mac Studio, and RTX 4080。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080（または新しいRTX 5080の16GB VRAMには収まらないことを意味します。

AI の未来は、より賢いモデルだけに関するものではありません。それは、実際にそれらのモデルがどのように提供されるかに合わせて設計されたシリコン（半導体）についても同様です。LLM の推論に特化したハードウェアは、ビットコインマイニングが GPU から専用 ASIC へと移行したのと同じような道を行っていますが、モデルや精度のレシピが絶えず進化しているため、より厳しい制約の中で進んでいます。

以下は、Qwen3:30b と GPT-OSS:20b の比較です。指示の遵循度（Instruction Following）とパフォーマンスパラメータ、仕様、速度に焦点を当てています。

OllamaのGPT-OSSモデルは、LangChainやOpenAI SDK、vllmなどのフレームワークと使用する際に、構造化された出力を処理する際に繰り返し問題が発生しています。

主要なLLMプロバイダー間における構造化出力の比較 - OpenAI、Gemini、Anthropic、Mistral、およびAWS Bedrock

主要なLLMプロバイダにおける構造化出力（信頼性の高いJSONの取得）のサポート状況を並べて比較し、最小限のPythonコード例を掲載します。

Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング

ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、以前のバージョンよりも劣っています。

PCIe レーンがLLM性能に与える影響? タスクによります。トレーニングやマルチGPUの推論では、パフォーマンスの低下が顕著です。

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

私はある仮説をテストしたいと思っています。すなわち、「インテルCPUのすべてのコアを活用することで、LLMの速度が向上するか？」というものです。このテストについては、ALL cores on Intel CPU would raise the speed of LLMs?をご覧ください。

新しいgemma3 27bitモデル（gemma3:27b、ollama上では17GB）が私のGPUの16GB VRAMに収まらず、部分的にCPU上での実行に頼っているという点が気になります。

LLM Performance

推論デコーディング：LLMの推論処理を20-50%高速化

16GB GPUにおけるQwen 3.6 27Bおよび35B MTPと標準モデルの比較

Pythonで堅牢なLLM構造化出力の検証

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

LLMの速度比較表（トークン/秒とVRAM）

2026年のLLM性能：ベンチマーク、ボトルネック、および最適化

16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較

BAML vs Instructor：構造化されたLLM出力

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaの性能比較

LLM 用 ASIC と専門化された推論チップ（なぜ重要なのか）

比較：Qwen3:30bとGPT-OSS:20b

Ollama GPT-OSS 構造化された出力の問題

主要なLLMプロバイダー間における構造化出力の比較 - OpenAI、Gemini、Anthropic、Mistral、およびAWS Bedrock

Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング

LLMの性能とPCIeレーン：主要な考慮点

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか