NVidia

llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)

llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)

16 GB VRAMにおけるllama.cppのトークン処理速度(表)。

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表(トークン/秒とVRAM)

モデル サイズ 19K VRAM 19K GPU/CPU 19K T/s 32K VRAM 32K ロード 32K T/s 64K VRAM 64K ロード 64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS 13.2 13.8GB 96%/100% 147.5 14.0GB 96%/101% 149.1 14.7GB 96%/101% 145.8
Qwen3.6-35B-A3B-UD-IQ4_XS 17.7 14.3GB 62%/266% 95.0 14.9GB 58%/279% 92.3 14.9GB 57%/293% 86.4
Qwen3.5-35B-A3B-UD-IQ3_S 13.6 14.3GB 93%/100% 136.4 14.6GB 93%/100% 138.5 14.9GB 88%/115% 136.8
Qwen3.5-27B-IQ3_XXS-bartowsky 11.3 12.8 98/100 44.9 13.5 98/100 44.9 14.5 45/415 23.6
Qwen3.5-27B-UD-IQ3_XXS 11.5 12.9 98/100 45.3 13.7 98/100 45.1 14.7 45/410 22.7
Qwen3.5-27B-IQ4_XS.gguf 15.0 14.6 49/406 20.5 14.7 37/465 17.4 14.7 23/533 13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS 44.7 14.7 30/470 22.3 14.7 30/480 21.8 14.7 28/490 21.5
Qwen3.5-122B-A10B-UD-IQ3_S 46.5 14.7 25/516 19.4 14.7 24/516 19.5 14.7 24/516 19.6
Mistral-Small-4-119B UD-IQ3_XXS 42.8 14.8 28/585 30.4 14.7 27/574 28.5 14.9 20/590 31.5
Qwen3-Coder-Next-UD-IQ4_XS 38.4 14.6 32/460 41.1 14.7 29/440 41.3 14.8 32/460 38.3
Nemotron Super 120b IQ3_XXS 56.2 15.0 26/517 17.5 14.6 26/531 17.4 14.6 26/535 17.6
gemma-4-26B-A4B-it-UD-IQ4_XS 13.4 14.7 95/100 121.7 14.9 95/115 114.9 14.9 75/190 96.1
gemma-4-31B-it-UD-IQ3_XXS 11.8 14.8 68/287 29.2 14.8 41/480 18.4 14.8 18/634 8.1
GLM-4.7-Flash-IQ4_XS 16.3 15.0 66/240 91.8 14.9 62/262 86.1 14.9 53/313 72.5
GLM-4.7-Flash-REAP-23B IQ4_XS 12.6 13.7 92/100 122.0 14.4 95/102 123.2 14.9 71/196 97.1

19K、32K、64Kはコンテキストのサイズを示します。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

GPU および永続性を備えた Compose ファーストの Ollama サーバー。

Ollama は、メタル(物理マシン)上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較

16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較

RTX 4080(16GB VRAM)でのLLM速度テスト

ローカル環境で大型言語モデル(LLM)を動作させることで、プライバシーの保護、オフラインでの利用、そしてAPIコストのゼロ化を実現できます。 このベンチマークでは、RTX 4080搭載のOllama上のLLMs on Ollama on an RTX 4080で一般的に利用される14つのLLMからどのようなパフォーマンスが期待できるかを具体的に明らかにします。

2026年のベストLinuxターミナルエミュレータ比較

2026年のベストLinuxターミナルエミュレータ比較

正しいターミナルを選んでLinuxワークフローを最適化しましょう

Linuxユーザーにとって最も重要なツールの一つは、端末エミュレータです。https://www.glukhov.org/ja/developer-tools/terminals-shell/terminal-emulators-for-linux-comparison/ “Linux端末エミュレータ比較”

DGX Spark AU の価格:大手小売店で 6,249 米ドル~7,999 米ドル

DGX Spark AU の価格:大手小売店で 6,249 米ドル~7,999 米ドル

オーストラリアの小売業者から、リアルなオーストラリアドルでの価格を今すぐ。

NVIDIA DGX Spark (GB10 Grace Blackwell) は、主要な PC 小売店に国内在庫があり、オーストラリアで入手可能 となっています。 世界的な DGX Spark の価格と入手性 を追いかけていただいている方なら、オーストラリアでの価格帯はストレージ構成や小売店によって 6,249 オーストラリアドルから 7,999 オーストラリアドル であることが、ご関心をお持ちいただけるでしょう。

消費者向けハードウェア上の AI インフラ

消費者向けハードウェア上の AI インフラ

オープンモデルを活用して、予算内のハードウェアでエンタープライズAIをデプロイする

AI の民主化はここにやってきました。 Llama、Mistral、Qwen などのオープンソース大規模言語モデル(LLM)が現在、プロプライエタリなモデルと競合するレベルに達しており、チームは 消費级ハードウェアを使用した AI インフラストラクチャ を構築することで、コストを削減しながらもデータプライバシーとデプロイの完全な制御を維持することが可能になりました。

FLUX.1-Kontext-dev: 画像拡張AIモデル

FLUX.1-Kontext-dev: 画像拡張AIモデル

テキスト指示を使って画像を拡張するためのAIモデル

ブラックフォレスト・ラボズは、FLUX.1-Kontext-devという高度な画像から画像へのAIモデルをリリースしました。このモデルは、テキストの指示を使って既存の画像を補強します。

Docker Model Runner チートシート: コマンドと例

Docker Model Runner チートシート: コマンドと例

Docker Model Runner コマンドのクイックリファレンス

Docker Model Runner (DMR) は、2025年4月に導入された Docker の公式ソリューションで、AIモデルをローカルで実行するためのものです。このチートシートでは、すべての必須コマンド、構成、およびベストプラクティスのクイックリファレンスを提供しています。

Docker Model Runner vs Ollama(2026年):ローカルLLMにおいてどちらが優れているか?

Docker Model Runner vs Ollama(2026年):ローカルLLMにおいてどちらが優れているか?

Docker Model RunnerとOllamaを比較してみる:ローカルLLM向け

ローカルで大規模言語モデル(LLM)を実行する は、プライバシー、コスト管理、オフライン機能のためにますます人気になってきています。 2025年4月にDockerが**Docker Model Runner (DMR)**を導入し、AIモデルの展開用の公式ソリューションとして登場したことで、状況は大きく変わりました。