NVidia

16GB GPUにおけるQwen 3.6 27Bおよび35B MTPと標準モデルの比較

RTX 4080（16 GB VRAM）環境で、Qwen 3.6 27Bおよび35Bにおける推論デコーディング（マルチトークン予測、MTP）のパフォーマンスをテストしました。

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表（トークン/秒とVRAM）

モデル	サイズ	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K ロード	32K T/s	64K VRAM	64K ロード	64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS	13.2	13.8GB	96%/100%	147.5	14.0GB	96%/101%	149.1	14.7GB	96%/101%	145.8
Qwen3.6-35B-A3B-UD-IQ4_XS	17.7	14.3GB	62%/266%	95.0	14.9GB	58%/279%	92.3	14.9GB	57%/293%	86.4
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-IQ3_XXS-bartowsky	11.3	12.8	98/100	44.9	13.5	98/100	44.9	14.5	45/415	23.6
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-27B-IQ4_XS.gguf	15.0	14.6	49/406	20.5	14.7	37/465	17.4	14.7	23/533	13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
Qwen3.5-122B-A10B-UD-IQ3_S	46.5	14.7	25/516	19.4	14.7	24/516	19.5	14.7	24/516	19.6
Mistral-Small-4-119B UD-IQ3_XXS	42.8	14.8	28/585	30.4	14.7	27/574	28.5	14.9	20/590	31.5
Qwen3-Coder-Next-UD-IQ4_XS	38.4	14.6	32/460	41.1	14.7	29/440	41.3	14.8	32/460	38.3
Nemotron Super 120b IQ3_XXS	56.2	15.0	26/517	17.5	14.6	26/531	17.4	14.6	26/535	17.6
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

19K、32K、64Kはコンテキストのサイズを示します。

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

オーストラリアにはRTX 5090の在庫があります。ただし、ごくわずかです。もし見つけたとしても、現実感の欠けた、莫大なプレミアム価格を支払わなければなりません。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Ollama は、メタル（物理マシン）上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

ローカル環境で大型言語モデル（LLM）を動作させることで、プライバシーの保護、オフラインでの利用、そしてAPIコストのゼロ化を実現できます。このベンチマークでは、RTX 4080搭載のOllama上のLLMs on Ollama on an RTX 4080で一般的に利用される14つのLLMからどのようなパフォーマンスが期待できるかを具体的に明らかにします。

Linuxユーザーにとって最も重要なツールの一つは、端末エミュレータです。https://www.glukhov.org/ja/developer-tools/terminals-shell/terminal-emulators-for-linux-comparison/ “Linux端末エミュレータ比較”

DGX Spark AU の価格：大手小売店で 6,249 米ドル～7,999 米ドル

NVIDIA DGX Spark (GB10 Grace Blackwell) は、主要な PC 小売店に国内在庫があり、オーストラリアで入手可能となっています。世界的な DGX Spark の価格と入手性を追いかけていただいている方なら、オーストラリアでの価格帯はストレージ構成や小売店によって 6,249 オーストラリアドルから 7,999 オーストラリアドル であることが、ご関心をお持ちいただけるでしょう。

オーストラリアにおける NVIDIA RTX 5080 および RTX 5090 の価格 - 2025 年 11 月

特に大規模言語モデル（LLM）向け、そして AI 全般に適した、トピレベルの消費者用 GPU の価格を比較してみましょう。具体的には、RTX-5080 と RTX-5090 の価格に注目しています。

クロスモーダル埋め込みは、人工知能において画期的な進展をもたらし、統一された表現空間内で異なるデータタイプ間の理解と推論を可能にします。

AI の民主化はここにやってきました。 Llama、Mistral、Qwen などのオープンソース大規模言語モデル（LLM）が現在、プロプライエタリなモデルと競合するレベルに達しており、チームは消費级ハードウェアを使用した AI インフラストラクチャを構築することで、コストを削減しながらもデータプライバシーとデプロイの完全な制御を維持することが可能になりました。

Docker Model Runnerにおけるコンテキストサイズの設定は、本来よりも複雑です。

ブラックフォレスト・ラボズは、FLUX.1-Kontext-devという高度な画像から画像へのAIモデルをリリースしました。このモデルは、テキストの指示を使って既存の画像を補強します。

Docker Model Runner は、Dockerが公式に提供するローカルでAIモデルを実行するためのツールですが、
Docker Model RunnerにおけるNVidia GPUの加速の有効化には特定の設定が必要です。

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaの性能比較

私は、Ollama上でGPT-OSS 120bのパフォーマンステストを3つの異なるプラットフォームで確認しました：NVIDIA DGX Spark, Mac Studio, and RTX 4080。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080（または新しいRTX 5080の16GB VRAMには収まらないことを意味します。

Docker Model Runner (DMR) は、2025年4月に導入された Docker の公式ソリューションで、AIモデルをローカルで実行するためのものです。このチートシートでは、すべての必須コマンド、構成、およびベストプラクティスのクイックリファレンスを提供しています。

Docker Model Runner vs Ollama（2026年）：ローカルLLMにおいてどちらが優れているか？

ローカルで大規模言語モデル（LLM）を実行するは、プライバシー、コスト管理、オフライン機能のためにますます人気になってきています。 2025年4月にDockerが**Docker Model Runner (DMR)**を導入し、AIモデルの展開用の公式ソリューションとして登場したことで、状況は大きく変わりました。

NVidia

16GB GPUにおけるQwen 3.6 27Bおよび35B MTPと標準モデルの比較

llama.cppによる16 GB VRAM LLMベンチマーク（速度とコンテキスト）

LLMの速度比較表（トークン/秒とVRAM）

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較

2026年のベストLinuxターミナルエミュレータ比較

DGX Spark AU の価格：大手小売店で 6,249 米ドル～7,999 米ドル

オーストラリアにおける NVIDIA RTX 5080 および RTX 5090 の価格 - 2025 年 11 月

クロスモーダル埋め込み: AIモダリティの橋渡し

消費者向けハードウェア上の AI インフラ

Dockerモデルランナー: コンテキストサイズ設定ガイド

FLUX.1-Kontext-dev: 画像拡張AIモデル

DockerモデルランナーへのNVIDIA GPUサポートの追加

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaの性能比較

Docker Model Runner チートシート: コマンドと例

Docker Model Runner vs Ollama（2026年）：ローカルLLMにおいてどちらが優れているか？