LLM Performance

Pythonで堅牢なLLM構造化出力の検証

Pythonで堅牢なLLM構造化出力の検証

「雰囲気」に頼る解析をやめ、契約を検証せよ。

ほとんどのLLM「構造化出力」チュートリアルは、本気度にかけるものです。 それらは、JSONを丁寧な口調でリクエストし、モデルが適切に動作することを祈る方法を教えます。 それでは検証ではありません。 それは単に括弧で囲まれた楽観主義にすぎません。

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

QwenおよびGemmaにおけるエージェンティックLLM推論パラメータの参照

エージェント型LLMのチューニングに関する参照資料

このページは、エージェント型LLM推論チューニングの実用的なリファレンス(temperature、top_p、top_k、ペナルティ、およびマルチステップやツール多用なワークフローにおけるそれらの相互作用)です。

より広範なLLMパフォーマンスエンジニアリングハブと併せて参照し、明確なLLMホスティングとサービングの概要と組み合わせることで、モデルがリソース不足に陥った際にはスループットとスケジューリングが依然として支配的ですが、不安定なサンプリングはGPUが処理を終える前にリトライと出力トークンを消費してしまうことがわかります。

このページでは以下をまとめます:

llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)

llama.cppによる16 GB VRAM LLMベンチマーク(速度とコンテキスト)

16 GB VRAMにおけるllama.cppのトークン処理速度(表)。

ここでは、16GBのVRAMを搭載したGPUで動作するいくつかのLLMの速度を比較し、セルフホスティング向けの最適なモデルを選択しています。

llama.cppを使用して、19K、32K、および64KトークンのコンテキストウィンドウでこれらのLLMを実行しました。

VRAMブロックとベンチマークスタイルのチャートが特徴的なスタイリッシュなGPU

この投稿では、速度の観点から可能な限り高いパフォーマンスを引き出すための試行錯誤を記録しています。

LLMの速度比較表(トークン/秒とVRAM)

モデル サイズ 19K VRAM 19K GPU/CPU 19K T/s 32K VRAM 32K ロード 32K T/s 64K VRAM 64K ロード 64K T/s
Qwen3.6-35B-A3B-UD-IQ3_XXS 13.2 13.8GB 96%/100% 147.5 14.0GB 96%/101% 149.1 14.7GB 96%/101% 145.8
Qwen3.6-35B-A3B-UD-IQ4_XS 17.7 14.3GB 62%/266% 95.0 14.9GB 58%/279% 92.3 14.9GB 57%/293% 86.4
Qwen3.5-35B-A3B-UD-IQ3_S 13.6 14.3GB 93%/100% 136.4 14.6GB 93%/100% 138.5 14.9GB 88%/115% 136.8
Qwen3.5-27B-IQ3_XXS-bartowsky 11.3 12.8 98/100 44.9 13.5 98/100 44.9 14.5 45/415 23.6
Qwen3.5-27B-UD-IQ3_XXS 11.5 12.9 98/100 45.3 13.7 98/100 45.1 14.7 45/410 22.7
Qwen3.5-27B-IQ4_XS.gguf 15.0 14.6 49/406 20.5 14.7 37/465 17.4 14.7 23/533 13.3
Qwen3.5-122B-A10B-UD-IQ3_XXS 44.7 14.7 30/470 22.3 14.7 30/480 21.8 14.7 28/490 21.5
Qwen3.5-122B-A10B-UD-IQ3_S 46.5 14.7 25/516 19.4 14.7 24/516 19.5 14.7 24/516 19.6
Mistral-Small-4-119B UD-IQ3_XXS 42.8 14.8 28/585 30.4 14.7 27/574 28.5 14.9 20/590 31.5
Qwen3-Coder-Next-UD-IQ4_XS 38.4 14.6 32/460 41.1 14.7 29/440 41.3 14.8 32/460 38.3
Nemotron Super 120b IQ3_XXS 56.2 15.0 26/517 17.5 14.6 26/531 17.4 14.6 26/535 17.6
gemma-4-26B-A4B-it-UD-IQ4_XS 13.4 14.7 95/100 121.7 14.9 95/115 114.9 14.9 75/190 96.1
gemma-4-31B-it-UD-IQ3_XXS 11.8 14.8 68/287 29.2 14.8 41/480 18.4 14.8 18/634 8.1
GLM-4.7-Flash-IQ4_XS 16.3 15.0 66/240 91.8 14.9 62/262 86.1 14.9 53/313 72.5
GLM-4.7-Flash-REAP-23B IQ4_XS 12.6 13.7 92/100 122.0 14.4 95/102 123.2 14.9 71/196 97.1

19K、32K、64Kはコンテキストのサイズを示します。

16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較

16GB VRAMのGPUにおけるOllama上のLLMのパフォーマンス比較

RTX 4080(16GB VRAM)でのLLM速度テスト

ローカル環境で大型言語モデル(LLM)を動作させることで、プライバシーの保護、オフラインでの利用、そしてAPIコストのゼロ化を実現できます。 このベンチマークでは、RTX 4080搭載のOllama上のLLMs on Ollama on an RTX 4080で一般的に利用される14つのLLMからどのようなパフォーマンスが期待できるかを具体的に明らかにします。

BAML vs Instructor:構造化されたLLM出力

BAML vs Instructor:構造化されたLLM出力

BAMLとInstructorによる型安全なLLM出力

プロダクション環境で大規模言語モデル(LLM)を扱う際、構造化され、型安全性のある出力を得ることが極めて重要です。 この問題の解決策として、2つの人気フレームワーク—BAMLとInstructor—がそれぞれ異なるアプローチを採用しています。

LLM 用 ASIC と専門化された推論チップ(なぜ重要なのか)

LLM 用 ASIC と専門化された推論チップ(なぜ重要なのか)

ASIC とカスタムシリコンが、大規模言語モデル(LLM)の推論速度と効率を推進します。

AI の未来は、より賢い モデル だけに関するものではありません。それは、実際にそれらのモデルがどのように提供されるかに合わせて設計されたシリコン(半導体)についても同様です。LLM の推論 に特化したハードウェアは、ビットコインマイニングが GPU から専用 ASIC へと移行したのと同じような道を行っていますが、モデルや精度のレシピが絶えず進化しているため、より厳しい制約の中で進んでいます。

比較:Qwen3:30bとGPT-OSS:20b

比較:Qwen3:30bとGPT-OSS:20b

これらの2つのモデルの速度、パラメータ数、およびパフォーマンスを比較する

以下は、Qwen3:30b と GPT-OSS:20b の比較です。 指示の遵循度(Instruction Following)とパフォーマンスパラメータ、仕様、速度に焦点を当てています。

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

インテルCPUにおけるOllamaの効率的なコアとパフォーマンスコアの比較

私はある仮説をテストしたいと思っています。すなわち、「インテルCPUのすべてのコアを活用することで、LLMの速度が向上するか?」というものです。このテストについては、ALL cores on Intel CPU would raise the speed of LLMs?をご覧ください。

新しいgemma3 27bitモデル(gemma3:27b、ollama上では17GB)が私のGPUの16GB VRAMに収まらず、部分的にCPU上での実行に頼っているという点が気になります。