Performance

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

パフォーマンス向けのヒューゴキャッシュ戦略

Hugoのキャッシュ戦略は、静的サイトジェネレータのパフォーマンスを最大化するために不可欠です。Hugoは本来静的なファイルを生成するため、処理が高速ですが、複数のレイヤーで適切なキャッシュを実装することで、ビルド時間の大幅な改善、サーバー負荷の軽減、ユーザー体験の向上が可能です。

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaの性能比較

私は、Ollama上でGPT-OSS 120bのパフォーマンステストを3つの異なるプラットフォームで確認しました：NVIDIA DGX Spark, Mac Studio, and RTX 4080。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080（または新しいRTX 5080の16GB VRAMには収まらないことを意味します。

Ollama GPT-OSS 構造化された出力の問題

OllamaのGPT-OSSモデルは、LangChainやOpenAI SDK、vllmなどのフレームワークと使用する際に、構造化された出力を処理する際に繰り返し問題が発生しています。

Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング

ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、以前のバージョンよりも劣っています。

LLMの性能とPCIeレーン：主要な考慮点

PCIe レーンがLLM性能に与える影響? タスクによります。トレーニングやマルチGPUの推論では、パフォーマンスの低下が顕著です。

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

私はある仮説をテストしたいと思っています。すなわち、「インテルCPUのすべてのコアを活用することで、LLMの速度が向上するか？」というものです。このテストについては、ALL cores on Intel CPU would raise the speed of LLMs?をご覧ください。

新しいgemma3 27bitモデル（gemma3:27b、ollama上では17GB）が私のGPUの16GB VRAMに収まらず、部分的にCPU上での実行に頼っているという点が気になります。

Ollamaが並列リクエストを処理する方法

Ollama サーバーが同時に2つのリクエストを受け取った場合、その動作は設定と利用可能なシステムリソースに依存します。

Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3およびPhi - LLMテスト

ほども前、リリースされました。最新の状況を確認し、Mistral Smallの他のLLMと比較したパフォーマンスをテストしてみましょう。

大規模言語モデルの速度テスト

いくつかのLLM（大規模言語モデル）のバージョン（llama3（メタ/Facebook）、phi3（マイクロソフト）、gemma（グーグル）、mistral（オープンソース））におけるCPUおよびGPUでの予測速度の比較。