Performance
パフォーマンス向けのヒューゴキャッシュ戦略
ハーグоサイトの開発と運用を最適化する
Hugoのキャッシュ戦略は、静的サイトジェネレータのパフォーマンスを最大化するために不可欠です。Hugoは本来静的なファイルを生成するため、処理が高速ですが、複数のレイヤーで適切なキャッシュを実装することで、ビルド時間の大幅な改善、サーバー負荷の軽減、ユーザー体験の向上が可能です。
NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaの性能比較
GPT-OSS 120bの3つのAIプラットフォームにおけるベンチマーク
私は、Ollama上でGPT-OSS 120bのパフォーマンステストを3つの異なるプラットフォームで確認しました:NVIDIA DGX Spark, Mac Studio, and RTX 4080。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080(または新しいRTX 5080の16GB VRAMには収まらないことを意味します。
Ollama GPT-OSS 構造化された出力の問題
あまり良くない。
OllamaのGPT-OSSモデルは、LangChainやOpenAI SDK、vllmなどのフレームワークと使用する際に、構造化された出力を処理する際に繰り返し問題が発生しています。
Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング
オラマモデルのスケジューリングに関する自分のテスト
ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、以前のバージョンよりも劣っています。
LLMの性能とPCIeレーン:主要な考慮点
LLM用に2番目のGPUをインストールすることを考慮していますか?
PCIe レーンがLLM性能に与える影響? タスクによります。トレーニングやマルチGPUの推論では、パフォーマンスの低下が顕著です。
テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか
インテルCPUにおけるOllamaの効率的なコアとパフォーマンスコアの比較
私はある仮説をテストしたいと思っています。すなわち、「インテルCPUのすべてのコアを活用することで、LLMの速度が向上するか?」というものです。このテストについては、ALL cores on Intel CPU would raise the speed of LLMs?をご覧ください。
新しいgemma3 27bitモデル(gemma3:27b、ollama上では17GB)が私のGPUの16GB VRAMに収まらず、部分的にCPU上での実行に頼っているという点が気になります。
Ollamaが並列リクエストを処理する方法
オラマを並列リクエストの実行に設定する。
Ollama サーバーが同時に2つのリクエストを受け取った場合、その動作は設定と利用可能なシステムリソースに依存します。
Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3およびPhi - LLMテスト
次のLLMテストラウンド
ほども前、リリースされました。最新の状況を確認し、Mistral Smallの他のLLMと比較したパフォーマンスをテストしてみましょう。
大規模言語モデルの速度テスト
LLMのGPUとCPUでの速度をテストしてみましょう
いくつかのLLM(大規模言語モデル)のバージョン(llama3(メタ/Facebook)、phi3(マイクロソフト)、gemma(グーグル)、mistral(オープンソース))におけるCPUおよびGPUでの予測速度の比較。