Performance

パフォーマンス向けのヒューゴキャッシュ戦略

パフォーマンス向けのヒューゴキャッシュ戦略

ハーグоサイトの開発と運用を最適化する

Hugoのキャッシュ戦略は、静的サイトジェネレータのパフォーマンスを最大化するために不可欠です。Hugoは本来静的なファイルを生成するため、処理が高速ですが、複数のレイヤーで適切なキャッシュを実装することで、ビルド時間の大幅な改善、サーバー負荷の軽減、ユーザー体験の向上が可能です。

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

インテルCPUにおけるOllamaの効率的なコアとパフォーマンスコアの比較

私はある仮説をテストしたいと思っています。すなわち、「インテルCPUのすべてのコアを活用することで、LLMの速度が向上するか?」というものです。このテストについては、ALL cores on Intel CPU would raise the speed of LLMs?をご覧ください。

新しいgemma3 27bitモデル(gemma3:27b、ollama上では17GB)が私のGPUの16GB VRAMに収まらず、部分的にCPU上での実行に頼っているという点が気になります。

Ollamaが並列リクエストをどのように処理するか

Ollamaが並列リクエストをどのように処理するか

Ollamaの並行処理、キューイングの仕組み、および安定した並列リクエストを実現するためのOLLAMA_NUM_PARALLELのチューニング方法について理解する。

このガイドでは、Ollamaが並列リクエストをどのように処理するか(並行処理、キューイング、リソース制限)および**OLLAMA_NUM_PARALLEL環境変数**(および関連する設定)を使用してチューニングする方法を説明します。

大規模言語モデルの速度テスト

大規模言語モデルの速度テスト

LLMのGPUとCPUでの速度をテストしてみましょう

いくつかのLLM(大規模言語モデル)のバージョン(llama3(メタ/Facebook)、phi3(マイクロソフト)、gemma(グーグル)、mistral(オープンソース))におけるCPUおよびGPUでの予測速度の比較。