LLM Performance

現代の混乱の最中、私は AI タスクに適した異なるグラボの仕様を比較しています (ディープラーニング, オブジェクト検出および LLM)。ただし、これらはすべて非常に高価です。

このガイドでは、Ollamaが並列リクエストをどのように処理するか（並行処理、キューイング、リソース制限）および**OLLAMA_NUM_PARALLEL環境変数**（および関連する設定）を使用してチューニングする方法を説明します。

最近、いくつかの新しいLLMがリリースされました。
非常にエキサイティングな時代です。
論理的誤謬の検出能力を確認するためにテストしてみましょう。

パラメータ数や量子化の異なるモデルの挙動をテストしています。

いくつかのLLM（大規模言語モデル）のバージョン（llama3（メタ/Facebook）、phi3（マイクロソフト）、gemma（グーグル）、mistral（オープンソース））におけるCPUおよびGPUでの予測速度の比較。

AIにおけるNVIDIA GPUの適性比較