LLM Performance

16GB VRAM GPU上でOllamaを使用したLLMの性能比較

16GB VRAM GPU上でOllamaを使用したLLMの性能比較

RTX 4080(16GB VRAM)でのLLM速度テスト

大規模言語モデルをローカルで実行すると、プライバシーが保たれ、オフラインでの使用が可能になり、APIコストがゼロになります。 このベンチマークは、RTX 4080上でOllamaを使用して実行された9つの人気のあるLLMの性能を正確に示しています。

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

インテルCPUにおけるOllamaの効率的なコアとパフォーマンスコアの比較

私はある仮説をテストしたいと思っています。すなわち、「インテルCPUのすべてのコアを活用することで、LLMの速度が向上するか?」というものです。このテストについては、ALL cores on Intel CPU would raise the speed of LLMs?をご覧ください。

新しいgemma3 27bitモデル(gemma3:27b、ollama上では17GB)が私のGPUの16GB VRAMに収まらず、部分的にCPU上での実行に頼っているという点が気になります。

Ollamaが並列リクエストを処理する方法

Ollamaが並列リクエストを処理する方法

オラマを並列リクエストの実行に設定する。

Ollama サーバーが同時に2つのリクエストを受け取った場合、その動作は設定と利用可能なシステムリソースに依存します。

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

論理的誤謬の検出のテスト

最近、いくつかの新しいLLMがリリースされました。
非常にエキサイティングな時代です。
論理的誤謬の検出能力を確認するためにテストしてみましょう。

LLMの要約能力の比較

LLMの要約能力の比較

8つのllama3(Meta+)および5つのphi3(Microsoft)LLMバージョン

パラメータ数や量子化の異なるモデルの挙動をテストしています。

大規模言語モデルの速度テスト

大規模言語モデルの速度テスト

LLMのGPUとCPUでの速度をテストしてみましょう

いくつかのLLM(大規模言語モデル)のバージョン(llama3(メタ/Facebook)、phi3(マイクロソフト)、gemma(グーグル)、mistral(オープンソース))におけるCPUおよびGPUでの予測速度の比較。