LLM Performance

llama.cpp を使用した 16GB VRAM における LLM ベンチマーク（速度とコンテキスト）

ここでは、16GB の VRAM を持つ GPU で動作するいくつかの LLM の速度を比較し、セルフホスティングに適した最適なモデルを選定しています。

16GB VRAM GPU上でOllamaを使用したLLMの性能比較

大規模言語モデルをローカルで実行すると、プライバシーの確保、オフラインでの使用が可能になり、APIコストはゼロになります。このベンチマークでは、RTX 4080上で動作する14のポピュラーなLLMs on Ollamaから期待できる性能が明らかになります。

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaの性能比較

私は、Ollama上でGPT-OSS 120bのパフォーマンステストを3つの異なるプラットフォームで確認しました：NVIDIA DGX Spark, Mac Studio, and RTX 4080。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080（または新しいRTX 5080の16GB VRAMには収まらないことを意味します。

LLM ASICの台頭：推論ハードウェアがなぜ重要なのか

AIの未来は、単にスマートなモデルだけでなく、スマートなシリコンによっても決まる。LLM推論専用のハードウェアは、ビットコインマイニングがASICに移行したときと同様の革命をもたらしている。

比較: Qwen3:30b と GPT-OSS:20b

ここに Qwen3:30b と GPT-OSS:20b の比較を示します。指示の遵守とパフォーマンスのパラメータ、仕様、速度に焦点を当てています。

Ollama GPT-OSS 構造化された出力の問題

OllamaのGPT-OSSモデルは、LangChainやOpenAI SDK、vllmなどのフレームワークと使用する際に、構造化された出力を処理する際に繰り返し問題が発生しています。

Ollama 新バージョン v0.12.1 におけるメモリ割り当てとモデルスケジューリング

ここでは、新しいバージョンのOllamaがモデルに対してどのくらいのVRAMを割り当てているかについて、Ollama VRAM割り当てと以前のOllamaバージョンを比較しています。新しいバージョンは、以前のバージョンよりも劣っています。

LLMの性能とPCIeレーン：主要な考慮点

PCIe レーンがLLM性能に与える影響? タスクによります。トレーニングやマルチGPUの推論では、パフォーマンスの低下が顕著です。

テスト: Ollama がインテル CPU のパフォーマンスコアと効率コアをどのように利用しているか

私はある仮説をテストしたいと思っています。すなわち、「インテルCPUのすべてのコアを活用することで、LLMの速度が向上するか？」というものです。このテストについては、ALL cores on Intel CPU would raise the speed of LLMs?をご覧ください。

新しいgemma3 27bitモデル（gemma3:27b、ollama上では17GB）が私のGPUの16GB VRAMに収まらず、部分的にCPU上での実行に頼っているという点が気になります。

NVIDIA GPUのAI適性比較

現代の世界の混乱の中でも、ここではさまざまなカードのテクスペックを比較、AIタスクに適したAI用のカードについて見ていく。
(Deep Learning、
Object Detection、
およびLLMs）。
しかし、これらはすべて非常に高価です。

Ollamaが並列リクエストを処理する方法

Ollama サーバーが同時に2つのリクエストを受け取った場合、その動作は設定と利用可能なシステムリソースに依存します。

Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3およびPhi - LLMテスト

ほども前、リリースされました。最新の状況を確認し、Mistral Smallの他のLLMと比較したパフォーマンスをテストしてみましょう。

Gemma2 vs Qwen2 vs Mistral Nemo vs...

最近、いくつかの新しいLLMがリリースされました。
非常にエキサイティングな時代です。
論理的誤謬の検出能力を確認するためにテストしてみましょう。

LLMの要約能力の比較

パラメータ数や量子化の異なるモデルの挙動をテストしています。

大規模言語モデルの速度テスト

いくつかのLLM（大規模言語モデル）のバージョン（llama3（メタ/Facebook）、phi3（マイクロソフト）、gemma（グーグル）、mistral（オープンソース））におけるCPUおよびGPUでの予測速度の比較。