大規模言語モデルの速度テスト

LLMのGPUとCPUでの速度をテストしてみましょう

いくつかのLLM（llama3、phi3、gemma、mistral）のCPUおよびGPUでの予測速度の比較。

論理的誤謬の検出における大規模言語モデルのテスト速度 - ストップウォッチ

以前のテストで使用した同じサンプルテキストを使用しており、これらのLLMが論理的誤謬を検出する品質の比較に記載されています。

見ると、最初に聞こえると、すべてが非常に理にかなっているように思えます：
人口が多すぎて住宅が足りない。

しかし、かつての住宅担当大臣が知っているように、
それは決して単純ではありません。

TL;DR

GPUではLLMが約20倍速く動作しますが、CPUでもまだ十分に扱いやすいです。

以下に記載の大規模言語モデルを2台のPCで実行しました：

以下が結果です：

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

モデルの性能は「GPU性能」と「CPU性能」の列に記載されています。

CPUからGPUへの移行時の速度向上は「性能差」の列に記載されています。

「duration」の列にはあまり注目しない方が良いです。このメトリクスはモデルの性能と生成されたテキストの長さに依存します。すべてのモデルが異なる長さのテキストを生成します。これらの列はあくまで目安の待ち時間を示しています。

GPUとCPUの速度差は予想ほど大きくありません。

本当に？アダのテンソル＆CUDAコアの軍団（10,000以上）と4つのハスウェルのスパルタンと比較して、わずか20倍の差。 100〜1000倍の差を予想していました。

PCCCaseGearのサイトより：

RTX 4080super搭載PCの価格

eBayより（16GBのRAMにするために8GBを追加する必要があるかもしれません - 200AUDにしましょう）：

eBayのDell 9020

同じスループットを得るために20台の古いPCが必要かもしれません。200AUD × 20 = 4000AUD。

モーの法則は、コンピュータの性能が2年ごとに2倍になることを示しています。

インテルは2014年にi5-4460の生産を開始しました。 NVIDIAは2022年にRTX 4080の生産を開始しました。予想される性能の上昇は約16倍です。

私は、モーの法則は依然として機能していると思います。

ただし、DELL 9020は当時基本的なワークステーションであり、RTX 4080搭載PCは現在では高級なグラフィック/ゲーミングPCであることを考慮してください。わずかに異なる重量クラスです。