大規模言語モデルの速度テスト

LLMのGPUとCPUでの速度をテストしてみましょう

目次

いくつかのLLM(llama3、phi3、gemma、mistral)のCPUおよびGPUでの予測速度の比較。

論理的誤謬の検出における大規模言語モデルのテスト速度 - ストップウォッチ

以前のテストで使用した同じサンプルテキストを使用しており、 これらのLLMが論理的誤謬を検出する品質の比較 に記載されています。

見ると、最初に聞こえると、すべてが非常に理にかなっているように思えます:
人口が多すぎて住宅が足りない。

しかし、かつての住宅担当大臣が知っているように、
それは決して単純ではありません。

TL;DR

GPUではLLMが約20倍速く動作しますが、CPUでもまだ十分に扱いやすいです。

テスト環境の説明

以下に記載の大規模言語モデルを2台のPCで実行しました:

  • 古いPC:4世代i5 4コアCPU(i5-4460 - 2014年製)と
  • 新しいPC:RTX 4080 GPU(2022年製)で、9728個のCUDAコアと304個のテンソルコアを備えています。

テスト結果

以下が結果です:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5.8GB 2.1s 80t/s 4.7GB 49s 4.6t/s 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4s 56t/s 8.3GB 98s 2.7t/s 20.7x
phi3:3.8b 4.5GB 3.6s 98t/s 3.0GB 83s 7.2t/s 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9s 89t/s 4.6GB 79s 5.3t/s 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2s 66t/s 7.9GB 130s 2.9t/s 22.8x
phi3:14b 9.6GB 4.2s 55t/s 7.9GB 96s 2.7t/s 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9s 42t/s 11.1GB 175s 1.9t/s 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1s 87t/s 4.1GB 36s 4.9t/s 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3s 61t/s 7.5GB 109s 2.9t/s 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8s 82t/s 7.5GB 25s 4.4t/s 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6s 66t/s 7.5GB 40s 3.0t/s 22.0x

モデルの性能は「GPU性能」と「CPU性能」の列に記載されています。

CPUからGPUへの移行時の速度向上は「性能差」の列に記載されています。

「duration」の列にはあまり注目しない方が良いです。このメトリクスはモデルの性能と生成されたテキストの長さに依存します。 すべてのモデルが異なる長さのテキストを生成します。 これらの列はあくまで目安の待ち時間を示しています。

結論1 - 性能差

GPUとCPUの速度差は予想ほど大きくありません。

本当に? アダのテンソル&CUDAコアの軍団(10,000以上)と4つのハスウェルのスパルタンと比較して、わずか20倍の差。 100〜1000倍の差を予想していました。

結論2 - 予測ごとのコストはほぼ同じ

  • この新しいPCの価格は約3500AUD
  • その古いPCは現在ではおそらく200AUD

PCCCaseGearのサイトより:

RTX 4080super搭載PCの価格

eBayより(16GBのRAMにするために8GBを追加する必要があるかもしれません - 200AUDにしましょう):

eBayのDell 9020

同じスループットを得るために20台の古いPCが必要かもしれません。200AUD × 20 = 4000AUD。

結論3 - モーの法則

モーの法則 は、コンピュータの性能が2年ごとに2倍になることを示しています。

インテルは2014年にi5-4460の生産を開始しました。 NVIDIAは2022年にRTX 4080の生産を開始しました。 予想される性能の上昇は約16倍です。

私は、モーの法則は依然として機能していると思います。

ただし、DELL 9020は当時基本的なワークステーションであり、RTX 4080搭載PCは現在では高級なグラフィック/ゲーミングPCであることを考慮してください。 わずかに異なる重量クラスです。

有用なリンク