大規模言語モデルの速度テスト
LLMのGPUとCPUでの速度をテストしてみましょう
いくつかのLLM(llama3、phi3、gemma、mistral)のCPUおよびGPUでの予測速度の比較。
以前のテストで使用した同じサンプルテキストを使用しており、 これらのLLMが論理的誤謬を検出する品質の比較 に記載されています。
見ると、最初に聞こえると、すべてが非常に理にかなっているように思えます:
人口が多すぎて住宅が足りない。
しかし、かつての住宅担当大臣が知っているように、
それは決して単純ではありません。
TL;DR
GPUではLLMが約20倍速く動作しますが、CPUでもまだ十分に扱いやすいです。
テスト環境の説明
以下に記載の大規模言語モデルを2台のPCで実行しました:
テスト結果
以下が結果です:
Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
モデルの性能は「GPU性能」と「CPU性能」の列に記載されています。
CPUからGPUへの移行時の速度向上は「性能差」の列に記載されています。
「duration」の列にはあまり注目しない方が良いです。このメトリクスはモデルの性能と生成されたテキストの長さに依存します。 すべてのモデルが異なる長さのテキストを生成します。 これらの列はあくまで目安の待ち時間を示しています。
結論1 - 性能差
GPUとCPUの速度差は予想ほど大きくありません。
本当に? アダのテンソル&CUDAコアの軍団(10,000以上)と4つのハスウェルのスパルタンと比較して、わずか20倍の差。 100〜1000倍の差を予想していました。
結論2 - 予測ごとのコストはほぼ同じ
- この新しいPCの価格は約3500AUD
- その古いPCは現在ではおそらく200AUD
PCCCaseGearのサイトより:
eBayより(16GBのRAMにするために8GBを追加する必要があるかもしれません - 200AUDにしましょう):
同じスループットを得るために20台の古いPCが必要かもしれません。200AUD × 20 = 4000AUD。
結論3 - モーの法則
モーの法則 は、コンピュータの性能が2年ごとに2倍になることを示しています。
インテルは2014年にi5-4460の生産を開始しました。 NVIDIAは2022年にRTX 4080の生産を開始しました。 予想される性能の上昇は約16倍です。
私は、モーの法則は依然として機能していると思います。
ただし、DELL 9020は当時基本的なワークステーションであり、RTX 4080搭載PCは現在では高級なグラフィック/ゲーミングPCであることを考慮してください。 わずかに異なる重量クラスです。
有用なリンク
- LLMの性能とPCIeレーン:重要な考慮点
- LLMによる論理的誤謬の検出
- 論理的誤謬検出Androidアプリ:https://www.logical-fallacy.com/articles/detector-android-app/
- Ollamaモデルを別のドライブまたはフォルダに移動
- Ollamaを使用したPerplexicaのセルフホスティング
- Ollamaが並列リクエストをどのように処理するか
- OllamaがインテルCPUの性能と効率的なコアを使用する方法
- クラウドLLMプロバイダー
- インテルの13世代および14世代CPUにおける性能劣化の問題
- Quadro RTX 5880 Ada 48GBはどれくらい良いですか?