Großsprachmodell-Performance-Test
Testen wir die Geschwindigkeit der LLMs auf GPU im Vergleich zu CPU
Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.
Ich verwende denselben Beispielsatz wie in dem vorherigen Test, in dem ich die Erkennungsgüte dieser LLMs bei logischen Fehlschlüssen verglichen habe.
Schauen Sie, auf den ersten Blick klingt alles perfekt vernünftig:
zu viele Menschen, zu wenige Häuser.
Aber es ist nie so einfach,
wie ein ehemaliger Minister für Wohnungsbau wissen sollte.
TL;DR
Auf der GPU laufen LLMs ungefähr 20-mal schneller, auf der CPU sind sie jedoch immer noch gut zu bewältigen.
Beschreibung des Testsystems
Ich habe die folgenden Großsprachmodelle auf zwei PCs getestet:
- Alt mit 4. Generation i5 4-Kern-CPU (i5-4460 - hergestellt 2014) und
- Neu mit RTX 4080 GPU (hergestellt 2022) mit 9728 CUDA-Kernen und 304 Tensor-Kernen.
Testergebnisse
Hier unten sind die Ergebnisse:
Model_Name_Version__________ | GPU RAM | GPU Dauer | GPU Leistung | Haupt RAM | CPU Dauer | CPU Leistung | Leistungsunterschied |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5,8 GB | 2,1 s | 80 t/s | 4,7 GB | 49 s | 4,6 t/s | 17,4x |
llama3:8b-instruct-q8_0 | 9,3 GB | 3,4 s | 56 t/s | 8,3 GB | 98 s | 2,7 t/s | 20,7x |
phi3:3.8b | 4,5 GB | 3,6 s | 98 t/s | 3,0 GB | 83 s | 7,2 t/s | 13,6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6,0 GB | 6,9 s | 89 t/s | 4,6 GB | 79 s | 5,3 t/s | 16,8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9,3 GB | 4,2 s | 66 t/s | 7,9 GB | 130 s | 2,9 t/s | 22,8x |
phi3:14b | 9,6 GB | 4,2 s | 55 t/s | 7,9 GB | 96 s | 2,7 t/s | 21,2x |
phi3:14b-medium-4k-instruct-q6_K | 12,5 GB | 8,9 s | 42 t/s | 11,1 GB | 175 s | 1,9 t/s | 21,8x |
mistral:7b-instruct-v0.3-q4_0 | 5,4 GB | 2,1 s | 87 t/s | 4,1 GB | 36 s | 4,9 t/s | 17,8x |
mistral:7b-instruct-v0.3-q8_0 | 8,7 GB | 2,3 s | 61 t/s | 7,5 GB | 109 s | 2,9 t/s | 21,0x |
gemma:7b-instruct-v1.1-q4_0 | 7,4 GB | 1,8 s | 82 t/s | 7,5 GB | 25 s | 4,4 t/s | 18,6x |
gemma:7b-instruct-v1.1-q6_K | 9,1 GB | 1,6 s | 66 t/s | 7,5 GB | 40 s | 3,0 t/s | 22,0x |
Die Modellleistung ist in den Spalten „GPU-Leistung“ und „CPU-Leistung“.
Die Geschwindigkeitssteigerung beim Wechsel von CPU zu GPU ist in der Spalte „Leistungsunterschied“.
Wir sollten uns nicht allzu sehr auf die „Dauer“-Spalten konzentrieren – diese Metrik hängt von der Modellleistung und der Länge des erzeugten Textes ab. Alle Modelle erzeugen Texte unterschiedlicher Längen. Diese Spalten geben nur eine grobe Wartezeit an.
Schlussfolgerung 1 – Leistungsunterschied
Der Unterschied zwischen GPU und CPU in Bezug auf die Geschwindigkeit ist nicht so groß, wie erwartet.
Serios? Alle Legionen (10.000+) von Ada Tensor- und Cuda-Kernen vs. 4 Haswell-Spartaner, und nur ein 20-facher Unterschied. Ich dachte, es wäre 100-1000-mal.
Schlussfolgerung 2 – Kosten pro Vorhersage sind fast gleich
- Der Preis dieses neuen PCs beträgt ungefähr 3500 AUD
- Der alte PC kostet jetzt vermutlich 200 AUD
Von der PCCCaseGear-Website:
Von eBay (Sie möchten möglicherweise 8 GB zusätzlichen RAM hinzufügen, um insgesamt 16 GB zu erreichen – also runden wir auf 200 AUD auf):
Sie würden 20 dieser alten PCs benötigen, um die gleiche Durchsatzkapazität zu erreichen, also 200 AUD * 20 = 4000 AUD.
Schlussfolgerung 3 – Moores Gesetz
Moores Gesetz besagt, dass die Leistung von Computern alle zwei Jahre verdoppelt wird.
Intel begann 2014 mit der Produktion des i5-4460. Nvidia begann 2022 mit der Produktion einer RTX 4080. Der erwartete Leistungsanstieg sollte ungefähr 16-fach sein.
Ich würde sagen, Moores Gesetz funktioniert immer noch.
Achten Sie jedoch darauf, dass der DELL 9020 zu einer Zeit ein grundlegender Arbeitsplatzrechner war, und ein PC mit RTX 4080 ist heute ein fortgeschrittener Grafik- und Gaming-PC. Leicht unterschiedliche Gewichtsklassen.
Nützliche Links
- LLM-Leistung und PCIe-Steckplätze: Wichtige Überlegungen
- Erkennung logischer Fehlschlüsse mit LLMs
- Logischer Fehlschluss-Erkennungs-Android-App: https://www.logical-fallacy.com/articles/detector-android-app/
- Ollama-Modelle auf einen anderen Laufwerk oder Ordner verschieben
- Selbsthosting von Perplexica mit Ollama
- Wie Ollama parallelle Anfragen verarbeitet
- Test: Wie Ollama die Leistung und effizienten Kerne der Intel-CPU nutzt
- Cloud-LLM-Anbieter
- Degradierungsprobleme bei Intels 13. und 14. Generation CPUs
- Ist die Quadro RTX 5880 Ada 48GB gut?