Großsprachmodell-Performance-Test

Testen wir die Geschwindigkeit der LLMs auf GPU im Vergleich zu CPU

Inhaltsverzeichnis

Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.

Test der Geschwindigkeit großer Sprachmodelle bei der Erkennung von logischen Fehlschlüssen - Stoppuhr

Ich verwende denselben Beispielsatz wie in dem vorherigen Test, in dem ich die Erkennungsgüte dieser LLMs bei logischen Fehlschlüssen verglichen habe.

Schauen Sie, auf den ersten Blick klingt alles perfekt vernünftig:
zu viele Menschen, zu wenige Häuser.

Aber es ist nie so einfach,
wie ein ehemaliger Minister für Wohnungsbau wissen sollte.

TL;DR

Auf der GPU laufen LLMs ungefähr 20-mal schneller, auf der CPU sind sie jedoch immer noch gut zu bewältigen.

Beschreibung des Testsystems

Ich habe die folgenden Großsprachmodelle auf zwei PCs getestet:

Alt mit 4. Generation i5 4-Kern-CPU (i5-4460 - hergestellt 2014) und
Neu mit RTX 4080 GPU (hergestellt 2022) mit 9728 CUDA-Kernen und 304 Tensor-Kernen.

Testergebnisse

Hier unten sind die Ergebnisse:

Model_Name_Version__________	GPU RAM	GPU Dauer	GPU Leistung	Haupt RAM	CPU Dauer	CPU Leistung	Leistungsunterschied
llama3:8b-instruct-q4_0	5,8 GB	2,1 s	80 t/s	4,7 GB	49 s	4,6 t/s	17,4x
llama3:8b-instruct-q8_0	9,3 GB	3,4 s	56 t/s	8,3 GB	98 s	2,7 t/s	20,7x
phi3:3.8b	4,5 GB	3,6 s	98 t/s	3,0 GB	83 s	7,2 t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0 GB	6,9 s	89 t/s	4,6 GB	79 s	5,3 t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3 GB	4,2 s	66 t/s	7,9 GB	130 s	2,9 t/s	22,8x
phi3:14b	9,6 GB	4,2 s	55 t/s	7,9 GB	96 s	2,7 t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5 GB	8,9 s	42 t/s	11,1 GB	175 s	1,9 t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4 GB	2,1 s	87 t/s	4,1 GB	36 s	4,9 t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7 GB	2,3 s	61 t/s	7,5 GB	109 s	2,9 t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4 GB	1,8 s	82 t/s	7,5 GB	25 s	4,4 t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1 GB	1,6 s	66 t/s	7,5 GB	40 s	3,0 t/s	22,0x

Die Modellleistung ist in den Spalten „GPU-Leistung“ und „CPU-Leistung“.

Die Geschwindigkeitssteigerung beim Wechsel von CPU zu GPU ist in der Spalte „Leistungsunterschied“.

Wir sollten uns nicht allzu sehr auf die „Dauer“-Spalten konzentrieren – diese Metrik hängt von der Modellleistung und der Länge des erzeugten Textes ab. Alle Modelle erzeugen Texte unterschiedlicher Längen. Diese Spalten geben nur eine grobe Wartezeit an.

Schlussfolgerung 1 – Leistungsunterschied

Der Unterschied zwischen GPU und CPU in Bezug auf die Geschwindigkeit ist nicht so groß, wie erwartet.

Serios? Alle Legionen (10.000+) von Ada Tensor- und Cuda-Kernen vs. 4 Haswell-Spartaner, und nur ein 20-facher Unterschied. Ich dachte, es wäre 100-1000-mal.

Schlussfolgerung 2 – Kosten pro Vorhersage sind fast gleich

Der Preis dieses neuen PCs beträgt ungefähr 3500 AUD
Der alte PC kostet jetzt vermutlich 200 AUD

Von der PCCCaseGear-Website:

PC mit RTX 4080super Preis

Von eBay (Sie möchten möglicherweise 8 GB zusätzlichen RAM hinzufügen, um insgesamt 16 GB zu erreichen – also runden wir auf 200 AUD auf):

Dell 9020 von eBay

Sie würden 20 dieser alten PCs benötigen, um die gleiche Durchsatzkapazität zu erreichen, also 200 AUD * 20 = 4000 AUD.

Schlussfolgerung 3 – Moores Gesetz

Moores Gesetz besagt, dass die Leistung von Computern alle zwei Jahre verdoppelt wird.

Intel begann 2014 mit der Produktion des i5-4460. Nvidia begann 2022 mit der Produktion einer RTX 4080. Der erwartete Leistungsanstieg sollte ungefähr 16-fach sein.

Ich würde sagen, Moores Gesetz funktioniert immer noch.

Achten Sie jedoch darauf, dass der DELL 9020 zu einer Zeit ein grundlegender Arbeitsplatzrechner war, und ein PC mit RTX 4080 ist heute ein fortgeschrittener Grafik- und Gaming-PC. Leicht unterschiedliche Gewichtsklassen.