Hastighetstest för stora språkliga modeller
Låt oss testa hastigheten på LLMs på GPU jämfört med CPU
Jämför prediktionshastighet för flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.

Jag använder samma provtext som i tidigare test där jag jämförde dessa LLMs förmåga att upptäcka logiska fel.
Titta, vid första anblicken låter det helt rimligt: för många människor, för få hus.
Men det är aldrig så enkelt, som en tidigare hemvärnsminister borde veta.
TL;DR
På GPU körs LLMs cirka 20 gånger snabbare, men på CPU är de fortfarande ganska hanterbara.
Teststandbeskrivning
Jag har kört nedanstående Stora språkmodeller på två datorer
- Gamla med 4:e generations i5 4-kärnig CPU (i5-4460 - tillverkad 2014) och
- Ny med RTX 4080 GPU (tillverkad 2022) med 9728 CUDA-kärnor och 304 tensor-kärnor.
Testresultat
Här nedan är resultaten:
| Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
|---|---|---|---|---|---|---|---|
| llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
| llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
| phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
| phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
| phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
| phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
| phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
| mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
| mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
| gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
| gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
Modellprestanda visas i kolumnerna “GPU-prestanda” och “CPU-prestanda”.
Hastighetsvinst vid övergång från CPU till GPU visas i kolumnen “Prestandaskillnad”.
Vi bör inte lägga för mycket vikt vid “varaktighet”-kolumnerna - denna mätning beror på modellprestanda och den producerade textens längd. Alla modeller producerar texter av olika längder. Dessa kolumner ger bara en indikativ väntetid.
Slutsats 1 - Prestandaskillnad
Skillnaden i hastighet mellan GPU och CPU är inte lika stor som förväntat.
Allvarligt? Alla legioner (10k+) av Ada Tensor- och Cuda-kärnor vs 4 Haswell-spartaner, och bara 20 gånger skillnad. Jag trodde det skulle vara 100-1000 gånger.
Slutsats 2 - Kostnad per prediktion är nästan densamma
- priset på denna nya dator är runt 3500 AUD
- den gamla datorn kostar troligen 200 AUD nu
Från PCCCaseGear’s webbplats:

Från ebay (du kanske vill lägga till extra 8GB RAM för att göra det till 16GB totalt - så låt oss avrunda till 200 AUD):

Du kanske behöver 20 av dessa gamla datorer för att få samma genomströmning, så 200 AUD * 20 = 4000 AUD.
Slutsats 3 - Moores lag
Moores lag innebär att datorns prestanda fördubblas varje två år.
Intel började tillverka i5-4460 2014. Nvidia började tillverka en av RTX 4080 2022. Den förväntade prestandahöjningen skulle vara ~16 gånger.
Jag skulle säga att Moores lag fortfarande gäller.
Men kom ihåg att DELL 9020 vid den tiden var en grundläggande arbetsstation, och en dator med RTX 4080 är nu vad jag skulle säga en avancerad grafik/speldator. Lätt olika viktklass.
Användbara länkar
- LLM-prestanda och PCIe-lanes: Viktiga överväganden
- Detektion av logiska fel med LLMs
- Logical Fallacy detector Android App: https://www.logical-fallacy.com/articles/detector-android-app/
- Flytta Ollama-modeller till annan enhet eller mapp
- Self-hosting Perplexica - med Ollama
- Hur Ollama hanterar parallella förfrågningar
- Test: Hur Ollama använder Intels CPU-prestanda och effektiva kärnor
- Moln-LLM-leverantörer
- Degraderingsproblem i Intels 13:e och 14:e generations CPU:er
- Är Quadro RTX 5880 Ada 48GB någon bra?