Snelheidstest grote taalmodellen
Laat ons de snelheid van de LLM's testen op GPU versus CPU
Vergelijking van de voorspellende snelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.
Ik gebruik dezelfde voorbeeldtekst als in de vorige test waarin ik de detectiekwaliteit van logische fouten van deze LLMs vergeleken.
Kijk, op het eerste gezicht klinkt alles perfect redelijk:
te veel mensen, te weinig woningen.
Maar het is nooit zo eenvoudig,
zoals een voormalig minister van wonen zou moeten weten.
TL;DR
Op de GPU lopen LLMs ongeveer 20 keer sneller, maar op de CPU zijn ze nog steeds vrij goed te beheren.
Testomgeving Beschrijving
Ik heb de onderstaande Large Language Models uitgevoerd op twee computers:
- Oude computer met 4de generatie i5 4-kern CPU (i5-4460 - geproduceerd in 2014) en
- Nieuwe computer met RTX 4080 GPU (geproduceerd in 2022) met 9728 CUDA-kernen en 304 tensor-kernen.
Testresultaten
Hieronder staan de resultaten:
Model_Name_Version__________ | GPU RAM | GPU duur | GPU Prestatie | Hoofd RAM | CPU duur | CPU Prestatie | Prestatie verschil |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5,8GB | 2,1s | 80t/s | 4,7GB | 49s | 4,6t/s | 17,4x |
llama3:8b-instruct-q8_0 | 9,3GB | 3,4s | 56t/s | 8,3GB | 98s | 2,7t/s | 20,7x |
phi3:3.8b | 4,5GB | 3,6s | 98t/s | 3,0GB | 83s | 7,2t/s | 13,6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6,0GB | 6,9s | 89t/s | 4,6GB | 79s | 5,3t/s | 16,8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9,3GB | 4,2s | 66t/s | 7,9GB | 130s | 2,9t/s | 22,8x |
phi3:14b | 9,6GB | 4,2s | 55t/s | 7,9GB | 96s | 2,7t/s | 21,2x |
phi3:14b-medium-4k-instruct-q6_K | 12,5GB | 8,9s | 42t/s | 11,1GB | 175s | 1,9t/s | 21,8x |
mistral:7b-instruct-v0.3-q4_0 | 5,4GB | 2,1s | 87t/s | 4,1GB | 36s | 4,9t/s | 17,8x |
mistral:7b-instruct-v0.3-q8_0 | 8,7GB | 2,3s | 61t/s | 7,5GB | 109s | 2,9t/s | 21,0x |
gemma:7b-instruct-v1.1-q4_0 | 7,4GB | 1,8s | 82t/s | 7,5GB | 25s | 4,4t/s | 18,6x |
gemma:7b-instruct-v1.1-q6_K | 9,1GB | 1,6s | 66t/s | 7,5GB | 40s | 3,0t/s | 22,0x |
De modelprestaties zijn in de kolommen “GPU prestatie” en “CPU prestatie”.
De snelheidstoename bij het overschakelen van CPU naar GPU is in de kolom “Prestatieverschil”.
We moeten niet veel aandacht besteden aan de kolommen “duur” - deze metriek hangt af van de modelprestatie en de lengte van de gegenereerde tekst. Alle modellen genereren tekst van verschillende lengtes. Deze kolom geeft slechts indicatieve wachttijd.
Conclusie 1 - Prestatieverschil
Het verschil in snelheid tussen GPU en CPU is niet zo groot als verwacht.
Serieuze? Al die legioenen (10k+) van Ada Tensor & Cuda-kernen versus 4 Haswell-spartanen, en slechts 20 keer het verschil. Ik dacht dat het 100-1000 keer zou zijn.
Conclusie 2 - Kosten per voorspelling zijn vrijwel hetzelfde
- deze nieuwe computer kost ongeveer 3500 AUD
- die oude computer kost waarschijnlijk nu 200 AUD
Vanaf PCCCaseGear’s site:
Vanaf eBay (je zou mogelijk extra 8 GB RAM moeten toevoegen om het totaal op 16 GB te brengen - dus rondop naar 200 AUD):
Je zou 20 van die oude pc’s nodig hebben om dezelfde doorvoer te krijgen, dus 200 AUD * 20 = 4000 AUD.
Conclusie 3 - Moore’s wet
Moore’s wet stelt dat de prestaties van computers elke twee jaar verdubbelen.
Intel begon met de productie van de i5-4460 in 2014. Nvidia begon met één van de RTX 4080 in 2022. De verwachte prestatiestijging zou ongeveer 16 keer moeten zijn.
Ik zou zeggen dat Moore’s wet nog steeds werkt.
Houd wel rekening met het feit dat de DELL 9020 destijds een basiswerkstation was, en de pc met RTX 4080 is nu een geavanceerde grafische/spelcomputer. Slecht iets anders gewichtssegment.
Nuttige links
- LLM-prestaties en PCIe-lanes: belangrijke overwegingen
- Detectie van logische fouten met LLMs
- Logische foutdetector Android-app: https://www.logical-fallacy.com/articles/detector-android-app/
- Verplaats Ollama-modellen naar een ander station of map
- Self-hosting Perplexica - met Ollama
- Hoe Ollama parallelle aanvragen verwerkt
- Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt
- Cloud LLM-uitvoerders
- Degradatieproblemen in Intel’s 13e en 14e generatie CPUs
- Is de Quadro RTX 5880 Ada 48GB van nut?