Snelheidstest grote taalmodellen

Laat ons de snelheid van de LLM's testen op GPU versus CPU

Inhoud

Vergelijking van de voorspellende snelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.

Testen van de snelheid van grote taalmodellen bij het detecteren van logische fouten - stopwatch

Ik gebruik dezelfde voorbeeldtekst als in de vorige test waarin ik de detectiekwaliteit van logische fouten van deze LLMs vergeleken.

Kijk, op het eerste gezicht klinkt alles perfect redelijk:
te veel mensen, te weinig woningen.

Maar het is nooit zo eenvoudig,
zoals een voormalig minister van wonen zou moeten weten.

TL;DR

Op de GPU lopen LLMs ongeveer 20 keer sneller, maar op de CPU zijn ze nog steeds vrij goed te beheren.

Testomgeving Beschrijving

Ik heb de onderstaande Large Language Models uitgevoerd op twee computers:

  • Oude computer met 4de generatie i5 4-kern CPU (i5-4460 - geproduceerd in 2014) en
  • Nieuwe computer met RTX 4080 GPU (geproduceerd in 2022) met 9728 CUDA-kernen en 304 tensor-kernen.

Testresultaten

Hieronder staan de resultaten:

Model_Name_Version__________ GPU RAM GPU duur GPU Prestatie Hoofd RAM CPU duur CPU Prestatie Prestatie verschil
llama3:8b-instruct-q4_0 5,8GB 2,1s 80t/s 4,7GB 49s 4,6t/s 17,4x
llama3:8b-instruct-q8_0 9,3GB 3,4s 56t/s 8,3GB 98s 2,7t/s 20,7x
phi3:3.8b 4,5GB 3,6s 98t/s 3,0GB 83s 7,2t/s 13,6x
phi3:3.8b-mini-4k-instruct-q8_0 6,0GB 6,9s 89t/s 4,6GB 79s 5,3t/s 16,8x
phi3:3.8b-mini-instruct-4k-fp16 9,3GB 4,2s 66t/s 7,9GB 130s 2,9t/s 22,8x
phi3:14b 9,6GB 4,2s 55t/s 7,9GB 96s 2,7t/s 21,2x
phi3:14b-medium-4k-instruct-q6_K 12,5GB 8,9s 42t/s 11,1GB 175s 1,9t/s 21,8x
mistral:7b-instruct-v0.3-q4_0 5,4GB 2,1s 87t/s 4,1GB 36s 4,9t/s 17,8x
mistral:7b-instruct-v0.3-q8_0 8,7GB 2,3s 61t/s 7,5GB 109s 2,9t/s 21,0x
gemma:7b-instruct-v1.1-q4_0 7,4GB 1,8s 82t/s 7,5GB 25s 4,4t/s 18,6x
gemma:7b-instruct-v1.1-q6_K 9,1GB 1,6s 66t/s 7,5GB 40s 3,0t/s 22,0x

De modelprestaties zijn in de kolommen “GPU prestatie” en “CPU prestatie”.

De snelheidstoename bij het overschakelen van CPU naar GPU is in de kolom “Prestatieverschil”.

We moeten niet veel aandacht besteden aan de kolommen “duur” - deze metriek hangt af van de modelprestatie en de lengte van de gegenereerde tekst. Alle modellen genereren tekst van verschillende lengtes. Deze kolom geeft slechts indicatieve wachttijd.

Conclusie 1 - Prestatieverschil

Het verschil in snelheid tussen GPU en CPU is niet zo groot als verwacht.

Serieuze? Al die legioenen (10k+) van Ada Tensor & Cuda-kernen versus 4 Haswell-spartanen, en slechts 20 keer het verschil. Ik dacht dat het 100-1000 keer zou zijn.

Conclusie 2 - Kosten per voorspelling zijn vrijwel hetzelfde

  • deze nieuwe computer kost ongeveer 3500 AUD
  • die oude computer kost waarschijnlijk nu 200 AUD

Vanaf PCCCaseGear’s site:

pc met RTX 4080super prijs

Vanaf eBay (je zou mogelijk extra 8 GB RAM moeten toevoegen om het totaal op 16 GB te brengen - dus rondop naar 200 AUD):

Dell 9020 vanaf eBay

Je zou 20 van die oude pc’s nodig hebben om dezelfde doorvoer te krijgen, dus 200 AUD * 20 = 4000 AUD.

Conclusie 3 - Moore’s wet

Moore’s wet stelt dat de prestaties van computers elke twee jaar verdubbelen.

Intel begon met de productie van de i5-4460 in 2014. Nvidia begon met één van de RTX 4080 in 2022. De verwachte prestatiestijging zou ongeveer 16 keer moeten zijn.

Ik zou zeggen dat Moore’s wet nog steeds werkt.

Houd wel rekening met het feit dat de DELL 9020 destijds een basiswerkstation was, en de pc met RTX 4080 is nu een geavanceerde grafische/spelcomputer. Slecht iets anders gewichtssegment.