Test prędkości modeli językowych dużych

Sprawdźmy prędkość LLM na GPU vs CPU

Page content

Porównanie prędkości przewidywania kilku wersji modeli językowych (LLM): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na procesorze (CPU) i karcie graficznej (GPU).

Testowanie prędkości modeli językowych w wykrywaniu błędów logicznych - sekundówka

Używam tego samego tekstu próbki, co w poprzednim teście, gdzie porównałem jakości wykrywania błędów logicznych przez te LLM.

Spójrz, na pierwszy rzut oka wszystko brzmi doskonale rozsądnie:
za dużo ludzi, za mało domów.

Ale nigdy nie jest to tak proste,
jak powinien wiedzieć był minister spraw wewnętrznych.

TL;DR

Na GPU modele językowe działają około 20 razy szybciej, ale na CPU nadal są dość wydajne.

Opis stanowiska testowego

Uruchomiłem poniższe Modele Językowe na dwóch komputerach:

Starszy z procesorem 4. generacji i5 4-jądra (i5-4460 - wyprodukowany w 2014 roku) i
Nowszy z kartą graficzną RTX 4080 (wyprodukowany w 2022 roku) z 9728 rdzeniami CUDA i 304 rdzeniami tensorowymi.

Wyniki testów

Poniżej przedstawiam wyniki:

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5,8GB	2,1s	80t/s	4,7GB	49s	4,6t/s	17,4x
llama3:8b-instruct-q8_0	9,3GB	3,4s	56t/s	8,3GB	98s	2,7t/s	20,7x
phi3:3.8b	4,5GB	3,6s	98t/s	3,0GB	83s	7,2t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0GB	6,9s	89t/s	4,6GB	79s	5,3t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3GB	4,2s	66t/s	7,9GB	130s	2,9t/s	22,8x
phi3:14b	9,6GB	4,2s	55t/s	7,9GB	96s	2,7t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5GB	8,9s	42t/s	11,1GB	175s	1,9t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4GB	2,1s	87t/s	4,1GB	36s	4,9t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7GB	2,3s	61t/s	7,5GB	109s	2,9t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4GB	1,8s	82t/s	7,5GB	25s	4,4t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1GB	1,6s	66t/s	7,5GB	40s	3,0t/s	22,0x

Wydajność modelu znajduje się w kolumnach “GPU performance” i “CPU performance”.

Zysk prędkości przy przechodzeniu z CPU na GPU znajduje się w kolumnie “Performance difference”.

Nie powinniśmy zbyt wiele uwagi poświęcać kolumnom “duration” - ten wskaźnik zależy od wydajności modelu i długości wygenerowanego tekstu. Wszystkie modele generują tekst różnej długości. Te kolumny tylko dają wskazówkę o czasie oczekiwania.

Wnioski 1 - Różnica wydajności

Różnica wydajności między GPU a CPU nie jest tak duża, jak się spodziewano.

Serio? Wszystkie legie (10k+) rdzeni Ada Tensor & Cuda vs 4 haszelników Haswell, i tylko 20-krotna różnica. Myślałem, że będzie to 100-1000-krotna różnica.

Wnioski 2 - Koszt na przewidywanie jest prawie taki sam

ten nowy komputer kosztuje około 3500 AUD
ten stary komputer kosztuje obecnie prawdopodobnie 200 AUD

Z strony PCCCaseGear:

komputer z RTX 4080super cena

Z ebay (możesz chcieć dodać dodatkowe 8 GB pamięci RAM, aby uzyskać 16 GB łącznie - zaokrąglmy to do 200 AUD):

Dell 9020 z ebay

Możesz potrzebować 20 takich starych komputerów, aby uzyskać taki sam przepustowość, więc 200 AUD * 20 = 4000 AUD.

Wnioski 3 - Prawo Mooresa

Prawo Mooresa mówi, że wydajność komputerów podwaja się co dwa lata.

Intel rozpoczął produkcję i5-4460 w 2014 roku. Nvidia rozpoczęła produkcję jednej z wersji RTX 4080 w 2022 roku. Oczekiwany wzrost wydajności powinien wynosić około 16 razy.

Mówiąc szczerze, prawo Mooresa nadal działa.

Ale pamiętaj, że DELL 9020 był wtedy podstawową stacją roboczą, a komputer z RTX 4080 jest teraz zaawansowanym komputerem graficznym/gamingowym. Słabo różnią się klasa wagowa.