Test prędkości modeli językowych dużych

Sprawdźmy prędkość LLM na GPU vs CPU

Page content

Porównanie prędkości przewidywania kilku wersji modeli językowych (LLM): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na procesorze (CPU) i karcie graficznej (GPU).

Testowanie prędkości modeli językowych w wykrywaniu błędów logicznych - sekundówka

Używam tego samego tekstu próbki, co w poprzednim teście, gdzie porównałem jakości wykrywania błędów logicznych przez te LLM.

Spójrz, na pierwszy rzut oka wszystko brzmi doskonale rozsądnie:
za dużo ludzi, za mało domów.

Ale nigdy nie jest to tak proste,
jak powinien wiedzieć był minister spraw wewnętrznych.

TL;DR

Na GPU modele językowe działają około 20 razy szybciej, ale na CPU nadal są dość wydajne.

Opis stanowiska testowego

Uruchomiłem poniższe Modele Językowe na dwóch komputerach:

  • Starszy z procesorem 4. generacji i5 4-jądra (i5-4460 - wyprodukowany w 2014 roku) i
  • Nowszy z kartą graficzną RTX 4080 (wyprodukowany w 2022 roku) z 9728 rdzeniami CUDA i 304 rdzeniami tensorowymi.

Wyniki testów

Poniżej przedstawiam wyniki:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5,8GB 2,1s 80t/s 4,7GB 49s 4,6t/s 17,4x
llama3:8b-instruct-q8_0 9,3GB 3,4s 56t/s 8,3GB 98s 2,7t/s 20,7x
phi3:3.8b 4,5GB 3,6s 98t/s 3,0GB 83s 7,2t/s 13,6x
phi3:3.8b-mini-4k-instruct-q8_0 6,0GB 6,9s 89t/s 4,6GB 79s 5,3t/s 16,8x
phi3:3.8b-mini-instruct-4k-fp16 9,3GB 4,2s 66t/s 7,9GB 130s 2,9t/s 22,8x
phi3:14b 9,6GB 4,2s 55t/s 7,9GB 96s 2,7t/s 21,2x
phi3:14b-medium-4k-instruct-q6_K 12,5GB 8,9s 42t/s 11,1GB 175s 1,9t/s 21,8x
mistral:7b-instruct-v0.3-q4_0 5,4GB 2,1s 87t/s 4,1GB 36s 4,9t/s 17,8x
mistral:7b-instruct-v0.3-q8_0 8,7GB 2,3s 61t/s 7,5GB 109s 2,9t/s 21,0x
gemma:7b-instruct-v1.1-q4_0 7,4GB 1,8s 82t/s 7,5GB 25s 4,4t/s 18,6x
gemma:7b-instruct-v1.1-q6_K 9,1GB 1,6s 66t/s 7,5GB 40s 3,0t/s 22,0x

Wydajność modelu znajduje się w kolumnach “GPU performance” i “CPU performance”.

Zysk prędkości przy przechodzeniu z CPU na GPU znajduje się w kolumnie “Performance difference”.

Nie powinniśmy zbyt wiele uwagi poświęcać kolumnom “duration” - ten wskaźnik zależy od wydajności modelu i długości wygenerowanego tekstu. Wszystkie modele generują tekst różnej długości. Te kolumny tylko dają wskazówkę o czasie oczekiwania.

Wnioski 1 - Różnica wydajności

Różnica wydajności między GPU a CPU nie jest tak duża, jak się spodziewano.

Serio? Wszystkie legie (10k+) rdzeni Ada Tensor & Cuda vs 4 haszelników Haswell, i tylko 20-krotna różnica. Myślałem, że będzie to 100-1000-krotna różnica.

Wnioski 2 - Koszt na przewidywanie jest prawie taki sam

  • ten nowy komputer kosztuje około 3500 AUD
  • ten stary komputer kosztuje obecnie prawdopodobnie 200 AUD

Z strony PCCCaseGear:

komputer z RTX 4080super cena

Z ebay (możesz chcieć dodać dodatkowe 8 GB pamięci RAM, aby uzyskać 16 GB łącznie - zaokrąglmy to do 200 AUD):

Dell 9020 z ebay

Możesz potrzebować 20 takich starych komputerów, aby uzyskać taki sam przepustowość, więc 200 AUD * 20 = 4000 AUD.

Wnioski 3 - Prawo Mooresa

Prawo Mooresa mówi, że wydajność komputerów podwaja się co dwa lata.

Intel rozpoczął produkcję i5-4460 w 2014 roku. Nvidia rozpoczęła produkcję jednej z wersji RTX 4080 w 2022 roku. Oczekiwany wzrost wydajności powinien wynosić około 16 razy.

Mówiąc szczerze, prawo Mooresa nadal działa.

Ale pamiętaj, że DELL 9020 był wtedy podstawową stacją roboczą, a komputer z RTX 4080 jest teraz zaawansowanym komputerem graficznym/gamingowym. Słabo różnią się klasa wagowa.

Przydatne linki