Test prędkości modeli językowych dużych
Sprawdźmy prędkość LLM na GPU vs CPU
Porównanie prędkości przewidywania kilku wersji modeli językowych (LLM): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na procesorze (CPU) i karcie graficznej (GPU).
Używam tego samego tekstu próbki, co w poprzednim teście, gdzie porównałem jakości wykrywania błędów logicznych przez te LLM.
Spójrz, na pierwszy rzut oka wszystko brzmi doskonale rozsądnie:
za dużo ludzi, za mało domów.
Ale nigdy nie jest to tak proste,
jak powinien wiedzieć był minister spraw wewnętrznych.
TL;DR
Na GPU modele językowe działają około 20 razy szybciej, ale na CPU nadal są dość wydajne.
Opis stanowiska testowego
Uruchomiłem poniższe Modele Językowe na dwóch komputerach:
- Starszy z procesorem 4. generacji i5 4-jądra (i5-4460 - wyprodukowany w 2014 roku) i
- Nowszy z kartą graficzną RTX 4080 (wyprodukowany w 2022 roku) z 9728 rdzeniami CUDA i 304 rdzeniami tensorowymi.
Wyniki testów
Poniżej przedstawiam wyniki:
Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5,8GB | 2,1s | 80t/s | 4,7GB | 49s | 4,6t/s | 17,4x |
llama3:8b-instruct-q8_0 | 9,3GB | 3,4s | 56t/s | 8,3GB | 98s | 2,7t/s | 20,7x |
phi3:3.8b | 4,5GB | 3,6s | 98t/s | 3,0GB | 83s | 7,2t/s | 13,6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6,0GB | 6,9s | 89t/s | 4,6GB | 79s | 5,3t/s | 16,8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9,3GB | 4,2s | 66t/s | 7,9GB | 130s | 2,9t/s | 22,8x |
phi3:14b | 9,6GB | 4,2s | 55t/s | 7,9GB | 96s | 2,7t/s | 21,2x |
phi3:14b-medium-4k-instruct-q6_K | 12,5GB | 8,9s | 42t/s | 11,1GB | 175s | 1,9t/s | 21,8x |
mistral:7b-instruct-v0.3-q4_0 | 5,4GB | 2,1s | 87t/s | 4,1GB | 36s | 4,9t/s | 17,8x |
mistral:7b-instruct-v0.3-q8_0 | 8,7GB | 2,3s | 61t/s | 7,5GB | 109s | 2,9t/s | 21,0x |
gemma:7b-instruct-v1.1-q4_0 | 7,4GB | 1,8s | 82t/s | 7,5GB | 25s | 4,4t/s | 18,6x |
gemma:7b-instruct-v1.1-q6_K | 9,1GB | 1,6s | 66t/s | 7,5GB | 40s | 3,0t/s | 22,0x |
Wydajność modelu znajduje się w kolumnach “GPU performance” i “CPU performance”.
Zysk prędkości przy przechodzeniu z CPU na GPU znajduje się w kolumnie “Performance difference”.
Nie powinniśmy zbyt wiele uwagi poświęcać kolumnom “duration” - ten wskaźnik zależy od wydajności modelu i długości wygenerowanego tekstu. Wszystkie modele generują tekst różnej długości. Te kolumny tylko dają wskazówkę o czasie oczekiwania.
Wnioski 1 - Różnica wydajności
Różnica wydajności między GPU a CPU nie jest tak duża, jak się spodziewano.
Serio? Wszystkie legie (10k+) rdzeni Ada Tensor & Cuda vs 4 haszelników Haswell, i tylko 20-krotna różnica. Myślałem, że będzie to 100-1000-krotna różnica.
Wnioski 2 - Koszt na przewidywanie jest prawie taki sam
- ten nowy komputer kosztuje około 3500 AUD
- ten stary komputer kosztuje obecnie prawdopodobnie 200 AUD
Z strony PCCCaseGear:
Z ebay (możesz chcieć dodać dodatkowe 8 GB pamięci RAM, aby uzyskać 16 GB łącznie - zaokrąglmy to do 200 AUD):
Możesz potrzebować 20 takich starych komputerów, aby uzyskać taki sam przepustowość, więc 200 AUD * 20 = 4000 AUD.
Wnioski 3 - Prawo Mooresa
Prawo Mooresa mówi, że wydajność komputerów podwaja się co dwa lata.
Intel rozpoczął produkcję i5-4460 w 2014 roku. Nvidia rozpoczęła produkcję jednej z wersji RTX 4080 w 2022 roku. Oczekiwany wzrost wydajności powinien wynosić około 16 razy.
Mówiąc szczerze, prawo Mooresa nadal działa.
Ale pamiętaj, że DELL 9020 był wtedy podstawową stacją roboczą, a komputer z RTX 4080 jest teraz zaawansowanym komputerem graficznym/gamingowym. Słabo różnią się klasa wagowa.
Przydatne linki
- Wydajność LLM i Płyty PCI: Kluczowe Rozważania
- Wykrywanie błędów logicznych z użyciem LLM
- Aplikacja Android do wykrywania błędów logicznych: https://www.logical-fallacy.com/articles/detector-android-app/
- Przeniesienie modeli Ollama na inny dysk lub folder
- Samowystawianie Perplexica - z użyciem Ollama
- Jak Ollama obsługuje żądania równoległe
- Test: Jak Ollama wykorzystuje wydajność i efektywne rdzenie procesora Intel
- Dostawcy LLM w chmurze
- Problemy degradacji w 13. i 14. generacji procesorów Intel
- Czy Quadro RTX 5880 Ada 48GB jest dobry?