Uji Kecepatan Model Bahasa Besar

Mari uji kecepatan LLM pada GPU versus CPU

Konten Halaman

Membandingkan kecepatan prediksi beberapa versi LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) pada CPU dan GPU.

Uji kecepatan model bahasa besar dalam mendeteksi kesalahan logis - jam tangan

Saya menggunakan teks sampel yang sama seperti dalam uji sebelumnya di mana saya membandingkan kualitas deteksi kesalahan logis dari LLMs ini.

Lihat, pada pandangan pertama, semuanya terdengar sangat masuk akal:
terlalu banyak orang, terlalu sedikit rumah.

Tapi tidak pernah sebegitu sederhana,
seperti yang seharusnya diketahui oleh mantan menteri urusan perumahan.

TL;DR

Pada GPU, LLMs berjalan sekitar 20 kali lebih cepat, tetapi pada CPU mereka masih cukup terkelola.

Deskripsi Spesifikasi Uji

Saya telah menjalankan Large Language Models berikut pada dua komputer

Lama dengan CPU 4-core generasi ke-4 i5 (i5-4460 - diproduksi pada 2014) dan
Baru dengan GPU RTX 4080 (diproduksi pada 2022) dengan 9728 CUDA core dan 304 tensor core.

Hasil Uji

Berikut adalah hasilnya:

Model_Name_Version__________	GPU RAM	Durasi GPU	Kinerja GPU	RAM Utama	Durasi CPU	Kinerja CPU	Perbedaan Kinerja
llama3:8b-instruct-q4_0	5,8GB	2,1s	80t/s	4,7GB	49s	4,6t/s	17,4x
llama3:8b-instruct-q8_0	9,3GB	3,4s	56t/s	8,3GB	98s	2,7t/s	20,7x
phi3:3.8b	4,5GB	3,6s	98t/s	3,0GB	83s	7,2t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0GB	6,9s	89t/s	4,6GB	79s	5,3t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3GB	4,2s	66t/s	7,9GB	130s	2,9t/s	22,8x
phi3:14b	9,6GB	4,2s	55t/s	7,9GB	96s	2,7t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5GB	8,9s	42t/s	11,1GB	175s	1,9t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4GB	2,1s	87t/s	4,1GB	36s	4,9t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7GB	2,3s	61t/s	7,5GB	109s	2,9t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4GB	1,8s	82t/s	7,5GB	25s	4,4t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1GB	1,6s	66t/s	7,5GB	40s	3,0t/s	22,0x

Kinerja model terdapat dalam kolom “Kinerja GPU” dan “Kinerja CPU”.

Peningkatan kecepatan saat beralih dari CPU ke GPU terdapat dalam kolom “Perbedaan Kinerja”.

Kita sebaiknya tidak terlalu memperhatikan kolom “durasi” - metrik ini bergantung pada kinerja model dan panjang teks yang dihasilkan. Semua model menghasilkan teks dengan panjang berbeda. Kolom ini hanya memberikan estimasi waktu tunggu.

Kesimpulan 1 - Perbedaan Kinerja

Perbedaan kecepatan antara GPU dan CPU tidak sebesar yang diperkirakan.

Serius? Semua legiun (10k+) dari inti Tensor & Cuda vs 4 Spartan Haswell, dan hanya 20 kali perbedaannya. Saya pikir akan 100-1000 kali.

Kesimpulan 2 - Biaya per prediksi hampir sama

harga PC baru sekitar 3500AUD
harga PC lama sekarang mungkin sekitar 200AUD

Dari situs PCCCaseGear:

PC dengan RTX 4080super harga

Dari eBay (kamu mungkin ingin menambahkan 8GB RAM tambahan untuk membuatnya total 16GB - jadi kita bulatkan ke 200AUD):

Dell 9020 dari eBay

Kamu mungkin membutuhkan 20 dari PC lama tersebut untuk memiliki throughput yang sama, jadi 200AUD * 20 = 4000AUD.

Kesimpulan 3 - Hukum Moore

Hukum Moore menyatakan bahwa kinerja komputer meningkat dua kali lipat setiap dua tahun.

Intel memulai produksi i5-4460 pada 2014. Nvidia memulai salah satu RTX 4080 pada 2022. Kenaikan kinerja yang diharapkan seharusnya sekitar 16 kali.

Saya akan mengatakan, hukum Moore masih berlaku.

Namun, ingatlah bahwa DELL 9020 pada masa itu adalah workstation dasar, dan PC dengan RTX 4080 sekarang adalah saya kira PC grafis/permainan tingkat lanjut. Kelas berat sedikit berbeda.