Uji Kecepatan Model Bahasa Besar

Mari uji kecepatan LLM pada GPU versus CPU

Konten Halaman

Membandingkan kecepatan prediksi beberapa versi LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) pada CPU dan GPU.

Uji kecepatan model bahasa besar dalam mendeteksi kesalahan logis - jam tangan

Saya menggunakan teks sampel yang sama seperti dalam uji sebelumnya di mana saya membandingkan kualitas deteksi kesalahan logis dari LLMs ini.

Lihat, pada pandangan pertama, semuanya terdengar sangat masuk akal:
terlalu banyak orang, terlalu sedikit rumah.

Tapi tidak pernah sebegitu sederhana,
seperti yang seharusnya diketahui oleh mantan menteri urusan perumahan.

TL;DR

Pada GPU, LLMs berjalan sekitar 20 kali lebih cepat, tetapi pada CPU mereka masih cukup terkelola.

Deskripsi Spesifikasi Uji

Saya telah menjalankan Large Language Models berikut pada dua komputer

  • Lama dengan CPU 4-core generasi ke-4 i5 (i5-4460 - diproduksi pada 2014) dan
  • Baru dengan GPU RTX 4080 (diproduksi pada 2022) dengan 9728 CUDA core dan 304 tensor core.

Hasil Uji

Berikut adalah hasilnya:

Model_Name_Version__________ GPU RAM Durasi GPU Kinerja GPU RAM Utama Durasi CPU Kinerja CPU Perbedaan Kinerja
llama3:8b-instruct-q4_0 5,8GB 2,1s 80t/s 4,7GB 49s 4,6t/s 17,4x
llama3:8b-instruct-q8_0 9,3GB 3,4s 56t/s 8,3GB 98s 2,7t/s 20,7x
phi3:3.8b 4,5GB 3,6s 98t/s 3,0GB 83s 7,2t/s 13,6x
phi3:3.8b-mini-4k-instruct-q8_0 6,0GB 6,9s 89t/s 4,6GB 79s 5,3t/s 16,8x
phi3:3.8b-mini-instruct-4k-fp16 9,3GB 4,2s 66t/s 7,9GB 130s 2,9t/s 22,8x
phi3:14b 9,6GB 4,2s 55t/s 7,9GB 96s 2,7t/s 21,2x
phi3:14b-medium-4k-instruct-q6_K 12,5GB 8,9s 42t/s 11,1GB 175s 1,9t/s 21,8x
mistral:7b-instruct-v0.3-q4_0 5,4GB 2,1s 87t/s 4,1GB 36s 4,9t/s 17,8x
mistral:7b-instruct-v0.3-q8_0 8,7GB 2,3s 61t/s 7,5GB 109s 2,9t/s 21,0x
gemma:7b-instruct-v1.1-q4_0 7,4GB 1,8s 82t/s 7,5GB 25s 4,4t/s 18,6x
gemma:7b-instruct-v1.1-q6_K 9,1GB 1,6s 66t/s 7,5GB 40s 3,0t/s 22,0x

Kinerja model terdapat dalam kolom “Kinerja GPU” dan “Kinerja CPU”.

Peningkatan kecepatan saat beralih dari CPU ke GPU terdapat dalam kolom “Perbedaan Kinerja”.

Kita sebaiknya tidak terlalu memperhatikan kolom “durasi” - metrik ini bergantung pada kinerja model dan panjang teks yang dihasilkan. Semua model menghasilkan teks dengan panjang berbeda. Kolom ini hanya memberikan estimasi waktu tunggu.

Kesimpulan 1 - Perbedaan Kinerja

Perbedaan kecepatan antara GPU dan CPU tidak sebesar yang diperkirakan.

Serius? Semua legiun (10k+) dari inti Tensor & Cuda vs 4 Spartan Haswell, dan hanya 20 kali perbedaannya. Saya pikir akan 100-1000 kali.

Kesimpulan 2 - Biaya per prediksi hampir sama

  • harga PC baru sekitar 3500AUD
  • harga PC lama sekarang mungkin sekitar 200AUD

Dari situs PCCCaseGear:

PC dengan RTX 4080super harga

Dari eBay (kamu mungkin ingin menambahkan 8GB RAM tambahan untuk membuatnya total 16GB - jadi kita bulatkan ke 200AUD):

Dell 9020 dari eBay

Kamu mungkin membutuhkan 20 dari PC lama tersebut untuk memiliki throughput yang sama, jadi 200AUD * 20 = 4000AUD.

Kesimpulan 3 - Hukum Moore

Hukum Moore menyatakan bahwa kinerja komputer meningkat dua kali lipat setiap dua tahun.

Intel memulai produksi i5-4460 pada 2014. Nvidia memulai salah satu RTX 4080 pada 2022. Kenaikan kinerja yang diharapkan seharusnya sekitar 16 kali.

Saya akan mengatakan, hukum Moore masih berlaku.

Namun, ingatlah bahwa DELL 9020 pada masa itu adalah workstation dasar, dan PC dengan RTX 4080 sekarang adalah saya kira PC grafis/permainan tingkat lanjut. Kelas berat sedikit berbeda.

Tautan yang Berguna