Uji Kecepatan Model Bahasa Besar
Mari uji kecepatan LLM pada GPU versus CPU
Membandingkan kecepatan prediksi beberapa versi LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) pada CPU dan GPU.
Saya menggunakan teks sampel yang sama seperti dalam uji sebelumnya di mana saya membandingkan kualitas deteksi kesalahan logis dari LLMs ini.
Lihat, pada pandangan pertama, semuanya terdengar sangat masuk akal:
terlalu banyak orang, terlalu sedikit rumah.
Tapi tidak pernah sebegitu sederhana,
seperti yang seharusnya diketahui oleh mantan menteri urusan perumahan.
TL;DR
Pada GPU, LLMs berjalan sekitar 20 kali lebih cepat, tetapi pada CPU mereka masih cukup terkelola.
Deskripsi Spesifikasi Uji
Saya telah menjalankan Large Language Models berikut pada dua komputer
- Lama dengan CPU 4-core generasi ke-4 i5 (i5-4460 - diproduksi pada 2014) dan
- Baru dengan GPU RTX 4080 (diproduksi pada 2022) dengan 9728 CUDA core dan 304 tensor core.
Hasil Uji
Berikut adalah hasilnya:
Model_Name_Version__________ | GPU RAM | Durasi GPU | Kinerja GPU | RAM Utama | Durasi CPU | Kinerja CPU | Perbedaan Kinerja |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5,8GB | 2,1s | 80t/s | 4,7GB | 49s | 4,6t/s | 17,4x |
llama3:8b-instruct-q8_0 | 9,3GB | 3,4s | 56t/s | 8,3GB | 98s | 2,7t/s | 20,7x |
phi3:3.8b | 4,5GB | 3,6s | 98t/s | 3,0GB | 83s | 7,2t/s | 13,6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6,0GB | 6,9s | 89t/s | 4,6GB | 79s | 5,3t/s | 16,8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9,3GB | 4,2s | 66t/s | 7,9GB | 130s | 2,9t/s | 22,8x |
phi3:14b | 9,6GB | 4,2s | 55t/s | 7,9GB | 96s | 2,7t/s | 21,2x |
phi3:14b-medium-4k-instruct-q6_K | 12,5GB | 8,9s | 42t/s | 11,1GB | 175s | 1,9t/s | 21,8x |
mistral:7b-instruct-v0.3-q4_0 | 5,4GB | 2,1s | 87t/s | 4,1GB | 36s | 4,9t/s | 17,8x |
mistral:7b-instruct-v0.3-q8_0 | 8,7GB | 2,3s | 61t/s | 7,5GB | 109s | 2,9t/s | 21,0x |
gemma:7b-instruct-v1.1-q4_0 | 7,4GB | 1,8s | 82t/s | 7,5GB | 25s | 4,4t/s | 18,6x |
gemma:7b-instruct-v1.1-q6_K | 9,1GB | 1,6s | 66t/s | 7,5GB | 40s | 3,0t/s | 22,0x |
Kinerja model terdapat dalam kolom “Kinerja GPU” dan “Kinerja CPU”.
Peningkatan kecepatan saat beralih dari CPU ke GPU terdapat dalam kolom “Perbedaan Kinerja”.
Kita sebaiknya tidak terlalu memperhatikan kolom “durasi” - metrik ini bergantung pada kinerja model dan panjang teks yang dihasilkan. Semua model menghasilkan teks dengan panjang berbeda. Kolom ini hanya memberikan estimasi waktu tunggu.
Kesimpulan 1 - Perbedaan Kinerja
Perbedaan kecepatan antara GPU dan CPU tidak sebesar yang diperkirakan.
Serius? Semua legiun (10k+) dari inti Tensor & Cuda vs 4 Spartan Haswell, dan hanya 20 kali perbedaannya. Saya pikir akan 100-1000 kali.
Kesimpulan 2 - Biaya per prediksi hampir sama
- harga PC baru sekitar 3500AUD
- harga PC lama sekarang mungkin sekitar 200AUD
Dari situs PCCCaseGear:
Dari eBay (kamu mungkin ingin menambahkan 8GB RAM tambahan untuk membuatnya total 16GB - jadi kita bulatkan ke 200AUD):
Kamu mungkin membutuhkan 20 dari PC lama tersebut untuk memiliki throughput yang sama, jadi 200AUD * 20 = 4000AUD.
Kesimpulan 3 - Hukum Moore
Hukum Moore menyatakan bahwa kinerja komputer meningkat dua kali lipat setiap dua tahun.
Intel memulai produksi i5-4460 pada 2014. Nvidia memulai salah satu RTX 4080 pada 2022. Kenaikan kinerja yang diharapkan seharusnya sekitar 16 kali.
Saya akan mengatakan, hukum Moore masih berlaku.
Namun, ingatlah bahwa DELL 9020 pada masa itu adalah workstation dasar, dan PC dengan RTX 4080 sekarang adalah saya kira PC grafis/permainan tingkat lanjut. Kelas berat sedikit berbeda.
Tautan yang Berguna
- Kinerja LLM dan Jalur PCIe: Pertimbangan Penting
- Deteksi Kesalahan Logis dengan LLMs
- Aplikasi Android Detektor Kesalahan Logis: https://www.logical-fallacy.com/articles/detector-android-app/
- Pindahkan Model Ollama ke Drive atau Folder Berbeda
- Self-hosting Perplexica - dengan Ollama
- Bagaimana Ollama Mengelola Permintaan Paralel
- Uji: Bagaimana Ollama Menggunakan Kinerja dan Core Efisien CPU Intel
- Pemasok LLM di Cloud
- Masalah Degradasi pada CPU Generasi ke-13 dan ke-14 Intel
- Apakah Quadro RTX 5880 Ada 48GB Baik?