बड़े भाषा मॉडलों की गति परीक्षण
चलो एलईएम के ग्राफिक्स प्रोसेसर और सीपीयू पर गति का परीक्षण करते हैं।
कई LLMs के विभिन्न संस्करणों (llama3 (मेटा/फेसबुक), phi3 (माइक्रोसॉफ्ट), gemma (गूगल), mistral (ओपन स्रोत)) के पूर्वानुमान गति की तुलना: CPU और GPU पर।
देखो, पहली नजर में, सब कुछ बिल्कुल तार्किक लगता है:
बहुत सारे लोग, कम घर।
लेकिन यह कभी भी इतना सरल नहीं होता,
जैसा कि पूर्व घर विशेषज्ञ मंत्री को जानना चाहिए।
TL;DR
GPU पर LLMs लगभग 20 गुना तेज़ चलते हैं, लेकिन CPU पर वे अभी भी बिल्कुल व्यवस्थित हैं।
परीक्षण स्थान विवरण
मैंने निम्नलिखित बड़े भाषा मॉडलों को दो कंप्यूटर पर चलाया है
- पुराना, 4th gen i5 4-core CPU (i5-4460 - 2014 में बनाया गया) और
- नया, RTX 4080 GPU (2022 में बनाया गया) से लैस, 9728 CUDA कोर और 304 टेंसर कोर।
परीक्षण परिणाम
नीचे दिए गए परिणाम हैं:
मॉडल_नाम_संस्करण__________ | GPU RAM | GPU अवधि | GPU प्रदर्शन | मुख्य RAM | CPU अवधि | CPU प्रदर्शन | प्रदर्शन अंतर |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
मॉडल प्रदर्शन “GPU प्रदर्शन” और “CPU प्रदर्शन” स्तंभों में है।
CPU से GPU पर जाने पर गति में वृद्धि “प्रदर्शन अंतर” स्तंभ में है।
हमें “अवधि” स्तंभों पर बहुत ध्यान नहीं देना चाहिए - यह माप डेटा प्रदर्शन और उत्पादित पाठ की लंबाई पर निर्भर करता है। सभी मॉडल अलग-अलग लंबाई के पाठ उत्पन्न करते हैं। ये स्तंभ केवल इंगित करते हैं कि कितना इंतजार करना होगा।
निष्कर्ष 1 - प्रदर्शन अंतर
GPU और CPU के गति अंतर उतना बड़ा नहीं है जितना अपेक्षित था।
मजबूती से? सभी लेगियन (10k+) एडा टेंसर & कुडा कोर्स विरोधी 4 हैवेल स्पार्टन और केवल 20 गुना अंतर। मुझे लगता था कि यह 100-1000 गुना होगा।
निष्कर्ष 2 - प्रति पूर्वानुमान लागत लगभग समान है
- इस नए कंप्यूटर की कीमत लगभग 3500AUD है
- वह पुराना कंप्यूटर अब लगभग 200AUD लागत है
PCCCaseGear के साइट से:
ईबे से (आपको शायद 8GB अतिरिक्त रैम जोड़ना चाहिए ताकि कुल 16GB हो सके - इसलिए इसे 200AUD तक बढ़ा दें):
आपको उस पुराने पीसी की 20 आवश्यकता हो सकती है ताकि वही आउटपुट हो सके, इसलिए 200AUD * 20 = 4000AUD।
निष्कर्ष 3 - मूर के कानून
मूर के कानून के अनुसार कंप्यूटर के प्रदर्शन प्रति दो वर्ष दोगुना होता है।
इंटेल ने 2014 में i5-4460 के उत्पादन शुरू किया। एनवीडिया ने एक RTX 4080 के उत्पादन 2022 में शुरू किया। अपेक्षित प्रदर्शन वृद्धि लगभग 16 गुना होनी चाहिए।
मुझे लगता है कि मूर के कानून अभी भी काम करता है।
लेकिन ध्यान रखें कि DELL 9020 एक समय में एक मूल कार्यस्थल था, और एक आधुनिक ग्राफिक्स/गेमिंग पीसी जो RTX 4080 के साथ है। थोड़ा अलग वजन वर्ग।
उपयोगी लिंक
- LLM प्रदर्शन और PCIe चैनल: महत्वपूर्ण विचार
- तार्किक अपराध पहचानकर एंड्रॉइड एप: https://www.logical-fallacy.com/articles/detector-android-app/
- ओलामा मॉडलों को अलग ड्राइव या फोल्डर में ले जाएं
- ओलामा के साथ स्व-मेजबान परेक्सिका
- ओलामा कैसे समानांतर अनुरोधों का संचालन करता है
- परीक्षण: ओलामा कैसे इंटेल CPU प्रदर्शन और कुशल कोर्स का उपयोग करता है
- क्लाउड LLM प्रदाता
- इंटेल के 13वें और 14वें पीढ़ी के CPU में गिरावट के समस्या
- क्वाड्रो RTX 5880 एडा 48GB कुछ अच्छा है?