बड़े भाषा मॉडलों की गति परीक्षण

चलो एलईएम के ग्राफिक्स प्रोसेसर और सीपीयू पर गति का परीक्षण करते हैं।

Page content

कई LLMs के विभिन्न संस्करणों (llama3 (मेटा/फेसबुक), phi3 (माइक्रोसॉफ्ट), gemma (गूगल), mistral (ओपन स्रोत)) के पूर्वानुमान गति की तुलना: CPU और GPU पर।

बड़े भाषा मॉडलों के तार्किक अपराधों के पता लगाने की गति की परीक्षण - स्टॉप वॉच

देखो, पहली नजर में, सब कुछ बिल्कुल तार्किक लगता है:
बहुत सारे लोग, कम घर।

लेकिन यह कभी भी इतना सरल नहीं होता,
जैसा कि पूर्व घर विशेषज्ञ मंत्री को जानना चाहिए।

TL;DR

GPU पर LLMs लगभग 20 गुना तेज़ चलते हैं, लेकिन CPU पर वे अभी भी बिल्कुल व्यवस्थित हैं।

परीक्षण स्थान विवरण

मैंने निम्नलिखित बड़े भाषा मॉडलों को दो कंप्यूटर पर चलाया है

पुराना, 4th gen i5 4-core CPU (i5-4460 - 2014 में बनाया गया) और
नया, RTX 4080 GPU (2022 में बनाया गया) से लैस, 9728 CUDA कोर और 304 टेंसर कोर।

परीक्षण परिणाम

नीचे दिए गए परिणाम हैं:

मॉडल_नाम_संस्करण__________	GPU RAM	GPU अवधि	GPU प्रदर्शन	मुख्य RAM	CPU अवधि	CPU प्रदर्शन	प्रदर्शन अंतर
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

मॉडल प्रदर्शन “GPU प्रदर्शन” और “CPU प्रदर्शन” स्तंभों में है।

CPU से GPU पर जाने पर गति में वृद्धि “प्रदर्शन अंतर” स्तंभ में है।

हमें “अवधि” स्तंभों पर बहुत ध्यान नहीं देना चाहिए - यह माप डेटा प्रदर्शन और उत्पादित पाठ की लंबाई पर निर्भर करता है। सभी मॉडल अलग-अलग लंबाई के पाठ उत्पन्न करते हैं। ये स्तंभ केवल इंगित करते हैं कि कितना इंतजार करना होगा।

निष्कर्ष 1 - प्रदर्शन अंतर

GPU और CPU के गति अंतर उतना बड़ा नहीं है जितना अपेक्षित था।

मजबूती से? सभी लेगियन (10k+) एडा टेंसर & कुडा कोर्स विरोधी 4 हैवेल स्पार्टन और केवल 20 गुना अंतर। मुझे लगता था कि यह 100-1000 गुना होगा।

निष्कर्ष 2 - प्रति पूर्वानुमान लागत लगभग समान है

इस नए कंप्यूटर की कीमत लगभग 3500AUD है
वह पुराना कंप्यूटर अब लगभग 200AUD लागत है

PCCCaseGear के साइट से:

RTX 4080super के साथ pc की कीमत

ईबे से (आपको शायद 8GB अतिरिक्त रैम जोड़ना चाहिए ताकि कुल 16GB हो सके - इसलिए इसे 200AUD तक बढ़ा दें):

ईबे से Dell 9020

आपको उस पुराने पीसी की 20 आवश्यकता हो सकती है ताकि वही आउटपुट हो सके, इसलिए 200AUD * 20 = 4000AUD।

निष्कर्ष 3 - मूर के कानून

मूर के कानून के अनुसार कंप्यूटर के प्रदर्शन प्रति दो वर्ष दोगुना होता है।

इंटेल ने 2014 में i5-4460 के उत्पादन शुरू किया। एनवीडिया ने एक RTX 4080 के उत्पादन 2022 में शुरू किया। अपेक्षित प्रदर्शन वृद्धि लगभग 16 गुना होनी चाहिए।

मुझे लगता है कि मूर के कानून अभी भी काम करता है।

लेकिन ध्यान रखें कि DELL 9020 एक समय में एक मूल कार्यस्थल था, और एक आधुनिक ग्राफिक्स/गेमिंग पीसी जो RTX 4080 के साथ है। थोड़ा अलग वजन वर्ग।