बड़े भाषा मॉडलों की गति परीक्षण

चलो एलईएम के ग्राफिक्स प्रोसेसर और सीपीयू पर गति का परीक्षण करते हैं।

Page content

कई LLMs के विभिन्न संस्करणों (llama3 (मेटा/फेसबुक), phi3 (माइक्रोसॉफ्ट), gemma (गूगल), mistral (ओपन स्रोत)) के पूर्वानुमान गति की तुलना: CPU और GPU पर।

बड़े भाषा मॉडलों के तार्किक अपराधों के पता लगाने की गति की परीक्षण - स्टॉप वॉच

देखो, पहली नजर में, सब कुछ बिल्कुल तार्किक लगता है:
बहुत सारे लोग, कम घर।

लेकिन यह कभी भी इतना सरल नहीं होता,
जैसा कि पूर्व घर विशेषज्ञ मंत्री को जानना चाहिए।

TL;DR

GPU पर LLMs लगभग 20 गुना तेज़ चलते हैं, लेकिन CPU पर वे अभी भी बिल्कुल व्यवस्थित हैं।

परीक्षण स्थान विवरण

मैंने निम्नलिखित बड़े भाषा मॉडलों को दो कंप्यूटर पर चलाया है

  • पुराना, 4th gen i5 4-core CPU (i5-4460 - 2014 में बनाया गया) और
  • नया, RTX 4080 GPU (2022 में बनाया गया) से लैस, 9728 CUDA कोर और 304 टेंसर कोर।

परीक्षण परिणाम

नीचे दिए गए परिणाम हैं:

मॉडल_नाम_संस्करण__________ GPU RAM GPU अवधि GPU प्रदर्शन मुख्य RAM CPU अवधि CPU प्रदर्शन प्रदर्शन अंतर
llama3:8b-instruct-q4_0 5.8GB 2.1s 80t/s 4.7GB 49s 4.6t/s 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4s 56t/s 8.3GB 98s 2.7t/s 20.7x
phi3:3.8b 4.5GB 3.6s 98t/s 3.0GB 83s 7.2t/s 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9s 89t/s 4.6GB 79s 5.3t/s 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2s 66t/s 7.9GB 130s 2.9t/s 22.8x
phi3:14b 9.6GB 4.2s 55t/s 7.9GB 96s 2.7t/s 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9s 42t/s 11.1GB 175s 1.9t/s 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1s 87t/s 4.1GB 36s 4.9t/s 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3s 61t/s 7.5GB 109s 2.9t/s 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8s 82t/s 7.5GB 25s 4.4t/s 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6s 66t/s 7.5GB 40s 3.0t/s 22.0x

मॉडल प्रदर्शन “GPU प्रदर्शन” और “CPU प्रदर्शन” स्तंभों में है।

CPU से GPU पर जाने पर गति में वृद्धि “प्रदर्शन अंतर” स्तंभ में है।

हमें “अवधि” स्तंभों पर बहुत ध्यान नहीं देना चाहिए - यह माप डेटा प्रदर्शन और उत्पादित पाठ की लंबाई पर निर्भर करता है। सभी मॉडल अलग-अलग लंबाई के पाठ उत्पन्न करते हैं। ये स्तंभ केवल इंगित करते हैं कि कितना इंतजार करना होगा।

निष्कर्ष 1 - प्रदर्शन अंतर

GPU और CPU के गति अंतर उतना बड़ा नहीं है जितना अपेक्षित था।

मजबूती से? सभी लेगियन (10k+) एडा टेंसर & कुडा कोर्स विरोधी 4 हैवेल स्पार्टन और केवल 20 गुना अंतर। मुझे लगता था कि यह 100-1000 गुना होगा।

निष्कर्ष 2 - प्रति पूर्वानुमान लागत लगभग समान है

  • इस नए कंप्यूटर की कीमत लगभग 3500AUD है
  • वह पुराना कंप्यूटर अब लगभग 200AUD लागत है

PCCCaseGear के साइट से:

RTX 4080super के साथ pc की कीमत

ईबे से (आपको शायद 8GB अतिरिक्त रैम जोड़ना चाहिए ताकि कुल 16GB हो सके - इसलिए इसे 200AUD तक बढ़ा दें):

ईबे से Dell 9020

आपको उस पुराने पीसी की 20 आवश्यकता हो सकती है ताकि वही आउटपुट हो सके, इसलिए 200AUD * 20 = 4000AUD।

निष्कर्ष 3 - मूर के कानून

मूर के कानून के अनुसार कंप्यूटर के प्रदर्शन प्रति दो वर्ष दोगुना होता है।

इंटेल ने 2014 में i5-4460 के उत्पादन शुरू किया। एनवीडिया ने एक RTX 4080 के उत्पादन 2022 में शुरू किया। अपेक्षित प्रदर्शन वृद्धि लगभग 16 गुना होनी चाहिए।

मुझे लगता है कि मूर के कानून अभी भी काम करता है।

लेकिन ध्यान रखें कि DELL 9020 एक समय में एक मूल कार्यस्थल था, और एक आधुनिक ग्राफिक्स/गेमिंग पीसी जो RTX 4080 के साथ है। थोड़ा अलग वजन वर्ग।

उपयोगी लिंक