اختبار سرعة النماذج الكبيرة للغات
لنختبر سرعة النماذج الكبيرة للغة على وحدة معالجة الرسومات (GPU) مقابل وحدة المعالجة المركزية (CPU)
مقارنة سرعة التنبؤ لعدة إصدارات من نماذج LLMs: llama3 (Meta/Facebook)، phi3 (Microsoft)، gemma (Google)، mistral (مصدر مفتوح) على وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU).
أنا أستخدم نفس النص المُعين كما في الاختبار السابق حيث قارنت جودة اكتشاف الأخطاء المنطقية لهذه النماذج LLMs.
يا إلهي، من النظرة الأولى، يبدو كل شيء مُحتملًا تمامًا: عدد كبير جدًا من الناس، وعدد قليل جدًا من المنازل.
لكنها أبدًا لا تكون بهذه البساطة، كما يجب أن يعلم وزير سابق للشؤون المنزلية.
TL;DR
على وحدة معالجة الرسومات (GPU)، تعمل نماذج LLMs بسرعة تبلغ حوالي 20 مرة أسرع، ولكن على وحدة المعالجة المركزية (CPU)، فهي لا تزال من السهل التعامل معها.
وصف معدات الاختبار
لقد قمت بتشغيل النماذج التالية من نماذج اللغة الكبيرة على حاسوبين:
- قديم مع معالج i5 من الجيل الرابع (4 نوى) (i5-4460 - تم إنتاجه في عام 2014) و
- حديث مع وحدة معالجة الرسومات RTX 4080 (تم إنتاجه في عام 2022) مع 9728 نواة CUDA و304 نواة تنسور.
نتائج الاختبار
فيما يلي النتائج:
اسم النموذج والنسخة__________ | ذاكرة GPU | مدة GPU | أداء GPU | ذاكرة الرئيسية | مدة CPU | أداء CPU | الفرق في الأداء |
---|---|---|---|---|---|---|---|
llama3:8b-instruct-q4_0 | 5.8GB | 2.1 ثانية | 80 ت/ثانية | 4.7GB | 49 ثانية | 4.6 ت/ثانية | 17.4x |
llama3:8b-instruct-q8_0 | 9.3GB | 3.4 ثانية | 56 ت/ثانية | 8.3GB | 98 ثانية | 2.7 ت/ثانية | 20.7x |
phi3:3.8b | 4.5GB | 3.6 ثانية | 98 ت/ثانية | 3.0GB | 83 ثانية | 7.2 ت/ثانية | 13.6x |
phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9 ثانية | 89 ت/ثانية | 4.6GB | 79 ثانية | 5.3 ت/ثانية | 16.8x |
phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2 ثانية | 66 ت/ثانية | 7.9GB | 130 ثانية | 2.9 ت/ثانية | 22.8x |
phi3:14b | 9.6GB | 4.2 ثانية | 55 ت/ثانية | 7.9GB | 96 ثانية | 2.7 ت/ثانية | 21.2x |
phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9 ثانية | 42 ت/ثانية | 11.1GB | 175 ثانية | 1.9 ت/ثانية | 21.8x |
mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1 ثانية | 87 ت/ثانية | 4.1GB | 36 ثانية | 4.9 ت/ثانية | 17.8x |
mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3 ثانية | 61 ت/ثانية | 7.5GB | 109 ثانية | 2.9 ت/ثانية | 21.0x |
gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8 ثانية | 82 ت/ثانية | 7.5GB | 25 ثانية | 4.4 ت/ثانية | 18.6x |
gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6 ثانية | 66 ت/ثانية | 7.5GB | 40 ثانية | 3.0 ت/ثانية | 22.0x |
أداء النموذج موجود في “أداء GPU” و"أداء CPU".
زيادة السرعة عند الانتقال من CPU إلى GPU موجودة في “الفرق في الأداء”.
لا ينبغي أن نهتم كثيرًا بالعمود “المدة” - هذه الميزة تعتمد على أداء النموذج وطول النص الناتج. كل النماذج تنتج نصوصًا بطول مختلف. هذا العمود فقط يعطي وقت الانتظار الإرشادي.
الاستنتاج 1 - الفرق في الأداء
الفرق في السرعة بين وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) ليس كبيرًا كما توقعنا.
بجد؟ كل تلك الجيوش (10k+) من نوى Ada Tensor & CUDA مقابل 4 نوى من Haswell، وفرق فقط 20 مرة. كنت أعتقد أنه سيكون 100-1000 مرة.
الاستنتاج 2 - تكلفة التنبؤ تقريبًا نفسها
- تكلفة هذا الحاسوب الجديد حوالي 3500 دولار أسترالي
- ذلك الحاسوب القديم يكلف الآن حوالي 200 دولار أسترالي
من موقع PCCCaseGear:
من موقع ebay (ربما ترغب في إضافة 8 جيجابايت إضافية من الذاكرة لتصل إلى 16 جيجابايت إجماليًا - لذا دعنا نقربه إلى 200 دولار أسترالي):
ربما تحتاج إلى 20 من هذه الحواسيب القديمة لتصل إلى نفس معدل الإنتاج، لذا 200 دولار أسترالي * 20 = 4000 دولار أسترالي.
الاستنتاج 3 - قانون مور
قانون مور يشير إلى أن أداء الحواسيب يزداد بنسبة مرتين كل عامين.
بدأ إنتاج i5-4460 من إنتل في عام 2014. بدأ إنتاج أحد RTX 4080 من نيفيديا في عام 2022. الزيادة المتوقعة في الأداء يجب أن تكون حوالي 16 مرة.
أقول إن قانون مور لا يزال يعمل.
لكن تذكر أن Dell 9020 كان في ذلك الوقت حاسوبًا أساسيًا، بينما الحاسوب مع RTX 4080 هو الآن حاسوبًا متقدمًا للرسومات/الألعاب. وزن فئات مختلفة قليلاً.
روابط مفيدة
- أداء نماذج LLM وقنوات PCIe: اعتبارات مهمة
- اكتشاف الأخطاء المنطقية باستخدام نماذج LLM
- تطبيق Android للكشف عن الأخطاء المنطقية: https://www.logical-fallacy.com/articles/detector-android-app/
- نقل نماذج Ollama إلى محرك أو مجلد مختلف
- استضافة Perplexica ذاتية - مع Ollama
- كيف يتعامل Ollama مع الطلبات المتزامنة
- اختبار: كيف يستخدم Ollama أداء وحدات المعالجة المركزية (CPU) من إنتل ووحدات المعالجة الفعالة
- مزوّجو نماذج LLM في السحابة
- مشاكل التدهور في وحدات المعالجة المركزية (CPU) من الجيل 13 و14 من إنتل
- هل Quadro RTX 5880 Ada 48GB جيد حقًا؟