اختبار سرعة النماذج الكبيرة للغات

لنختبر سرعة النماذج الكبيرة للغة على وحدة معالجة الرسومات (GPU) مقابل وحدة المعالجة المركزية (CPU)

Page content

مقارنة سرعة التنبؤ لعدة إصدارات من نماذج LLMs: llama3 (Meta/Facebook)، phi3 (Microsoft)، gemma (Google)، mistral (مصدر مفتوح) على وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU).

اختبار سرعة نماذج اللغة الكبيرة في اكتشاف الأخطاء المنطقية - ساعة رملية

أنا أستخدم نفس النص المُعين كما في الاختبار السابق حيث قارنت جودة اكتشاف الأخطاء المنطقية لهذه النماذج LLMs.

يا إلهي، من النظرة الأولى، يبدو كل شيء مُحتملًا تمامًا: عدد كبير جدًا من الناس، وعدد قليل جدًا من المنازل.

لكنها أبدًا لا تكون بهذه البساطة، كما يجب أن يعلم وزير سابق للشؤون المنزلية.

TL;DR

على وحدة معالجة الرسومات (GPU)، تعمل نماذج LLMs بسرعة تبلغ حوالي 20 مرة أسرع، ولكن على وحدة المعالجة المركزية (CPU)، فهي لا تزال من السهل التعامل معها.

وصف معدات الاختبار

لقد قمت بتشغيل النماذج التالية من نماذج اللغة الكبيرة على حاسوبين:

قديم مع معالج i5 من الجيل الرابع (4 نوى) (i5-4460 - تم إنتاجه في عام 2014) و
حديث مع وحدة معالجة الرسومات RTX 4080 (تم إنتاجه في عام 2022) مع 9728 نواة CUDA و304 نواة تنسور.

نتائج الاختبار

فيما يلي النتائج:

اسم النموذج والنسخة__________	ذاكرة GPU	مدة GPU	أداء GPU	ذاكرة الرئيسية	مدة CPU	أداء CPU	الفرق في الأداء
llama3:8b-instruct-q4_0	5.8GB	2.1 ثانية	80 ت/ثانية	4.7GB	49 ثانية	4.6 ت/ثانية	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4 ثانية	56 ت/ثانية	8.3GB	98 ثانية	2.7 ت/ثانية	20.7x
phi3:3.8b	4.5GB	3.6 ثانية	98 ت/ثانية	3.0GB	83 ثانية	7.2 ت/ثانية	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9 ثانية	89 ت/ثانية	4.6GB	79 ثانية	5.3 ت/ثانية	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2 ثانية	66 ت/ثانية	7.9GB	130 ثانية	2.9 ت/ثانية	22.8x
phi3:14b	9.6GB	4.2 ثانية	55 ت/ثانية	7.9GB	96 ثانية	2.7 ت/ثانية	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9 ثانية	42 ت/ثانية	11.1GB	175 ثانية	1.9 ت/ثانية	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1 ثانية	87 ت/ثانية	4.1GB	36 ثانية	4.9 ت/ثانية	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3 ثانية	61 ت/ثانية	7.5GB	109 ثانية	2.9 ت/ثانية	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8 ثانية	82 ت/ثانية	7.5GB	25 ثانية	4.4 ت/ثانية	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6 ثانية	66 ت/ثانية	7.5GB	40 ثانية	3.0 ت/ثانية	22.0x

أداء النموذج موجود في “أداء GPU” و"أداء CPU".

زيادة السرعة عند الانتقال من CPU إلى GPU موجودة في “الفرق في الأداء”.

لا ينبغي أن نهتم كثيرًا بالعمود “المدة” - هذه الميزة تعتمد على أداء النموذج وطول النص الناتج. كل النماذج تنتج نصوصًا بطول مختلف. هذا العمود فقط يعطي وقت الانتظار الإرشادي.

الاستنتاج 1 - الفرق في الأداء

الفرق في السرعة بين وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) ليس كبيرًا كما توقعنا.

بجد؟ كل تلك الجيوش (10k+) من نوى Ada Tensor & CUDA مقابل 4 نوى من Haswell، وفرق فقط 20 مرة. كنت أعتقد أنه سيكون 100-1000 مرة.

الاستنتاج 2 - تكلفة التنبؤ تقريبًا نفسها

تكلفة هذا الحاسوب الجديد حوالي 3500 دولار أسترالي
ذلك الحاسوب القديم يكلف الآن حوالي 200 دولار أسترالي

من موقع PCCCaseGear:

حاسوب مع RTX 4080super سعر

من موقع ebay (ربما ترغب في إضافة 8 جيجابايت إضافية من الذاكرة لتصل إلى 16 جيجابايت إجماليًا - لذا دعنا نقربه إلى 200 دولار أسترالي):

Dell 9020 من ebay

ربما تحتاج إلى 20 من هذه الحواسيب القديمة لتصل إلى نفس معدل الإنتاج، لذا 200 دولار أسترالي * 20 = 4000 دولار أسترالي.

الاستنتاج 3 - قانون مور

قانون مور يشير إلى أن أداء الحواسيب يزداد بنسبة مرتين كل عامين.

بدأ إنتاج i5-4460 من إنتل في عام 2014. بدأ إنتاج أحد RTX 4080 من نيفيديا في عام 2022. الزيادة المتوقعة في الأداء يجب أن تكون حوالي 16 مرة.

أقول إن قانون مور لا يزال يعمل.

لكن تذكر أن Dell 9020 كان في ذلك الوقت حاسوبًا أساسيًا، بينما الحاسوب مع RTX 4080 هو الآن حاسوبًا متقدمًا للرسومات/الألعاب. وزن فئات مختلفة قليلاً.