م Mistral Small، Gemma 2، Qwen 2.5، Mistral Nemo، LLama3 و Phi - اختبار نماذج اللغات الكبيرة

الجولة التالية من اختبارات النماذج الكبيرة

Page content

لم تمرّ فترة طويلة منذ إصداره. دعنا ن迎头赶上 وTest how Mistral Small performs comparing to other LLMs.

قبل ذلك، قمنا بالفعل:

Car is speeding

How we test

هنا نختبر قدرات LLMS على التلخيص:

لدينا 40 نصًا نموذجيًا، ونقوم بتشغيل LLM مع محفز السؤال والتلخيص (مثلاً مثل perplexica)
يتم إعادة ترتيب الملخصات باستخدام embedding models
نسبة الإجابات الصحيحة مقسومة على عدد الأسئلة الإجمالي تعطينا أداء النموذج

الخمسة الأوائل مع نسبة متوسطة من الإجابات الصحيحة:

أظهر جميع هذه النماذج أداءً جيدًا.

أود أن أوجه بعض الانتباه إلى مجموعة نماذج Mistral. جودة اللغة أفضل قليلاً من المتوسط.

نقطة أخرى - نموذج صغير بحجم 3.2 بيتا من lama3.2:3b-instruct-q8_0 أظهر نتيجة جيدة جدًا لحجمه، وهو الأسرع بينهم جميعًا.

Model name, params, quant	Size	Test 1	Test 2	Avg
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75