م Mistral Small، Gemma 2، Qwen 2.5، Mistral Nemo، LLama3 و Phi - اختبار نماذج اللغات الكبيرة

الجولة التالية من اختبارات النماذج الكبيرة

Page content

لم تمرّ فترة طويلة منذ إصداره. دعنا ن迎头赶上 وTest how Mistral Small performs comparing to other LLMs.

قبل ذلك، قمنا بالفعل:

Car is speeding

How we test

هنا نختبر قدرات LLMS على التلخيص:

  • لدينا 40 نصًا نموذجيًا، ونقوم بتشغيل LLM مع محفز السؤال والتلخيص (مثلاً مثل perplexica)
  • يتم إعادة ترتيب الملخصات باستخدام embedding models
  • نسبة الإجابات الصحيحة مقسومة على عدد الأسئلة الإجمالي تعطينا أداء النموذج

Test Result

الخمسة الأوائل مع نسبة متوسطة من الإجابات الصحيحة:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

أظهر جميع هذه النماذج أداءً جيدًا.

أود أن أوجه بعض الانتباه إلى مجموعة نماذج Mistral. جودة اللغة أفضل قليلاً من المتوسط.

نقطة أخرى - نموذج صغير بحجم 3.2 بيتا من lama3.2:3b-instruct-q8_0 أظهر نتيجة جيدة جدًا لحجمه، وهو الأسرع بينهم جميعًا.

Detailed test result

Model name, params, quant Size Test 1 Test 2 Avg
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75