م Mistral Small، Gemma 2، Qwen 2.5، Mistral Nemo، LLama3 و Phi - اختبار نماذج اللغات الكبيرة
الجولة التالية من اختبارات النماذج الكبيرة
Page content
لم تمرّ فترة طويلة منذ إصداره. دعنا ن迎头赶上 وTest how Mistral Small performs comparing to other LLMs.
قبل ذلك، قمنا بالفعل:
How we test
هنا نختبر قدرات LLMS على التلخيص:
- لدينا 40 نصًا نموذجيًا، ونقوم بتشغيل LLM مع محفز السؤال والتلخيص (مثلاً مثل perplexica)
- يتم إعادة ترتيب الملخصات باستخدام embedding models
- نسبة الإجابات الصحيحة مقسومة على عدد الأسئلة الإجمالي تعطينا أداء النموذج
Test Result
الخمسة الأوائل مع نسبة متوسطة من الإجابات الصحيحة:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
أظهر جميع هذه النماذج أداءً جيدًا.
أود أن أوجه بعض الانتباه إلى مجموعة نماذج Mistral. جودة اللغة أفضل قليلاً من المتوسط.
نقطة أخرى - نموذج صغير بحجم 3.2 بيتا من lama3.2:3b-instruct-q8_0 أظهر نتيجة جيدة جدًا لحجمه، وهو الأسرع بينهم جميعًا.
Detailed test result
Model name, params, quant | Size | Test 1 | Test 2 | Avg |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Useful links
- Python Cheatsheet
- Writing effective prompts for LLMs
- Testing LLMs: gemma2, qwen2 and Mistral Nemo
- Install and Configure Ollama
- Reranking with embedding models
- Conda Cheatsheet
- Ollama cheatsheet
- Docker Cheatsheet
- cURL Cheatsheet
- How Ollama Handles Parallel Requests
- Test: How Ollama is using Intel CPU Performance and Efficient Cores