Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM-test
Nästa omgång av LLM-testerna
Inte för länge sedan släpptes. Låt oss uppdatera och
testa hur Mistral Small presterar jämfört med andra LLMs.
För mer information om genomströmningshastighet, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, halsvärk och optimering.
Före detta har vi redan gjort:

Hur vi testar
Här testar vi sammanfattningsevnen hos LLMS:
- vi har 40 exemplar av texter, och vi kör LLM med fråge- och sammanfattningsskript (liknande till perplexica sätt)
- omvärderade sammanfattningar med inbäddningsmodeller
- antalet korrekta svar delat på antalet totala frågor ger oss modellens prestanda
Testresultat
Top 5 platser med genomsnittlig procentandel korrekta svar:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Alla dessa modeller har visat god prestanda.
Jag skulle vilja rikta lite uppmärksamhet mot Mistral-modellgruppen. Språkets kvalitet är lite bättre än genomsnittet.
En annan punkt - den lilla 3,2b modellen llama3.2:3b-instruct-q8_0 visade ett mycket bra resultat för sin storlek, och den är snabbast av alla.
Detaljerat testresultat
| Modellnamn, parametrar, kvantifiering | Storlek | Test 1 | Test 2 | Genomsnitt |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
För fler benchmarkar, modellval och prestandaoptimering, se vår LLM-prestanda: Benchmarkar, halsvärk och optimering hub.