Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM Test
Volgende ronde LLM-tests
Niet zo lang geleden is vrijgegeven. Laten we even op de hoogte komen en test hoe Mistral Small presteert vergeleken met andere LLMs.
Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM-prestaties: benchmarks, bottlenecks & optimalisatie.
Voordat we dat al deden:

Hoe we testen
Hier testen we de samenvattingcapaciteiten van LLMS:
- we hebben 40 voorbeeldteksten en we draaien de LLM met de Vraag en Samenvatting prompt (zoals bij perplexica het geval is)
- herschikte samenvattingen met embeddingmodellen
- het aantal correcte antwoorden gedeeld door het totale aantal vragen geeft ons de prestaties van het model
Testresultaat
Top 5 posities met gemiddelde % van correcte antwoorden:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Alle modellen hebben een goede prestatie laten zien.
Ik zou enige aandacht willen richten op de Mistral-modellengroep. De kwaliteit van de taal is iets beter dan het gemiddelde.
Een ander punt – de kleine 3,2b modellama3.2:3b-instruct-q8_0 toont een zeer goed resultaat voor zijn omvang, en het is het snelste van allemaal.
Gedetailleerd testresultaat
| Modelnaam, parameters, kwantificatie | Grootte | Test 1 | Test 2 | Gemiddeld |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Voor meer benchmarks, modelkeuze en prestatieoptimalisatie, controleer ons LLM-prestaties: benchmarks, bottlenecks & optimalisatie hub.