Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM Test

Volgende ronde LLM-tests

Inhoud

Niet zo lang geleden is vrijgegeven. Laten we even op de hoogte komen en test hoe Mistral Small presteert vergeleken met andere LLMs.

Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM-prestaties: benchmarks, bottlenecks & optimalisatie.

Voordat we dat al deden:

Auto rijdt te hard

Hoe we testen

Hier testen we de samenvattingcapaciteiten van LLMS:

  • we hebben 40 voorbeeldteksten en we draaien de LLM met de Vraag en Samenvatting prompt (zoals bij perplexica het geval is)
  • herschikte samenvattingen met embeddingmodellen
  • het aantal correcte antwoorden gedeeld door het totale aantal vragen geeft ons de prestaties van het model

Testresultaat

Top 5 posities met gemiddelde % van correcte antwoorden:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Alle modellen hebben een goede prestatie laten zien.

Ik zou enige aandacht willen richten op de Mistral-modellengroep. De kwaliteit van de taal is iets beter dan het gemiddelde.

Een ander punt – de kleine 3,2b modellama3.2:3b-instruct-q8_0 toont een zeer goed resultaat voor zijn omvang, en het is het snelste van allemaal.

Gedetailleerd testresultaat

Modelnaam, parameters, kwantificatie Grootte Test 1 Test 2 Gemiddeld
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

Voor meer benchmarks, modelkeuze en prestatieoptimalisatie, controleer ons LLM-prestaties: benchmarks, bottlenecks & optimalisatie hub.