Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM-test

Volgende ronde LLM-tests

Inhoud

Niet zo lang geleden is vrijgegeven. Laten we even opschieten en test hoe Mistral Small presteert vergeleken met andere LLMs.

Vooraf hebben we al gedaan:

Auto rijdt te hard

Hoe we testen

Hier testen we de samenvattingseigenschappen van LLMS:

we hebben 40 voorbeeldteksten, en we voeren LLM uit met de Vraag en Samenvatting prompt (zoals bij perplexica )
herschikte samenvattingen met embedding modellen
het aantal juiste antwoorden gedeeld door het totaal aantal vragen geeft ons de prestaties van het model

Top 5 posities met gemiddelde % van juiste antwoorden:

Allemaal modellen hebben een goede prestatie laten zien.

Ik zou een beetje aandacht willen richten op de Mistral modellengroep. De kwaliteit van de taal is iets beter dan het gemiddelde.

Een ander punt - de kleine 3.2b model lama3.2:3b-instruct-q8_0 toont een zeer goede resultaat voor zijn grootte, en het is het snelst van allemaal.

Modelnaam, parameters, kwantificatie	Grootte	Test 1	Test 2	Gemiddeld
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75