Welke LLMs presteren het beste voor samenvatting?

In benchmarks op 40 voorbeeldteksten scoorden Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b en Llama3.2 3b in de bovenste categorie (ongeveer 79–82% correct). Zowel modelgrootte als kwantisatie beïnvloeden de resultaten.

Is Mistral Small geschikt voor samenvattingen?

Ja. Mistral Small 22b instruct (q4_0) haalde ongeveer 81% correct in samenvattingstests en wordt vaak genoteerd voor bovengemiddelde taalkwaliteit onder vergelijkbare modellen.

Zijn kleinere LLMs nuttig voor samenvatting?

Ja. Llama3.2 3b instruct (q8_0) haalde ongeveer 79% in dezelfde tests en was het snelst, waardoor kleine modellen een goede optie zijn als snelheid of resourcegebruik van belang is.

Hoe wordt de prestatie van LLM-samenvattingen gemeten?

Een veelgebruikte aanpak is het model uitvoeren op veel voorbeeldteksten met een samenvattingsprompt, daarna de juiste antwoorden scoren (bijvoorbeeld met embedding reranking) en het deel van de juiste antwoorden of het gemiddelde score rapporteren.

Waar kan ik meer informatie vinden over LLM-prestaties en benchmarks?

Ons LLM Performance hub behandelt doorstroming versus latentie, VRAM-limieten, parallelle aanvragen en benchmarks over runtime-en hardware.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM Test

Volgende ronde LLM-tests

Inhoud

Niet zo lang geleden is vrijgegeven. Laten we even op de hoogte komen en test hoe Mistral Small presteert vergeleken met andere LLMs.

Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM-prestaties: benchmarks, bottlenecks & optimalisatie.

Voordat we dat al deden:

Testen van detectie van logische fouten door nieuwe LLMs: gemma2, qwen2 en mistralNemo

Auto rijdt te hard

Hoe we testen

Hier testen we de samenvattingcapaciteiten van LLMS:

we hebben 40 voorbeeldteksten en we draaien de LLM met de Vraag en Samenvatting prompt (zoals bij perplexica het geval is)
herschikte samenvattingen met embeddingmodellen
het aantal correcte antwoorden gedeeld door het totale aantal vragen geeft ons de prestaties van het model

Testresultaat

Top 5 posities met gemiddelde % van correcte antwoorden:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Alle modellen hebben een goede prestatie laten zien.

Ik zou enige aandacht willen richten op de Mistral-modellengroep. De kwaliteit van de taal is iets beter dan het gemiddelde.

Een ander punt – de kleine 3,2b modellama3.2:3b-instruct-q8_0 toont een zeer goed resultaat voor zijn omvang, en het is het snelste van allemaal.

Gedetailleerd testresultaat

Modelnaam, parameters, kwantificatie	Grootte	Test 1	Test 2	Gemiddeld
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Voor meer benchmarks, modelkeuze en prestatieoptimalisatie, controleer ons LLM-prestaties: benchmarks, bottlenecks & optimalisatie hub.

Hoe we testen

Testresultaat

Gedetailleerd testresultaat

Nuttige links