Vilka LLM:er presterar bäst för sammanfattning?

I benchmarkar på 40 provtexter, såg Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b och Llama3.2 3b upp i den högsta intervallet (ungefär 79–82% korrekt). Både modellstorlek och kvantisering påverkar resultaten.

Är Mistral Small bra för sammanfattning?

Ja. Mistral Small 22b instruct (q4_0) uppnådde cirka 81 % rätt i sammanfattningstester och är ofta noterad för ovanligt hög språklig kvalitet jämfört med andra liknande modeller.

Är mindre LLM:n användbara för sammanfattning?

Ja. Llama3.2 3b instruct (q8_0) uppnådde ungefär 79% i samma tester och var snabbast, vilket gör att små modeller är en bra alternativ när hastighet eller resurshantering är viktigt.

Hur mäts prestandan för sammanfattning med hjälp av LLM?

En vanlig metod är att köra modellen på många exempeltexter med en sammanfattningsskylt, sedan bedöma de korrekta svaren (t.ex. med inbäddningsomplacering) och rapportera andelen korrekta svar eller genomsnittlig poäng.

Var kan jag hitta mer om LLM-prestanda och benchmarkar?

Vårt LLM-prestandahub täcker genomströmningshastighet mot latens, VRAM-gränser, parallella begäranden och jämförelser av prestanda över olika körningar och hårdvara.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM-test

Nästa omgång av LLM-testerna

Sidinnehåll

Inte för länge sedan släpptes. Låt oss uppdatera och
testa hur Mistral Small presterar jämfört med andra LLMs.

För mer information om genomströmningshastighet, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, halsvärk och optimering.

Före detta har vi redan gjort:

Test av logiskt fallfäldetspåverkan hos nya LLMs: gemma2, qwen2 och mistralNemo

Bil kör för fort

Hur vi testar

Här testar vi sammanfattningsevnen hos LLMS:

vi har 40 exemplar av texter, och vi kör LLM med fråge- och sammanfattningsskript (liknande till perplexica sätt)
omvärderade sammanfattningar med inbäddningsmodeller
antalet korrekta svar delat på antalet totala frågor ger oss modellens prestanda

Testresultat

Top 5 platser med genomsnittlig procentandel korrekta svar:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Alla dessa modeller har visat god prestanda.

Jag skulle vilja rikta lite uppmärksamhet mot Mistral-modellgruppen. Språkets kvalitet är lite bättre än genomsnittet.

En annan punkt - den lilla 3,2b modellen llama3.2:3b-instruct-q8_0 visade ett mycket bra resultat för sin storlek, och den är snabbast av alla.

Detaljerat testresultat

Modellnamn, parametrar, kvantifiering	Storlek	Test 1	Test 2	Genomsnitt
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

För fler benchmarkar, modellval och prestandaoptimering, se vår LLM-prestanda: Benchmarkar, halsvärk och optimering hub.

Hur vi testar

Testresultat

Detaljerat testresultat

Några användbara länkar