Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM Test

Nästa omgång av LLM-tester

Sidinnehåll

Nyligen släpptes Mistral Small. Låt oss ta reda på och testa hur Mistral Small presterar jämfört med andra LLMs.

Tidigare gjorde vi redan:

Testning av logiska fallaciers detektering av nya LLMs: gemma2, qwen2 och mistralNemo

Bil kör snabbt

Hur vi testar

Här testar vi sammanfattningsförmågan hos LLMs:

vi har 40 provtexter, och vi kör LLM med Fråga och Sammanfattningsprompt (liknande perplexica sätt)
omrankade sammanfattningar med embeddingmodeller
antalet korrekta svar dividerat med antalet totala frågor ger oss modellens prestanda

Testresultat

Topp 5 platser med genomsnittlig % korrekta svar:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Alla dessa modeller har visat god prestanda.

Jag skulle vilja rikta lite uppmärksamhet mot Mistal-modellgruppen. Språkets kvalitet är lite bättre än genomsnittet.

Ett annat viktigt punkt - den lilla 3.2b-modellen llama3.2:3b-instruct-q8_0 visade ett mycket bra resultat för sin storlek, och det är den snabbaste av dem alla.

Detaljerade testresultat

Modellnamn, parametrar, kvantisering	Storlek	Test 1	Test 2	Genomsnitt
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Hur vi testar

Testresultat

Detaljerade testresultat

Användbara länkar