Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM Test

Nästa omgång av LLM-tester

Sidinnehåll

Nyligen släpptes Mistral Small. Låt oss ta reda på och testa hur Mistral Small presterar jämfört med andra LLMs.

Tidigare gjorde vi redan:

Bil kör snabbt

Hur vi testar

Här testar vi sammanfattningsförmågan hos LLMs:

  • vi har 40 provtexter, och vi kör LLM med Fråga och Sammanfattningsprompt (liknande perplexica sätt)
  • omrankade sammanfattningar med embeddingmodeller
  • antalet korrekta svar dividerat med antalet totala frågor ger oss modellens prestanda

Testresultat

Topp 5 platser med genomsnittlig % korrekta svar:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Alla dessa modeller har visat god prestanda.

Jag skulle vilja rikta lite uppmärksamhet mot Mistal-modellgruppen. Språkets kvalitet är lite bättre än genomsnittet.

Ett annat viktigt punkt - den lilla 3.2b-modellen llama3.2:3b-instruct-q8_0 visade ett mycket bra resultat för sin storlek, och det är den snabbaste av dem alla.

Detaljerade testresultat

Modellnamn, parametrar, kvantisering Storlek Test 1 Test 2 Genomsnitt
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

Användbara länkar