Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM-test

Nästa omgång av LLM-testerna

Sidinnehåll

Inte för länge sedan släpptes. Låt oss uppdatera och
testa hur Mistral Small presterar jämfört med andra LLMs.

För mer information om genomströmningshastighet, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, halsvärk och optimering.

Före detta har vi redan gjort:

Bil kör för fort

Hur vi testar

Här testar vi sammanfattningsevnen hos LLMS:

  • vi har 40 exemplar av texter, och vi kör LLM med fråge- och sammanfattningsskript (liknande till perplexica sätt)
  • omvärderade sammanfattningar med inbäddningsmodeller
  • antalet korrekta svar delat på antalet totala frågor ger oss modellens prestanda

Testresultat

Top 5 platser med genomsnittlig procentandel korrekta svar:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Alla dessa modeller har visat god prestanda.

Jag skulle vilja rikta lite uppmärksamhet mot Mistral-modellgruppen. Språkets kvalitet är lite bättre än genomsnittet.

En annan punkt - den lilla 3,2b modellen llama3.2:3b-instruct-q8_0 visade ett mycket bra resultat för sin storlek, och den är snabbast av alla.

Detaljerat testresultat

Modellnamn, parametrar, kvantifiering Storlek Test 1 Test 2 Genomsnitt
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

För fler benchmarkar, modellval och prestandaoptimering, se vår LLM-prestanda: Benchmarkar, halsvärk och optimering hub.

Några användbara länkar