Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - LLM Test
Nästa omgång av LLM-tester
Sidinnehåll
Nyligen släpptes Mistral Small. Låt oss ta reda på och testa hur Mistral Small presterar jämfört med andra LLMs.
Tidigare gjorde vi redan:

Hur vi testar
Här testar vi sammanfattningsförmågan hos LLMs:
- vi har 40 provtexter, och vi kör LLM med Fråga och Sammanfattningsprompt (liknande perplexica sätt)
- omrankade sammanfattningar med embeddingmodeller
- antalet korrekta svar dividerat med antalet totala frågor ger oss modellens prestanda
Testresultat
Topp 5 platser med genomsnittlig % korrekta svar:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Alla dessa modeller har visat god prestanda.
Jag skulle vilja rikta lite uppmärksamhet mot Mistal-modellgruppen. Språkets kvalitet är lite bättre än genomsnittet.
Ett annat viktigt punkt - den lilla 3.2b-modellen llama3.2:3b-instruct-q8_0 visade ett mycket bra resultat för sin storlek, och det är den snabbaste av dem alla.
Detaljerade testresultat
| Modellnamn, parametrar, kvantisering | Storlek | Test 1 | Test 2 | Genomsnitt |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Användbara länkar
- Python Cheatsheet
- Skriv effektiva prompts för LLMs
- Testning av LLMs: gemma2, qwen2 och Mistral Nemo
- Installera och Konfigurera Ollama
- Omrankning med embeddingmodeller
- Conda Cheatsheet
- Ollama cheatsheet
- Docker Cheatsheet
- cURL Cheatsheet
- Hur Ollama Hanterar Parallella Förfrågningar
- Test: Hur Ollama Använder Intel CPU Prestanda och Effektiva Kärnor