Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM-test
Volgende ronde LLM-tests
Inhoud
Niet zo lang geleden is vrijgegeven. Laten we even opschieten en test hoe Mistral Small presteert vergeleken met andere LLMs.
Vooraf hebben we al gedaan:
Hoe we testen
Hier testen we de samenvattingseigenschappen van LLMS:
- we hebben 40 voorbeeldteksten, en we voeren LLM uit met de Vraag en Samenvatting prompt (zoals bij perplexica )
- herschikte samenvattingen met embedding modellen
- het aantal juiste antwoorden gedeeld door het totaal aantal vragen geeft ons de prestaties van het model
Testresultaten
Top 5 posities met gemiddelde % van juiste antwoorden:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Allemaal modellen hebben een goede prestatie laten zien.
Ik zou een beetje aandacht willen richten op de Mistral modellengroep. De kwaliteit van de taal is iets beter dan het gemiddelde.
Een ander punt - de kleine 3.2b model lama3.2:3b-instruct-q8_0 toont een zeer goede resultaat voor zijn grootte, en het is het snelst van allemaal.
Gedetailleerde testresultaten
Modelnaam, parameters, kwantificatie | Grootte | Test 1 | Test 2 | Gemiddeld |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Nuttige links
- Python Cheat Sheet
- Effectief schrijven van prompts voor LLMs
- Testen van LLMs: gemma2, qwen2 en Mistral Nemo
- Installeer en configureer Ollama
- Herschikken met embedding modellen
- Conda Cheat Sheet
- Ollama Cheat Sheet
- Docker Cheat Sheet
- cURL Cheat Sheet
- Hoe Ollama Parallel Requests behandelt
- Test: Hoe Ollama Intel CPU prestaties en Efficient Cores gebruikt