Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 i Phi – test modeli językowych
Następny etap testów LLM
Nieco wcześniej wydano. Przejdźmy do sprawy i
testuj jak Mistral Small radzi sobie w porównaniu do innych LLM.
Aby dowiedzieć się więcej o przepływie danych, opóźnieniach, VRAM i wynikach testów na różnych sprzęcie i środowiskach, zobacz Wydajność LLM: Testy, Bottlenecks i Optymalizacja.
Przedtem już robiliśmy:

Jak przeprowadzamy testy
Tutaj testujemy zdolności do tworzenia streszczeń przez LLMS:
- mamy 40 przykładowych tekstów, a LLM uruchamiamy z promptem pytania i streszczenia (przybliżony sposób do perplexica)
- ponownie sortowane streszczenia z modelami embeddingowymi
- liczba poprawnych odpowiedzi podzielona przez liczbę wszystkich pytań daje nam wydajność modelu
Wynik testu
Top 5 miejsc z średnim procentem poprawnych odpowiedzi:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Wszystkie te modele wykazały dobre wyniki.
Chciałbym zwrócić trochę uwagi na grupę modeli Mistral. Jakość języka jest lepsza niż przeciętna.
Inny punkt – mały model 3,2b llama3.2:3b-instruct-q8_0 wykazał bardzo dobre wyniki dla swojej wielkości, a także jest najszybszy spośród nich wszystkich.
Szczegółowy wynik testu
| Nazwa modelu, parametry, kwantyzacja | Wielkość | Test 1 | Test 2 | Średnia |
|---|---|---|---|---|
| llama3.2:3b-instruct-q8_0 | 4GB | 80 | 79 | 79 |
| llama3.1:8b-instruct-q8_0 | 9GB | 76 | 86 | 81 |
| gemma2:27b-instruct-q3_K_S | 12GB | 76 | 72 | 74 |
| mistral-nemo:12b-instruct-2407-q6_K | 10GB | 76 | 82 | 79 |
| mistral-small:22b-instruct-2409-q4_0 | 12GB | 85 | 75 | 80 |
| phi3:14b-medium-128k-instruct-q4_0 | 9GB | 76 | 89 | 82 |
| qwen2.5:14b-instruct-q5_0 | 10GB | 66 | 75 | 70 |
| qwen2.5:32b-instruct-q3_K_S | 14GB | 80 | 75 | 77 |
| qwen2.5:32b-instruct-q4_0 | 18GB | 76 | 79 | 77 |
| llama3.1:70b-instruct-q3_K_M | 34GB | 76 | 75 | 75 |
| qwen2.5:72b-instruct-q4_1 | 45GB | 76 | 75 | 75 |
Aby zobaczyć więcej testów, wyboru modeli i optymalizacji wydajności, sprawdź nasz Wydajność LLM: Testy, Bottlenecks i Optymalizacja.