Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 i Phi – test modeli językowych dużej wielkości

Następny etap testów LLM

Page content

Nieco wcześniej wydano. Przejdźmy do rzeczy i
testuj jak Mistral Small poradzi sobie w porównaniu do innych LLM.

Przedtem już robiliśmy:

Testowanie wykrywania błędów logicznych przez nowe LLM: gemma2, qwen2 i mistralNemo

Samochód jedzie z prędkością

Jak testujemy

Tu testujemy możliwości sumaryzacji LLMS:

mamy 40 przykładów tekstów, a LLM uruchamiamy z pytaniem i promptem do sumaryzacji (przybliżone do perplexica sposobu)
ponownie sortowane sumaryzacje za pomocą modeli embeddingowych
liczba poprawnych odpowiedzi podzielona przez liczbę wszystkich pytań daje nam wydajność modelu

Wynik testu

Top 5 miejsc z średnim procentem poprawnych odpowiedzi:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Wszystkie te modele wykazały dobre wyniki.

Chciałbym zwrócić uwagę na grupę modeli Mistral. Jakość języka jest nieco lepsza niż średnia.

Inny punkt – mały model 3.2b llama3.2:3b-instruct-q8_0 wykazał bardzo dobre wyniki dla swojej wielkości, a jest najbardziej szybki spośród nich wszystkich.

Szczegółowy wynik testu

Nazwa modelu, parametry, kwantyzacja	Rozmiar	Test 1	Test 2	Średnia
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Jak testujemy

Wynik testu

Szczegółowy wynik testu

Przydatne linki