Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 i Phi – test modeli językowych

Następny etap testów LLM

Page content

Nieco wcześniej wydano. Przejdźmy do sprawy i
testuj jak Mistral Small radzi sobie w porównaniu do innych LLM.

Aby dowiedzieć się więcej o przepływie danych, opóźnieniach, VRAM i wynikach testów na różnych sprzęcie i środowiskach, zobacz Wydajność LLM: Testy, Bottlenecks i Optymalizacja.

Przedtem już robiliśmy:

Samochód jedzie szybko

Jak przeprowadzamy testy

Tutaj testujemy zdolności do tworzenia streszczeń przez LLMS:

  • mamy 40 przykładowych tekstów, a LLM uruchamiamy z promptem pytania i streszczenia (przybliżony sposób do perplexica)
  • ponownie sortowane streszczenia z modelami embeddingowymi
  • liczba poprawnych odpowiedzi podzielona przez liczbę wszystkich pytań daje nam wydajność modelu

Wynik testu

Top 5 miejsc z średnim procentem poprawnych odpowiedzi:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Wszystkie te modele wykazały dobre wyniki.

Chciałbym zwrócić trochę uwagi na grupę modeli Mistral. Jakość języka jest lepsza niż przeciętna.

Inny punkt – mały model 3,2b llama3.2:3b-instruct-q8_0 wykazał bardzo dobre wyniki dla swojej wielkości, a także jest najszybszy spośród nich wszystkich.

Szczegółowy wynik testu

Nazwa modelu, parametry, kwantyzacja Wielkość Test 1 Test 2 Średnia
llama3.2:3b-instruct-q8_0 4GB 80 79 79
llama3.1:8b-instruct-q8_0 9GB 76 86 81
gemma2:27b-instruct-q3_K_S 12GB 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10GB 76 82 79
mistral-small:22b-instruct-2409-q4_0 12GB 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9GB 76 89 82
qwen2.5:14b-instruct-q5_0 10GB 66 75 70
qwen2.5:32b-instruct-q3_K_S 14GB 80 75 77
qwen2.5:32b-instruct-q4_0 18GB 76 79 77
llama3.1:70b-instruct-q3_K_M 34GB 76 75 75
qwen2.5:72b-instruct-q4_1 45GB 76 75 75

Aby zobaczyć więcej testów, wyboru modeli i optymalizacji wydajności, sprawdź nasz Wydajność LLM: Testy, Bottlenecks i Optymalizacja.

Przydatne linki