Które LLM najlepiej sprawdzają się przy tworzeniu streszczeń?

W testach przeprowadzonych na 40 próbkach tekstu Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b oraz Llama3.2 3b uzyskały wyniki w górnym zakresie (około 79–82% poprawnych odpowiedzi). Rozmiar modelu oraz jego kwantyzacja wpływają na wyniki.

Czy Mistral Small jest dobry do tworzenia streszczeń?

Tak. Mistral Small 22b instruct (q4_0) osiągnął około 81% poprawnych odpowiedzi w testach sumaryzacji i często jest wyróżniany za powyżej średniego poziom języka wśród porównywalnych modeli.

Czy mniejsze modele LLM są przydatne do tworzenia streszczeń?

Tak. Llama3.2 3b instruct (q8_0) osiągnął około 79% w tych samych testach i był najbardziej wydajny, co czyni małe modele dobrym wyborem, gdy ma znaczenie prędkość lub zużycie zasobów.

Jak ocenia się jakość sumaryzacji generowanej przez model LLM?

Często stosowanym podejściem jest uruchomienie modelu na wielu próbkach tekstu z użyciem promptu sumaryzującego, a następnie ocena poprawnych odpowiedzi (np. za pomocą ponownego rangowania embeddingów) i raportowanie udziały poprawnych odpowiedzi lub średniego wyniku.

Gdzie mogę znaleźć więcej informacji na temat wydajności i testów LLM?

Nasz centrum wydajności LLM obejmuje przepustowość vs. opóźnienie, limity VRAM, żądania równoległe oraz testy wydajnościowe na różnych środowiskach wykonawczych i sprzęcie.

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 i Phi – test modeli językowych

Następny etap testów LLM

Page content

Nieco wcześniej wydano. Przejdźmy do sprawy i
testuj jak Mistral Small radzi sobie w porównaniu do innych LLM.

Aby dowiedzieć się więcej o przepływie danych, opóźnieniach, VRAM i wynikach testów na różnych sprzęcie i środowiskach, zobacz Wydajność LLM: Testy, Bottlenecks i Optymalizacja.

Przedtem już robiliśmy:

Testowanie wykrywania błędnego rozumowania przez nowe LLM: gemma2, qwen2 i mistralNemo

Samochód jedzie szybko

Jak przeprowadzamy testy

Tutaj testujemy zdolności do tworzenia streszczeń przez LLMS:

mamy 40 przykładowych tekstów, a LLM uruchamiamy z promptem pytania i streszczenia (przybliżony sposób do perplexica)
ponownie sortowane streszczenia z modelami embeddingowymi
liczba poprawnych odpowiedzi podzielona przez liczbę wszystkich pytań daje nam wydajność modelu

Wynik testu

Top 5 miejsc z średnim procentem poprawnych odpowiedzi:

82%: phi3 - 14b-medium-128k-instruct-q4_0
81%: llama3.1 - 8b-instruct-q8_0
81%: mistral-small - 22b-instruct-2409-q4_0
79%: mistral-nemo - 12b-instruct-2407-q6_K
79%: llama3.2 - 3b-instruct-q8_0

Wszystkie te modele wykazały dobre wyniki.

Chciałbym zwrócić trochę uwagi na grupę modeli Mistral. Jakość języka jest lepsza niż przeciętna.

Inny punkt – mały model 3,2b llama3.2:3b-instruct-q8_0 wykazał bardzo dobre wyniki dla swojej wielkości, a także jest najszybszy spośród nich wszystkich.

Szczegółowy wynik testu

Nazwa modelu, parametry, kwantyzacja	Wielkość	Test 1	Test 2	Średnia
llama3.2:3b-instruct-q8_0	4GB	80	79	79
llama3.1:8b-instruct-q8_0	9GB	76	86	81
gemma2:27b-instruct-q3_K_S	12GB	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10GB	76	82	79
mistral-small:22b-instruct-2409-q4_0	12GB	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9GB	76	89	82
qwen2.5:14b-instruct-q5_0	10GB	66	75	70
qwen2.5:32b-instruct-q3_K_S	14GB	80	75	77
qwen2.5:32b-instruct-q4_0	18GB	76	79	77
llama3.1:70b-instruct-q3_K_M	34GB	76	75	75
qwen2.5:72b-instruct-q4_1	45GB	76	75	75

Aby zobaczyć więcej testów, wyboru modeli i optymalizacji wydajności, sprawdź nasz Wydajność LLM: Testy, Bottlenecks i Optymalizacja.

Jak przeprowadzamy testy

Wynik testu

Szczegółowy wynik testu

Przydatne linki