Question 1

Какие языковые модели демонстрируют наилучшие результаты в задаче суммаризации?

Accepted Answer

В бенчмарках на 40 образцах текстов модели Phi3 14b, Llama3.1 8b, Mistral Small 22b, Mistral Nemo 12b и Llama3.2 3b показали результаты в верхнем диапазоне (около 79–82% правильных ответов). Размер модели и квантование оба влияют на результаты.

Question 2

Подходит ли Mistral Small для суммирования?

Accepted Answer

Да. Mistral Small 22b instruct (q4_0) показал около 81% точности в тестах на суммирование и часто отмечается за вышесреднее качество языка среди аналогичных моделей.

Question 3

Полезны ли меньшие языковые модели для суммирования?

Accepted Answer

Да. Llama3.2 3b instruct (q8_0) показал около 79% в тех же тестах и был самым быстрым, что делает небольшие модели хорошим вариантом, когда важны скорость или использование ресурсов.

Question 4

Как измеряется производительность суммирования LLM?

Accepted Answer

Один из распространённых подходов заключается в запуске модели на множестве образцовых текстов с промптом суммирования, последующем оценке правильных ответов (например, с помощью переранжирования на основе эмбеддингов) и сообщении доли правильных ответов или среднего балла.

Question 5

Где можно найти больше информации о производительности и бенчмарках LLM?

Accepted Answer

Наш центр производительности LLM охватывает пропускную способность против задержки, ограничения VRAM, параллельные запросы и бенчмарки по различным средам выполнения и оборудованию.

Название модели, параметры, квантование	Размер	Тест 1	Тест 2	Ср.
llama3.2:3b-instruct-q8_0	4ГБ	80	79	79
llama3.1:8b-instruct-q8_0	9ГБ	76	86	81
gemma2:27b-instruct-q3_K_S	12ГБ	76	72	74
mistral-nemo:12b-instruct-2407-q6_K	10ГБ	76	82	79
mistral-small:22b-instruct-2409-q4_0	12ГБ	85	75	80
phi3:14b-medium-128k-instruct-q4_0	9ГБ	76	89	82
qwen2.5:14b-instruct-q5_0	10ГБ	66	75	70
qwen2.5:32b-instruct-q3_K_S	14ГБ	80	75	77
qwen2.5:32b-instruct-q4_0	18ГБ	76	79	77
llama3.1:70b-instruct-q3_K_M	34ГБ	76	75	75
qwen2.5:72b-instruct-q4_1	45ГБ	76	75	75

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi — тест LLM

Как мы тестируем

Результаты теста

Подробные результаты теста

Полезные ссылки