Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi - Тест LLM

Следующий раунд тестов LLM

Содержимое страницы

Недавно был выпущен. Давайте посмотрим, как Mistral Small справляется по сравнению с другими LLMs тестирование производительности Mistral Small по сравнению с другими LLMs.

Ранее мы уже проводили:

Автомобиль разгоняется

Как мы проводим тестирование

Здесь мы тестируем способности LLMS к суммированию:

  • у нас есть 40 образцов текста, и мы запускаем LLM с вопросом и промптом суммирования (аналогично perplexica способу)
  • переоценка суммаризаций с помощью моделей встраивания
  • количество правильных ответов, делённое на общее количество вопросов, даёт нам производительность модели

Результаты тестирования

Топ 5 мест с средним процентом правильных ответов:

  1. 82%: phi3 - 14b-medium-128k-instruct-q4_0
  2. 81%: llama3.1 - 8b-instruct-q8_0
  3. 81%: mistral-small - 22b-instruct-2409-q4_0
  4. 79%: mistral-nemo - 12b-instruct-2407-q6_K
  5. 79%: llama3.2 - 3b-instruct-q8_0

Все эти модели показали хорошие результаты.

Я бы обратил внимание на группу моделей Mistral. Качество языка немного лучше среднего.

Ещё один момент - небольшая модель 3.2b llama3.2:3b-instruct-q8_0 показала очень хороший результат для своего размера, и это самая быстрая из всех.

Подробные результаты тестирования

Название модели, параметры, квантование Размер Тест 1 Тест 2 Среднее
llama3.2:3b-instruct-q8_0 4ГБ 80 79 79
llama3.1:8b-instruct-q8_0 9ГБ 76 86 81
gemma2:27b-instruct-q3_K_S 12ГБ 76 72 74
mistral-nemo:12b-instruct-2407-q6_K 10ГБ 76 82 79
mistral-small:22b-instruct-2409-q4_0 12ГБ 85 75 80
phi3:14b-medium-128k-instruct-q4_0 9ГБ 76 89 82
qwen2.5:14b-instruct-q5_0 10ГБ 66 75 70
qwen2.5:32b-instruct-q3_K_S 14ГБ 80 75 77
qwen2.5:32b-instruct-q4_0 18ГБ 76 79 77
llama3.1:70b-instruct-q3_K_M 34ГБ 76 75 75
qwen2.5:72b-instruct-q4_1 45ГБ 76 75 75

Полезные ссылки