Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi - Тест LLM
Следующий раунд тестов LLM
Содержимое страницы
Недавно был выпущен. Давайте посмотрим, как Mistral Small справляется по сравнению с другими LLMs тестирование производительности Mistral Small по сравнению с другими LLMs.
Ранее мы уже проводили:
- Тестирование обнаружения логических ошибок новыми LLMs: gemma2, qwen2 и mistralNemo
- Тест: лучшая LLM для Perplexica
Как мы проводим тестирование
Здесь мы тестируем способности LLMS к суммированию:
- у нас есть 40 образцов текста, и мы запускаем LLM с вопросом и промптом суммирования (аналогично perplexica способу)
- переоценка суммаризаций с помощью моделей встраивания
- количество правильных ответов, делённое на общее количество вопросов, даёт нам производительность модели
Результаты тестирования
Топ 5 мест с средним процентом правильных ответов:
- 82%: phi3 - 14b-medium-128k-instruct-q4_0
- 81%: llama3.1 - 8b-instruct-q8_0
- 81%: mistral-small - 22b-instruct-2409-q4_0
- 79%: mistral-nemo - 12b-instruct-2407-q6_K
- 79%: llama3.2 - 3b-instruct-q8_0
Все эти модели показали хорошие результаты.
Я бы обратил внимание на группу моделей Mistral. Качество языка немного лучше среднего.
Ещё один момент - небольшая модель 3.2b llama3.2:3b-instruct-q8_0 показала очень хороший результат для своего размера, и это самая быстрая из всех.
Подробные результаты тестирования
Название модели, параметры, квантование | Размер | Тест 1 | Тест 2 | Среднее |
---|---|---|---|---|
llama3.2:3b-instruct-q8_0 | 4ГБ | 80 | 79 | 79 |
llama3.1:8b-instruct-q8_0 | 9ГБ | 76 | 86 | 81 |
gemma2:27b-instruct-q3_K_S | 12ГБ | 76 | 72 | 74 |
mistral-nemo:12b-instruct-2407-q6_K | 10ГБ | 76 | 82 | 79 |
mistral-small:22b-instruct-2409-q4_0 | 12ГБ | 85 | 75 | 80 |
phi3:14b-medium-128k-instruct-q4_0 | 9ГБ | 76 | 89 | 82 |
qwen2.5:14b-instruct-q5_0 | 10ГБ | 66 | 75 | 70 |
qwen2.5:32b-instruct-q3_K_S | 14ГБ | 80 | 75 | 77 |
qwen2.5:32b-instruct-q4_0 | 18ГБ | 76 | 79 | 77 |
llama3.1:70b-instruct-q3_K_M | 34ГБ | 76 | 75 | 75 |
qwen2.5:72b-instruct-q4_1 | 45ГБ | 76 | 75 | 75 |
Полезные ссылки
- Сheat-лист Python
- Написание эффективных промптов для LLMs
- Тестирование LLMs: gemma2, qwen2 и Mistral Nemo
- Установка и настройка Ollama
- Переоценка с использованием моделей встраивания
- Сheat-лист Conda
- Сheat-лист Ollama
- Сheat-лист Docker
- Сheat-лист cURL
- Как Ollama обрабатывает параллельные запросы
- Тест: как Ollama использует производительность и эффективные ядра Intel CPU