Выбор лучшего LLM для Perplexica
Тестирование, как Perplexica работает с различными LLM, запущенными на локальном Ollama: Llama3, Llama3.1, Hermes 3, Mistral Nemo, Mistral Large, Gemma 2, Qwen2, Phi 3 и Command-r различных квант и выбор Лучший LLM для Perplexica
Нужно сразу отметить, что это не тест и сравнение моделей сами по себе, это тест их производительности в комбинации с Perplexica. И как вы, возможно, ожидаете,
- параметры запросов Perplexica и LLM, такие как температура и seed, могут изменяться
- результаты поиска SearxNG могут изменяться
- модель Ollama может быть обновлена
Хотя это может не быть окончательным тестом, все равно может дать вам представление о том, чего ожидать от разных моделей при их использовании с Perplexica.
TL;DR
Лучшие модели - Mistral Nemo 12b, обе квантации Q6 и Q8 показали отличные результаты. Просто не производят кнопки продолжения и выводят источники внутри. Надеюсь, это будет исправлено в какой-то из следующих версий Perplexica. Эти модели делились первым местом с qwen2-72b-instruct-q4_1. Но эта модель намного больше, около 45 ГБ, будьте осторожны.
Второе место занимает command-r-35b-v0.1-q2_K, qwen2-7b-instruct-q8_0, qwen2-72b-instruct-q2_K (будьте осторожны, эта модель не уместится в 16 ГБ VRAM) и mistral-large-122b-instruct-2407-q3_K_S (самая большая из них всех).
Третье место - это llama3.1:8b-instruct-q4_0, hermes3-8b-llama3.1-q8_0 (основан на llama3.1), llama3.1-70b-instruct-q2_K (этот тоже большой) и llama3.1-70b-instruct-q3_K_S (и этот тоже) llama3.1-70b-instruct-q4_0 (не позволяйте мне начинать на размер этого).
Claude 3.5 sonnet и Claude 3 haiku не участвуют в сравнении, поскольку они не являются самостаяющими, но я даю вам их результаты, решайте сами.
Таблица результатов, модели перечислены по алфавиту:
Название модели, параметры, квант | q1 | q2 | q3 | Общее | Место |
---|---|---|---|---|---|
claude 3 haiku | 0 | 2 | 0 | 2 | |
claude 3.5 sonnet | 2 | 2 | 2 | 6 | not selfhosted |
command-r-35b-v0.1-q2_K | 2 | 2 | 1 | 5 | 2 |
command-r-35b-v0.1-q3_K_S | 0 | 1 | 0 | 1 | |
gemma2-9b-instruct-q8_0 | 0 | 0 | 0 | 0 | |
gemma2-27b-instruct-q3_K_S | 1 | 0 | 0 | 1 | |
hermes3-8b-llama3.1-q8_0 | 1 | 1 | 2 | 4 | 3 |
llama3:8b-instruct-q4_0 | 1 | 0 | 0 | 1 | |
llama3.1:8b-instruct-q4_0 | 1 | 2 | 1 | 4 | 3 |
llama3.1:8b-instruct-q6_K | 1 | 2 | 0 | 3 | |
llama3.1-8b-instruct-q8_0 | 1 | 1 | 1 | 3 | |
llama3.1-70b-instruct-q2_K | 2 | 1 | 1 | 4 | 3 |
llama3.1-70b-instruct-q3_K_S | 2 | 1 | 1 | 4 | 3 |
llama3.1-70b-instruct-q4_0 | 2 | 2 | 0 | 4 | 3 |
mistral-nemo-12b-instruct-2407-q6_K | 2 | 2 | 2 | 6 | 1 |
mistral-nemo-12b-instruct-2407-q8_0 | 2 | 2 | 2 | 6 | 1 |
mistral-large-122b-instruct-2407-q3_K_S | 2 | 2 | 1 | 5 | 2 |
mixtral-8x7b-instruct-v0.1-q3_K_M | 1 | 2 | 1 | 4 | 3 |
mixtral-8x7b-instruct-v0.1-q5_1 | 1 | 1 | 0 | 2 | |
phi3-14b-medium-128k-instruct-q6_K | 1 | 1 | 1 | 3 | |
qwen2-7b-instruct-q8_0 | 2 | 2 | 1 | 5 | 2 |
qwen2-72b-instruct-q2_K | 1 | 2 | 2 | 5 | 2 |
qwen2-72b-instruct-q3_K_S | 1 | 2 | 0 | 3 | |
qwen2-72b-instruct-q4_1 | 2 | 2 | 2 | 6 | 1 |
Поразительно, что Gemma 2 совсем не прошла в этом тесте.
TL;DR означает “Слишком длинно; не читал” если кто-то интересуется.
Что мы тестируем
- это самостаяющий альтернативный Copilot, Perplexity.ai и подобным сервисам, которые выполняют минимум три шага
- Запуск запроса пользователя на поисковой системе
- Скачивание и фильтрация результатов поиска
- Объединение результатов и их суммирование
Как мы тестируем
Мы запускаем локальную Perplexica с разными чат-моделями, но ту же модель вложений - nomic-embed-text:137m-v1.5-fp16. Эта модель вложений улучшит ответ Perplexica по сравнению с стандартной BGE/GTE small или Bert multilingual.
В этом тесте с каждой чат-моделью мы задаем Perplexica три вопроса
- Опишите и сравните климатические условия Брисбена, Сиднея, Мельбурна и Перта во время каждого из четырех сезонов года
- Что было тем трейд-протестом в Австралии 27 августа 2024 года?
- Какое влияние пандемия COVID-19 оказал на права человека?
Мы оцениваем качество ответа Perplexica с использованием конкретной модели, отвечая на каждый из этих вопросов
- 0 баллов - не смог ответить правильно
- 1 балл - ответил правильно
- 2 балла - ответил правильно. бонусный балл за глубину и/или структуру
Таким образом, каждая модель может получить минимум 0 баллов, и максимум - 6 баллов.
Контекст и ожидания
-
Вопрос 1.
- Ответ должен содержать описание четырех сезонов в четырех городах (1 балл, если нет ошибок)
- И должен включать сравнение сезонов в этих четырех городах, а не просто независимые описания (1 балл, если нет ошибок)
- Хорошо быть открытым. Но должен быть указан Цельсий, температура - люди в этих городах используют Цельсий, даже некоторые другие могут выучить Фаренгейты и Галлоны только.
- Три города на восточном побережье, один на западном, не нужно объяснять это, но отметить все как восточные - ошибка.
- Мы ждем некоторого хорошего форматирования.
-
Вопрос 2.
- Вчера австралийские строительные рабочие были на огромном протесте. Модель должна выбрать правильную дату протеста.
- Правительство обвинило Союз строительных рабочих в коррупции и других плохих вещах и назначило внешнее управление
- Это означает, что управление перейдет к телу, которое должно защищать и представлять интересы рабочих
- Трейди против этого превышения власти правительства.
-
Вопрос 3.
- Закрытия убирают свободу передвижения
- цензура и фактчекеры - свобода слова
- И (вы знаете) автономия тела при выборе медицинских процедур без принуждения, с информированным согласием и т.д., здесь идет также ущерб ткани общества и разделение
- Чтобы получить 1 балл - ответ должен содержать как минимум два из вышеперечисленного.
Результаты теста
claude 3 haiku
q1: 0 баллов - Провал из-за ограничения скорости.
q2: 2 балла - Ответ Claude Haiku на вопрос 2 очень хорош, содержит много деталей
q3: 0 баллов - Провал из-за ошибки 403.
Пример ответов: Perplexica с claude-haiku
Всего два балла…
claude 3.5 sonnet
q1: 2 балла - Ответ Claude 3.5 Sonnet на вопрос 1 отличный, с подробными описаниями и сравнениями
q2: 2 балла - Ответ claude-sonnet3.5 на вопрос 2 очень хорош, содержит все необходимые детали. Как этот ответ
q3: 2 балла - Ответ на вопрос о правах человека хороший. Упомянуты ткань общества и подавление. Мог бы быть лучше. Очень хороший стиль текста.
Пример ответов: Perplexica с claude 3.5 sonnet
command-r-35b-v0.1-q2_K
q1: 2 балла - Ответ на вопрос 1 от этой модели содержит описание, но сравнение минимальное. Дадим дополнительный 5c за “средние 20-е и низкие 30-е°C” .
q2: 2 балла - Ответ command-r-35b-v0.1-q2_K на вопрос 2 очень хорош, содержит все необходимые детали. Как этот ответ
q3: 1 балл - Ответ на вопрос о правах человека во время пандемии не очень хорош.
Пример ответов: Perplexica с command-r-35b-v0.1-q2_K
command-r-35b-v0.1-q3_K_S
q1: 0 баллов - Даже если эта версия command-r-35b не так сильно квантована, как предыдущая, ответ хуже. Нет температур, просто общее словообразное описание, и пропущен осень Перта?
q2: 1 балл - Ответ этой LLM на вопрос о протесте строителей в Австралии в порядке, но не достаточно хорош для дополнительного балла, и слишком короткий.
q3: 0 баллов - Ответ Perplexica на вопрос о правах человека во время пандемии с моделью command-r-35b-v0.1-q3_K_S не был хорош, как вы видите на снимке. Просто свобода ассоциации? недостаточно…
Пример ответов: Perplexica с command-r-35b-v0.1-q3_K_S
Что это было, command-r-35b-v0.1-q3_K_S? Плохое удача?
gemma2-9b-instruct-q8_0
Не пробуем стандартную квантовацию 4 gemma 2, сразу идем к q8.
q1: 0 баллов - Ответ Perplexica с Gemma 2 - 9b q8_0 на вопрос о климате в различных австралийских городах был неожиданно плохим. Где Перт? После второй попытки - “Извините за предыдущий ответ. Я был слишком сосредоточен на отсутствии конкретных данных о сезоне и упустил некоторые ключевые сведения в контексте. Давайте попробуем снова, используя то, что я могу собрать:…” И все равно не очень. Но ок. У него был шанс.
q2: 0 баллов - Ответ на вопрос о протесте строителей в Австралии был негативным, как вы видите на снимке ниже. Серьезно? не смог найти ничего? Ах, Gemma 2, Gemma 2! После второй попытки - “Тысячи строителей протестовали в центре Мельбурна 27 августа 2024 года”. Это все?
q3: 0 баллов - Ответ на вопрос о воздействии на права человека во время пандемии не был хорош, чтобы получить даже 1 балл.
Пример ответов: Perplexica с gemma2-9b-instruct-q8_0
И это даже не стандартная gemma2-9b-instruct-q4_0, это q8_0.
Кандидат на удаление.
gemma2-27b-instruct-q3_K_S
q1: 1 балл - Хорошее описание и сравнение, нравится, но нет чисел температуры. Те, кто думает, что температура не является частью климата, должны поговорить с климатическими альярмистами.
q2: 0 баллов - Perplexica с Gemma 2 27B дала неправильный ответ на вопрос 2. Протест был сосредоточен на правительственном введении в внешнее управление, это правильный ответ.
q3: 0 баллов - Gemma 2 27B с Perplexica не дала того, что мы ожидали от нее. Просто “свобода выражения и собраний” - не упомянута свобода передвижения.
Пример ответов: Perplexica с gemma2-27b-instruct-q3_K_S
Удалю его тоже. Скорее всего.
hermes3-8b-llama3.1-q8_0
q1: 1 балл - Хорошее описание и сравнение, нравится, но слишком много повторений “температуры с средними высокими значениями вокруг”.
q2: 1 балл - Perplexica с hermes3-8b-llama3.1-q8_0 ответила на вопрос 2 хорошо. Не идеально, но достаточно хорошо. Протест был сосредоточен на принудительном управлении, это правильный ответ. Белый - горячая ярость, да, яркие слова, почти каждый llm упоминает эти. Я бы сказал “2-” или “1+”.
q3: 2 балла - Хороший ответ Perplexica - ограничение свободы передвижения, речи и собраний
Пример ответов: Perplexica с hermes3-8b-llama3.1-q8_0
llama3:8b-instruct-q4_0 (llama3:latest)
q1: 1 балл - Llama3 8b от Meta вместе с Perplexica дали четкий и правильный ответ, хороший структура, но нет сравнения городов. Скриншот ответа на верху статьи.
q2: 0 баллов - Perplexica с llama3:8b не смогла найти детали этого большого протеста строителей:
q3: 0 баллов - Ответ на вопрос о правах человека слишком сильный от точки зрения ВОЗ. Почему именно SearxNG?
Пример ответов: Perplexica с llama3-8b-instruct-q4_0
llama3.1-8b-instruct-q4_0
q1: 1 балл - очень хорошая структура, даже лучше, чем у llama3-8b-instruct-q4_0, все еще нет сравнения городов :
q2: 2 балла - Хорошо. Можно было бы лучше, но все равно нравится.
q3: 1 балл - Хорошо, но недостаточно:
Пример ответов: Perplexica с llama3.1-8b-instruct-q4_0
llama3.1-8b-instruct-q6_K
q1: 1 балл - Все хорошо и четко, все еще нет сравнения городов
q2: 2 балла - Очень хорошо:
q3: 0 баллов - хорошо… почти хорошо, но все еще не.
Пример ответов: Perplexica с llama3.1-8b-instruct-q6_K
llama3.1-8b-instruct-q8_0
q1: 2 балла - Все хорошо и четко. Нет Фаренгейтов, но Цельсий в порядке. Нет сравнения городов :
q2: 1 балл - Возможно… это хорошо, но не очень.
q3: 1 балл - Первый вызов не был вовсе точным. Просто Ограничения на передвижение и собрания… Второй вызов к Perplexica с llama3.1-8b-instruct-q8_0 дал очень хороший ответ. Много хороших пунктов. Смотрите в примерах ответов. В целом даю 1 балл.
Пример ответов: Perplexica с llama3.1-8b-instruct-q8_0
llama3.1-70b-instruct-q2_K
Теперь наступает кавалерия! И не помещается в 16 ГБ GPU VRAM вовсе. Но результаты сразу лучше.
q1: 2 балла - Лучше до сих пор, у нас есть сравнение городов! :
q2: 1 балл - Ответ правильный, но слишком краткий.
q3: 1 балл - Лучший ответ до сих пор, но все еще не упомянута автономия тела и принуждение.
Пример ответов: Perplexica с llama3.1-70b-instruct-q2_K
llama3.1-70b-instruct-q3_K_S
q1: 2 балла - Хороший богатый язык, очень хорошее сравнение и описание. Выбор источников также отличный.
q2: 1 балл - Правильный, но недостаточно хорош.
q3: 1 балл - Цитирование многих отчетов, как “нужно обратить внимание”, без деталей. Но упомянуты свобода передвижения и выражения. ок. Ланцет выглядит лучше, чем эти слова от Комиссара по правам человека Организации Объединенных Наций - “непропорциональное влияние на уязвимые группы”, “защита маргинализированных групп.” … Как пропорциональное влияние в порядке… как отсутствие важности защиты прав человека для всех, а не только для маргинализированных групп. Ответ лучший до сих пор. Если нет других моделей, которые соберут такой список ссылок, дам дополнительный балл.
Пример ответов: Perplexica с llama3.1-70b-instruct-q3_K_S
llama3.1-70b-instruct-q4_0
q1: 2 балла - Ответ модели llama3.1-70b-instruct-q4_0 на вопрос о климате четырех городов во время четырех сезонов содержит - хорошие описания с достойным качеством языка, очень хорошее сравнение и описание. Выбор источников также отличный. Ссылки в конце текста - баг.
q2: 2 балла - Ответ Perplexica с моделью llama3.1-70b-instruct-q4_0 на вопрос о протесте строителей в Австралии заслуживает 2 баллов:
q3: 0 баллов - Ответ содержал только воду. Огромное влияние, разрушительное влияние, далеко идущее влияние на права человека. Это не то, что мы хотели знать.
Пример ответов: Perplexica с llama3.1-70b-instruct-q4_0
mistral-nemo-12b-instruct-2407-q6_K
q2: 2 балла - Хорошо, довольно длинное и четкое описание, резюме можно считать сравнением.
q2: 2 балла - Очень хорошее и подробное описание:
q3: 2 балла - Все как ожидалось, много деталей, очень хорошее, логичное описание.
Лучшая модель до сих пор.
Пример ответов: Perplexica с mistral-nemo-12b-instruct-2407-q6_K
!!! Mistral Nemo 12b q6 не производит кнопки вопросов для продолжения в Perplexica… и перечисляет источники как часть ответа.
mistral-nemo-12b-instruct-2407-q8_0
Эта модель не подошла хорошо с вложениями в VRAM, Ollama выдал OOM. Я использовал внутренние вложения Perplexica - BGE Small. Все равно дал мне очень хорошие результаты.
q1: 2 балла - Отличное описание и хорошее сравнение
q2: 2 балла - Очень хороший ответ:
q3: 2 балла - Ответ упоминает свободу передвижения, собрания и выражения, и ткань общества. Хорошо. Не идеально, но достаточно хорошо.
Пример ответов: Perplexica с mistral-nemo-12b-instruct-2407-q8_0
!!! Mistral Nemo 12b q8 не производит кнопки вопросов для продолжения в Perplexica… и перечисляет источники как часть ответа.
mistral-large-122b-instruct-2407-q3_K_S
Эта модель очень большая, более 50 ГБ. Я использовал внутренние вложения Perplexica - BGE Small.
q1: 2 балла - Ответ был хорош в описании по городам и двум сравнениям.
q2: 2 балла - Отличный ответ от mistral large 122b, основная причина была спор с правительством по поводу размещения внешнего управления над союзом:
q3: 1 балл - Ответ упоминает забастовки и ткань, недостаточно хорош для хорошего.
Пример ответов: Perplexica с mistral-large-122b-instruct-2407-q3_K_S
mixtral-8x7b-instruct-v0.1-q3_K_M
Я использовал внутренние вложения Perplexica здесь тоже - BGE Small.
q1: 1 балл - Ответ был только в описании по городам и коротком резюме, нет структуры, нет сравнений.
q2: 2 балла - Отличный ответ от mistral large 122b, основная причина была спор с правительством по поводу размещения внешнего управления над союзом:
q3: 1 балл - Ответ упоминает забастовки и ткань, недостаточно хорош для хорошего.
Пример ответов: Perplexica с mixtral-8x7b-instruct-v0.1-q3_K_M
mixtral-8x7b-instruct-v0.1-q5_1
Я использовал внутренние вложения Perplexica здесь тоже - BGE Small.
q1: 1 балл - Подробные описания по городам и короткое резюме, немного сравнений, есть структура, повторяющиеся текстовые паттерны.
q2: 1 балл - Правительство разместило союз под внешним управлением. И затем некоторые смешения о другом протесте:
q3: 0 баллов - Ответ упоминает - официальные лица в Ухане в Китае подавляют информацию, подавляют информаторов, нарушают свободу выражения и право на здоровье. Это недостаточно для 1 балла
Не нравилось повторяющиеся фразы. Но модель довольно быстрая.
Пример ответов: Perplexica с mixtral-8x7b-instruct-v0.1-q5_1
phi3-14b-medium-128k-instruct-q6_K
Я использовал внутренние вложения Perplexica - BGE Small, как в случае с Mistral Nemo - 12b q8.
q1: 1 балл - Все хорошо, хорошее сравнение, но LLM говорит слишком много.
q2: 1 балл - Результат хороший, но модель говорит слишком много вне контекста:
q3: 1 балл - почти хороший, но все еще не. упоминает демократическую ткань и подавление информации.
Пример ответов: Perplexica с phi3-14b-medium-128k-instruct-q6_K
qwen2-7b-instruct-q8_0
q1: 2 балла - оба C и F, подробные описания и сравнение. очень хорошо.
q2: 2 балла - Хороший ответ, можно было бы лучше, но все равно хороший:
q3: 1 балл - Демократическая ткань и цензура. Это хорошо, но недостаточно для 2 баллов. И слово “Результат” в ответе.
Пример ответов: Perplexica с qwen2-7b-instruct-q8_0
В целом, доволен этой версией LLM.
qwen2-72b-instruct-q2_K
q1: 1 балл - хорошо, сравнение в наличии, и приятные прилагательные, но ссылки вроде [number6], возможно, это какой-то сбой?
q2: 2 балла - Отличный ответ, и ссылки выглядят намного лучше. Раньше было нестабильным с ссылками.
q3: 2 балла - Очень подробный резюме. Перечислены среди других свобода передвижения, доступ к информации, ограничения на медиа и приватность
Пример ответов: Perplexica с qwen2-72b-instruct-q2_K
Вначале я установил 1 балл для q1 здесь, но другие два ответа были слишком хорошими, я дал второй шанс и пересмотрел вопрос 1. Второй раз он выдал четкий ответ с лучшими ссылками, но без сравнения. Поэтому, все равно получает 1 балл. Это очень неудобно.
qwen2-72b-instruct-q3_K_S
q1: 1 балл - Хорошее описание, но нет сравнения?
q2: 2 балла - Отличное описание, структура и детали в qwen2-72b-instruct-q3_K_S ’s резюме
q3: 0 баллов - Все вода, но нет деталей. Большинство внимания к справедливости и уязвимым группам.
Пример ответов: Perplexica с qwen2-72b-instruct-q3_K_S
qwen2-72b-instruct-q4_1
q1: 2 балла - Модель qwen2-72b-instruct-q4_1 дала отличное описание четырех городов климатических условий с встроенным сравнением
q2: 2 балла - Не много, но эта модель дала хороший резюме Австралийского протеста строителей августа
q3: 2 балла - Отличный ответ Perplexica с qwen2-72b-instruct-q4_1. Хорошая структура и детали.
Пример ответов: Perplexica с qwen2-72b-instruct-q4_1
Полезные ссылки
Perplexica с Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi
Qwen3 Embedding & Reranker Models on Ollama: State-of-the-Art Performance