Выбор лучшего LLM для Perplexica

Тестирование, как Perplexica работает с различными LLM, запущенными на локальном Ollama: Llama3, Llama3.1, Hermes 3, Mistral Nemo, Mistral Large, Gemma 2, Qwen2, Phi 3 и Command-r различных квант и выбор Лучший LLM для Perplexica

lla3q4-q1_w678

Нужно сразу отметить, что это не тест и сравнение моделей сами по себе, это тест их производительности в комбинации с Perplexica. И как вы, возможно, ожидаете,

параметры запросов Perplexica и LLM, такие как температура и seed, могут изменяться
результаты поиска SearxNG могут изменяться
модель Ollama может быть обновлена

Хотя это может не быть окончательным тестом, все равно может дать вам представление о том, чего ожидать от разных моделей при их использовании с Perplexica.

TL;DR

Лучшие модели - Mistral Nemo 12b, обе квантации Q6 и Q8 показали отличные результаты. Просто не производят кнопки продолжения и выводят источники внутри. Надеюсь, это будет исправлено в какой-то из следующих версий Perplexica. Эти модели делились первым местом с qwen2-72b-instruct-q4_1. Но эта модель намного больше, около 45 ГБ, будьте осторожны.

Второе место занимает command-r-35b-v0.1-q2_K, qwen2-7b-instruct-q8_0, qwen2-72b-instruct-q2_K (будьте осторожны, эта модель не уместится в 16 ГБ VRAM) и mistral-large-122b-instruct-2407-q3_K_S (самая большая из них всех).

Третье место - это llama3.1:8b-instruct-q4_0, hermes3-8b-llama3.1-q8_0 (основан на llama3.1), llama3.1-70b-instruct-q2_K (этот тоже большой) и llama3.1-70b-instruct-q3_K_S (и этот тоже) llama3.1-70b-instruct-q4_0 (не позволяйте мне начинать на размер этого).

Claude 3.5 sonnet и Claude 3 haiku не участвуют в сравнении, поскольку они не являются самостаяющими, но я даю вам их результаты, решайте сами.

Таблица результатов, модели перечислены по алфавиту:

Название модели, параметры, квант	q1	q2	q3	Общее	Место
claude 3 haiku	0	2	0	2
claude 3.5 sonnet	2	2	2	6	not selfhosted
command-r-35b-v0.1-q2_K	2	2	1	5	2
command-r-35b-v0.1-q3_K_S	0	1	0	1
gemma2-9b-instruct-q8_0	0	0	0	0
gemma2-27b-instruct-q3_K_S	1	0	0	1
hermes3-8b-llama3.1-q8_0	1	1	2	4	3
llama3:8b-instruct-q4_0	1	0	0	1
llama3.1:8b-instruct-q4_0	1	2	1	4	3
llama3.1:8b-instruct-q6_K	1	2	0	3
llama3.1-8b-instruct-q8_0	1	1	1	3
llama3.1-70b-instruct-q2_K	2	1	1	4	3
llama3.1-70b-instruct-q3_K_S	2	1	1	4	3
llama3.1-70b-instruct-q4_0	2	2	0	4	3
mistral-nemo-12b-instruct-2407-q6_K	2	2	2	6	1
mistral-nemo-12b-instruct-2407-q8_0	2	2	2	6	1
mistral-large-122b-instruct-2407-q3_K_S	2	2	1	5	2
mixtral-8x7b-instruct-v0.1-q3_K_M	1	2	1	4	3
mixtral-8x7b-instruct-v0.1-q5_1	1	1	0	2
phi3-14b-medium-128k-instruct-q6_K	1	1	1	3
qwen2-7b-instruct-q8_0	2	2	1	5	2
qwen2-72b-instruct-q2_K	1	2	2	5	2
qwen2-72b-instruct-q3_K_S	1	2	0	3
qwen2-72b-instruct-q4_1	2	2	2	6	1

Поразительно, что Gemma 2 совсем не прошла в этом тесте.

TL;DR означает “Слишком длинно; не читал” если кто-то интересуется.

Что мы тестируем

Perplexica

это самостаяющий альтернативный Copilot, Perplexity.ai и подобным сервисам, которые выполняют минимум три шага
Запуск запроса пользователя на поисковой системе
Скачивание и фильтрация результатов поиска
Объединение результатов и их суммирование

Как мы тестируем

Мы запускаем локальную Perplexica с разными чат-моделями, но ту же модель вложений - nomic-embed-text:137m-v1.5-fp16. Эта модель вложений улучшит ответ Perplexica по сравнению с стандартной BGE/GTE small или Bert multilingual.

В этом тесте с каждой чат-моделью мы задаем Perplexica три вопроса

Опишите и сравните климатические условия Брисбена, Сиднея, Мельбурна и Перта во время каждого из четырех сезонов года
Что было тем трейд-протестом в Австралии 27 августа 2024 года?
Какое влияние пандемия COVID-19 оказал на права человека?

Мы оцениваем качество ответа Perplexica с использованием конкретной модели, отвечая на каждый из этих вопросов

0 баллов - не смог ответить правильно
1 балл - ответил правильно
2 балла - ответил правильно. бонусный балл за глубину и/или структуру

Таким образом, каждая модель может получить минимум 0 баллов, и максимум - 6 баллов.

Контекст и ожидания

Вопрос 1.
- Ответ должен содержать описание четырех сезонов в четырех городах (1 балл, если нет ошибок)
- И должен включать сравнение сезонов в этих четырех городах, а не просто независимые описания (1 балл, если нет ошибок)
- Хорошо быть открытым. Но должен быть указан Цельсий, температура - люди в этих городах используют Цельсий, даже некоторые другие могут выучить Фаренгейты и Галлоны только.
- Три города на восточном побережье, один на западном, не нужно объяснять это, но отметить все как восточные - ошибка.
- Мы ждем некоторого хорошего форматирования.
Вопрос 2.
- Вчера австралийские строительные рабочие были на огромном протесте. Модель должна выбрать правильную дату протеста.
- Правительство обвинило Союз строительных рабочих в коррупции и других плохих вещах и назначило внешнее управление
- Это означает, что управление перейдет к телу, которое должно защищать и представлять интересы рабочих
- Трейди против этого превышения власти правительства.
Вопрос 3.
- Закрытия убирают свободу передвижения
- цензура и фактчекеры - свобода слова
- И (вы знаете) автономия тела при выборе медицинских процедур без принуждения, с информированным согласием и т.д., здесь идет также ущерб ткани общества и разделение
- Чтобы получить 1 балл - ответ должен содержать как минимум два из вышеперечисленного.

Результаты теста

claude 3 haiku

q1: 0 баллов - Провал из-за ограничения скорости.

q2: 2 балла - Ответ Claude Haiku на вопрос 2 очень хорош, содержит много деталей

clh-q2_w678

q3: 0 баллов - Провал из-за ошибки 403.

Пример ответов: Perplexica с claude-haiku

Всего два балла…

claude 3.5 sonnet

q1: 2 балла - Ответ Claude 3.5 Sonnet на вопрос 1 отличный, с подробными описаниями и сравнениями

cls35-q1_w678

q2: 2 балла - Ответ claude-sonnet3.5 на вопрос 2 очень хорош, содержит все необходимые детали. Как этот ответ

cls35-q2_w678

q3: 2 балла - Ответ на вопрос о правах человека хороший. Упомянуты ткань общества и подавление. Мог бы быть лучше. Очень хороший стиль текста.

cls35-q3_w678

Пример ответов: Perplexica с claude 3.5 sonnet

command-r-35b-v0.1-q2_K

q1: 2 балла - Ответ на вопрос 1 от этой модели содержит описание, но сравнение минимальное. Дадим дополнительный 5c за “средние 20-е и низкие 30-е°C” .

cq2-q1_w678

q2: 2 балла - Ответ command-r-35b-v0.1-q2_K на вопрос 2 очень хорош, содержит все необходимые детали. Как этот ответ

cq2-q2_w678

q3: 1 балл - Ответ на вопрос о правах человека во время пандемии не очень хорош.

cq2-q3_w678

Пример ответов: Perplexica с command-r-35b-v0.1-q2_K

command-r-35b-v0.1-q3_K_S

q1: 0 баллов - Даже если эта версия command-r-35b не так сильно квантована, как предыдущая, ответ хуже. Нет температур, просто общее словообразное описание, и пропущен осень Перта?

cq3-q1_w678

q2: 1 балл - Ответ этой LLM на вопрос о протесте строителей в Австралии в порядке, но не достаточно хорош для дополнительного балла, и слишком короткий.

cq3-q2_w678

q3: 0 баллов - Ответ Perplexica на вопрос о правах человека во время пандемии с моделью command-r-35b-v0.1-q3_K_S не был хорош, как вы видите на снимке. Просто свобода ассоциации? недостаточно…

cq3-q3_w678

Пример ответов: Perplexica с command-r-35b-v0.1-q3_K_S

Что это было, command-r-35b-v0.1-q3_K_S? Плохое удача?

gemma2-9b-instruct-q8_0

Не пробуем стандартную квантовацию 4 gemma 2, сразу идем к q8.

q1: 0 баллов - Ответ Perplexica с Gemma 2 - 9b q8_0 на вопрос о климате в различных австралийских городах был неожиданно плохим. Где Перт? После второй попытки - “Извините за предыдущий ответ. Я был слишком сосредоточен на отсутствии конкретных данных о сезоне и упустил некоторые ключевые сведения в контексте. Давайте попробуем снова, используя то, что я могу собрать:…” И все равно не очень. Но ок. У него был шанс.

g29q8-q1_w678

q2: 0 баллов - Ответ на вопрос о протесте строителей в Австралии был негативным, как вы видите на снимке ниже. Серьезно? не смог найти ничего? Ах, Gemma 2, Gemma 2! После второй попытки - “Тысячи строителей протестовали в центре Мельбурна 27 августа 2024 года”. Это все?

g29q8-q2_w678

q3: 0 баллов - Ответ на вопрос о воздействии на права человека во время пандемии не был хорош, чтобы получить даже 1 балл.

g29q8-q3_w678

Пример ответов: Perplexica с gemma2-9b-instruct-q8_0

И это даже не стандартная gemma2-9b-instruct-q4_0, это q8_0.

Кандидат на удаление.

gemma2-27b-instruct-q3_K_S

q1: 1 балл - Хорошее описание и сравнение, нравится, но нет чисел температуры. Те, кто думает, что температура не является частью климата, должны поговорить с климатическими альярмистами.

g227q3s-q1_w678

q2: 0 баллов - Perplexica с Gemma 2 27B дала неправильный ответ на вопрос 2. Протест был сосредоточен на правительственном введении в внешнее управление, это правильный ответ.

g227q3s-q2_w678

q3: 0 баллов - Gemma 2 27B с Perplexica не дала того, что мы ожидали от нее. Просто “свобода выражения и собраний” - не упомянута свобода передвижения.

g227q3s-q3_w678

Пример ответов: Perplexica с gemma2-27b-instruct-q3_K_S

Удалю его тоже. Скорее всего.

hermes3-8b-llama3.1-q8_0

q1: 1 балл - Хорошее описание и сравнение, нравится, но слишком много повторений “температуры с средними высокими значениями вокруг”.

he3q8-q1_w678

q2: 1 балл - Perplexica с hermes3-8b-llama3.1-q8_0 ответила на вопрос 2 хорошо. Не идеально, но достаточно хорошо. Протест был сосредоточен на принудительном управлении, это правильный ответ. Белый - горячая ярость, да, яркие слова, почти каждый llm упоминает эти. Я бы сказал “2-” или “1+”.

he3q8-q2_w678

q3: 2 балла - Хороший ответ Perplexica - ограничение свободы передвижения, речи и собраний

he3q8-q3_w678

Пример ответов: Perplexica с hermes3-8b-llama3.1-q8_0

llama3:8b-instruct-q4_0 (llama3:latest)

q1: 1 балл - Llama3 8b от Meta вместе с Perplexica дали четкий и правильный ответ, хороший структура, но нет сравнения городов. Скриншот ответа на верху статьи.

q2: 0 баллов - Perplexica с llama3:8b не смогла найти детали этого большого протеста строителей:

lla3q4-q2_w678

q3: 0 баллов - Ответ на вопрос о правах человека слишком сильный от точки зрения ВОЗ. Почему именно SearxNG?

lla3q4-q3_w678

Пример ответов: Perplexica с llama3-8b-instruct-q4_0

llama3.1-8b-instruct-q4_0

q1: 1 балл - очень хорошая структура, даже лучше, чем у llama3-8b-instruct-q4_0, все еще нет сравнения городов :

lla31q4-q1_w678

q2: 2 балла - Хорошо. Можно было бы лучше, но все равно нравится.

lla31q4-q2_w678

q3: 1 балл - Хорошо, но недостаточно:

lla31q4-q3_w678

Пример ответов: Perplexica с llama3.1-8b-instruct-q4_0

llama3.1-8b-instruct-q6_K

q1: 1 балл - Все хорошо и четко, все еще нет сравнения городов

lla31q6-q1_w678

q2: 2 балла - Очень хорошо:

lla31q6-q2_w678

q3: 0 баллов - хорошо… почти хорошо, но все еще не.

lla31q6-q3_w678

Пример ответов: Perplexica с llama3.1-8b-instruct-q6_K

llama3.1-8b-instruct-q8_0

q1: 2 балла - Все хорошо и четко. Нет Фаренгейтов, но Цельсий в порядке. Нет сравнения городов :

lla31q8-q1_w678

q2: 1 балл - Возможно… это хорошо, но не очень.

lla31q8-q2_w678

q3: 1 балл - Первый вызов не был вовсе точным. Просто Ограничения на передвижение и собрания… Второй вызов к Perplexica с llama3.1-8b-instruct-q8_0 дал очень хороший ответ. Много хороших пунктов. Смотрите в примерах ответов. В целом даю 1 балл.

lla31q8-q3_w678

Пример ответов: Perplexica с llama3.1-8b-instruct-q8_0

llama3.1-70b-instruct-q2_K

Теперь наступает кавалерия! И не помещается в 16 ГБ GPU VRAM вовсе. Но результаты сразу лучше.

q1: 2 балла - Лучше до сих пор, у нас есть сравнение городов! :

lla3170q2-q1_w678

q2: 1 балл - Ответ правильный, но слишком краткий.

lla3170q2-q2_w678

q3: 1 балл - Лучший ответ до сих пор, но все еще не упомянута автономия тела и принуждение.

lla3170q2-q3_w678

Пример ответов: Perplexica с llama3.1-70b-instruct-q2_K

llama3.1-70b-instruct-q3_K_S

q1: 2 балла - Хороший богатый язык, очень хорошее сравнение и описание. Выбор источников также отличный.

lla3170q3s-q1_w678

q2: 1 балл - Правильный, но недостаточно хорош.

lla3170q3s-q2_w678

q3: 1 балл - Цитирование многих отчетов, как “нужно обратить внимание”, без деталей. Но упомянуты свобода передвижения и выражения. ок. Ланцет выглядит лучше, чем эти слова от Комиссара по правам человека Организации Объединенных Наций - “непропорциональное влияние на уязвимые группы”, “защита маргинализированных групп.” … Как пропорциональное влияние в порядке… как отсутствие важности защиты прав человека для всех, а не только для маргинализированных групп. Ответ лучший до сих пор. Если нет других моделей, которые соберут такой список ссылок, дам дополнительный балл.

lla3170q3s-q3_w678

Пример ответов: Perplexica с llama3.1-70b-instruct-q3_K_S

llama3.1-70b-instruct-q4_0

q1: 2 балла - Ответ модели llama3.1-70b-instruct-q4_0 на вопрос о климате четырех городов во время четырех сезонов содержит - хорошие описания с достойным качеством языка, очень хорошее сравнение и описание. Выбор источников также отличный. Ссылки в конце текста - баг.

lla3170q4-q1_w678

q2: 2 балла - Ответ Perplexica с моделью llama3.1-70b-instruct-q4_0 на вопрос о протесте строителей в Австралии заслуживает 2 баллов:

lla3170q4-q2_w678

q3: 0 баллов - Ответ содержал только воду. Огромное влияние, разрушительное влияние, далеко идущее влияние на права человека. Это не то, что мы хотели знать.

lla3170q4-q3_w678

Пример ответов: Perplexica с llama3.1-70b-instruct-q4_0

mistral-nemo-12b-instruct-2407-q6_K

q2: 2 балла - Хорошо, довольно длинное и четкое описание, резюме можно считать сравнением.

mn12q6-q1_w678

q2: 2 балла - Очень хорошее и подробное описание:

mn12q6-q2_w678

q3: 2 балла - Все как ожидалось, много деталей, очень хорошее, логичное описание.

mn12q6-q3_w678

Лучшая модель до сих пор.

Пример ответов: Perplexica с mistral-nemo-12b-instruct-2407-q6_K

!!! Mistral Nemo 12b q6 не производит кнопки вопросов для продолжения в Perplexica… и перечисляет источники как часть ответа.

mistral-nemo-12b-instruct-2407-q8_0

Эта модель не подошла хорошо с вложениями в VRAM, Ollama выдал OOM. Я использовал внутренние вложения Perplexica - BGE Small. Все равно дал мне очень хорошие результаты.

q1: 2 балла - Отличное описание и хорошее сравнение

mn12q8-q1_w678

q2: 2 балла - Очень хороший ответ:

mn12q8-q2_w678

q3: 2 балла - Ответ упоминает свободу передвижения, собрания и выражения, и ткань общества. Хорошо. Не идеально, но достаточно хорошо.

mn12q8-q3_w678

Пример ответов: Perplexica с mistral-nemo-12b-instruct-2407-q8_0

!!! Mistral Nemo 12b q8 не производит кнопки вопросов для продолжения в Perplexica… и перечисляет источники как часть ответа.

mistral-large-122b-instruct-2407-q3_K_S

Эта модель очень большая, более 50 ГБ. Я использовал внутренние вложения Perplexica - BGE Small.

q1: 2 балла - Ответ был хорош в описании по городам и двум сравнениям.

ml122q3s-q1_w678

q2: 2 балла - Отличный ответ от mistral large 122b, основная причина была спор с правительством по поводу размещения внешнего управления над союзом:

ml122q3s-q2_w678

q3: 1 балл - Ответ упоминает забастовки и ткань, недостаточно хорош для хорошего.

ml122q3s-q3_w678

Пример ответов: Perplexica с mistral-large-122b-instruct-2407-q3_K_S

mixtral-8x7b-instruct-v0.1-q3_K_M

Я использовал внутренние вложения Perplexica здесь тоже - BGE Small.

q1: 1 балл - Ответ был только в описании по городам и коротком резюме, нет структуры, нет сравнений.

mix78q3m-q1_w678

mix78q3m-q2_w678

q3: 1 балл - Ответ упоминает забастовки и ткань, недостаточно хорош для хорошего.

mix78q3m-q3_w678

Пример ответов: Perplexica с mixtral-8x7b-instruct-v0.1-q3_K_M

mixtral-8x7b-instruct-v0.1-q5_1

Я использовал внутренние вложения Perplexica здесь тоже - BGE Small.

q1: 1 балл - Подробные описания по городам и короткое резюме, немного сравнений, есть структура, повторяющиеся текстовые паттерны.

mix78q51-q1_w678

q2: 1 балл - Правительство разместило союз под внешним управлением. И затем некоторые смешения о другом протесте:

mix78q51-q2_w678

q3: 0 баллов - Ответ упоминает - официальные лица в Ухане в Китае подавляют информацию, подавляют информаторов, нарушают свободу выражения и право на здоровье. Это недостаточно для 1 балла

mix78q51-q3_w678

Не нравилось повторяющиеся фразы. Но модель довольно быстрая.

Пример ответов: Perplexica с mixtral-8x7b-instruct-v0.1-q5_1

phi3-14b-medium-128k-instruct-q6_K

Я использовал внутренние вложения Perplexica - BGE Small, как в случае с Mistral Nemo - 12b q8.

q1: 1 балл - Все хорошо, хорошее сравнение, но LLM говорит слишком много.

p3q6-q1_w678

q2: 1 балл - Результат хороший, но модель говорит слишком много вне контекста:

p3q6-q2_w678

q3: 1 балл - почти хороший, но все еще не. упоминает демократическую ткань и подавление информации.

p3q6-q3_w678

Пример ответов: Perplexica с phi3-14b-medium-128k-instruct-q6_K

qwen2-7b-instruct-q8_0

q1: 2 балла - оба C и F, подробные описания и сравнение. очень хорошо.

qw2-7bq8-q1_w678

q2: 2 балла - Хороший ответ, можно было бы лучше, но все равно хороший:

qw2-7bq8-q2_w678

q3: 1 балл - Демократическая ткань и цензура. Это хорошо, но недостаточно для 2 баллов. И слово “Результат” в ответе.

qw2-7bq8-q3_w678

Пример ответов: Perplexica с qwen2-7b-instruct-q8_0

В целом, доволен этой версией LLM.

qwen2-72b-instruct-q2_K

q1: 1 балл - хорошо, сравнение в наличии, и приятные прилагательные, но ссылки вроде [number6], возможно, это какой-то сбой?

qw2-72bq2-q1_w678

q2: 2 балла - Отличный ответ, и ссылки выглядят намного лучше. Раньше было нестабильным с ссылками.

qw2-72bq2-q2_w678

q3: 2 балла - Очень подробный резюме. Перечислены среди других свобода передвижения, доступ к информации, ограничения на медиа и приватность

qw2-72bq2-q3_w678

Пример ответов: Perplexica с qwen2-72b-instruct-q2_K

Вначале я установил 1 балл для q1 здесь, но другие два ответа были слишком хорошими, я дал второй шанс и пересмотрел вопрос 1. Второй раз он выдал четкий ответ с лучшими ссылками, но без сравнения. Поэтому, все равно получает 1 балл. Это очень неудобно.