Gemma2 против Qwen2 против Mistral Nemo против...

Тестирование обнаружения логических ошибок

Содержимое страницы

Недавно мы наблюдали выход нескольких новых LLM. Возбуждающие времена. Давайте протестируем и увидим, как они справляются с обнаружением логических ошибок.

Презентация mistral nemo

Что и как мы делаем

В предыдущем тесте мы уже проверяли, как LLM обнаруживают логические ошибки - llama3 против phi3 и других. Они делают это довольно хорошо, мы оценили результаты llama3-8b-Q8 и phi3-medium-4k-instruct-q6_K.

В этом тесте мы делаем то же самое, используя Gemma2, Qwen2 и Mistral Nemo.

Мы тестируем лучшие модели, но они должны соответствовать нашим ограничениям - они должны помещаться в наш consumer-grade GPU, который имеет 16 ГБ видеопамяти. Учитывая это, мы выбрали следующие квантовые версии:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

и эту версию qwen2:

  • qwen2:72b-instruct-q2_K

У неё размер 29 ГБ, но давайте проверим её всё равно.

Обратите внимание, здесь мы не используем ‘default’ квантование q4. Если q8 помещается в 16 ГБ видеопамяти нашего GPU - мы выбираем его, пытаясь сделать наилучшее в наших условиях.

DT;DR: Результат

Ранее протестированные модели Обнаружение логических ошибок с помощью LLM. Пожалуйста, посмотрите в этом посте, что мы тестировали и сейчас.

Вот обновлённая таблица, где наши новые модели выделены жирным.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8ГБ V V V V V V
l3:8b-i-q8_0 9.1ГБ V V V V V V
l3:8b-i-fp16 9.1ГБ V V V V V
p3:3.8b 4.3ГБ V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8ГБ V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9ГБ V V V V V V
p3:14b 9.3ГБ V V V V
p3:14b-m-4k-i-q6_K 12.5ГБ V V V V V V
p3:14b-m-4k-i-q8_0 15.3ГБ V V V V V
mi:7b-i-v0.3-q4_0 4.3ГБ V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6ГБ V V V V V V
mi:7b-i-v0.3-fp16 14.7ГБ V V V
ge:7b-i-v1.1-q4_0 7.2ГБ V V V V
ge:7b-i-v1.1-q6_K 9.1ГБ V V V V V
ge:7b-i-v1.1-fp16 15.5ГБ V V V V V
qw:14b-chat-v1.5-q8_0 15.2ГБ V V V V V
qw:7b-chat-v1.5-fp16 15.5ГБ V V V V
qw:32b-chat-v1.5-q3_K_S 15.1ГБ V V V V
qw:32b-chat-v1.5-q3_K_M 15.4ГБ V V V V V V V V
ge2:9b-i-q8_0 9.0ГБ V V V V
ge2:27b-i-q3_K_L 14.0ГБ V V V
mi-nemo:12b-i-.q8_0 13.0ГБ V V V V
qw2:7b-i-q8_0 8.1ГБ V V V V V V
qw2:72b-i-q2_K 29.0ГБ V V V

Сокращения в названиях логических ошибок: A 2 CS=Обращение к общему смыслу

Сокращения в названиях моделей:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

Упрощение=Ложное разделение

Заключение

Мы ожидаем, что LLM найдут в тексте образца логическую ошибку Strawman, Ad Hominem, Обращение к авторитету и Упрощение.

Большинство новых моделей могут обнаружить в нашем тексте Обращение к авторитету, и некоторые видят Ad Hominem, некоторые Упрощение. Хорошие результаты показали qwen2:7b-instruct-q8_0 и gemma2:9b-instruct-q8_0.

Однако, победители остаются теми же.

Модель “Рекомендация редакции” - phi3:14b-medium-4k-instruct-q6_K. Она легко помещается в 16 ГБ ОЗУ, и довольно умна. Второе место - phi3:3.8b-mini-4k-instruct-q8_0. Группа моделей llama3 также хороша.

Mistral Nemo

Давайте сначала рассмотрим результаты Mistral Nemo, даже если они не лучшие, потому что у них есть красивый робот на изображении.

Mistral nemo 12b

Модель: mistral-nemo:12b-instruct-2407-q8_0

Ответ:

Фраза, которую вы предоставили, содержит две основные логические ошибки:

  1. Обращение к авторитету (Argumentum ad Verecundiam): Говорящий обращается к авторитету бывшего министра внутренних дел, не предоставив никаких конкретных аргументов или доказательств от этого человека. Они просто предполагают, что потому что этот человек занимал определённую должность, его мнение должно быть принято как действительное.

    • Ошибка: “как бывший министр внутренних дел должен знать.”
  2. Красный флажок (Irrelevant Conclusion): Говорящий начинает с представления, казалось бы, разумного аргумента (“слишком много людей, недостаточно домов”), но затем отбрасывает его без предоставления каких-либо контраргументов или доказательств. Вместо этого они обращаются к авторитету бывшего министра.

    • Ошибка: “Смотрите, на первый взгляд, всё звучит совершенно разумно: слишком много людей, недостаточно домов. Но никогда не бывает так просто…”

Хотя фраза не использует явно эмоциональные слова, обращение к авторитету и ошибки красного флажка всё ещё могут считаться формами обращения к эмоциям в более широком смысле, поскольку они пытаются убедить слушателя на основе факторов, отличных от рационального обоснования.


На основе фразы, которую вы предоставили, присутствуют несколько логических ошибок:

  1. Ad Hominem: Это атака, направленная на самого человека, делающего аргумент, а не на аргумент. В данном случае подразумевается, что потому что говорящий имеет опыт бывшего министра внутренних дел, он должен знать, что вещи не так просты. Фраза предполагает, что его непонимание (или, возможно, непонимание) связано с его предыдущей должностью, а не с адресацией сущности аргумента.

  2. Обращение к сложности: Эта ошибка возникает, когда кто-то использует сложность как оправдание для того, чтобы не глубоко думать об определённом вопросе или для того, чтобы игнорировать доказательства или рассуждения, которые противоречат своей позиции. В этом контексте “никогда не бывает так просто” может рассматриваться как способ игнорировать исходный аргумент без фактического рассмотрения его достоинств.

Хотя в самой фразе нет явного обращения к эмоциям, использование ошибок, таких как Ad Hominem и Обращение к сложности, может иногда тонко обращаться к эмоциям, таким как пренебрежение или раздражение по отношению к чрезмерно упрощённым аргументам. Однако это не прямые обращения к эмоциям в том же смысле, что и утверждение вроде “Вы должны согласиться, потому что вы будете чувствовать себя плохо, если не согласитесь”.

Итак, хотя в этой фразе действительно присутствуют логические ошибки, они не являются явными эмоциональными обращениями.

Gemma 2 - 9b

Логотип Gemma 2

Модель: gemma2:9b-instruct-q8_0

Ответ:

Фраза “Смотрите, на первый взгляд, всё звучит совершенно разумно: слишком много людей, недостаточно домов. Но никогда не бывает так просто, как бывший министр внутренних дел должен знать” содержит несколько логических ошибок:

  • Обращение к авторитету: Фраза опирается на воспринимаемую авторитетность “бывшего министра внутренних дел”, чтобы отвергнуть исходный аргумент. Говорящий предполагает, что потому что человек занимал должность власти, его мнение автоматически имеет больший вес. Эта ошибка игнорирует возможность того, что министр может быть неправ, или что его экспертиза не относится к этой конкретной ситуации.

  • Pooh-Pooh: Фраза “никогда не бывает так просто” отвергает исходный аргумент без предоставления каких-либо реальных контраргументов или доказательств. Это отрицательное утверждение, которое стремится закрыть разговор, а не взаимодействовать с представленными идеями.

Пожалуйста, дайте мне знать, если вы хотите изучить другие примеры логических ошибок!


Фраза “Смотрите, на первый взгляд, всё звучит совершенно разумно: слишком много людей, недостаточно домов. Но никогда не бывает так просто, как бывший министр внутренних дел должен знать” содержит несколько логических ошибок:

  • Обращение к авторитету: Фраза подразумевает, что потому что говорящий упоминает “бывшего министра внутренних дел”, его мнение имеет больший вес. Это предполагает, что быть бывшим министром автоматически даёт экспертизу по этому конкретному вопросу.

  • Pooh-Pooh: Фраза “никогда не бывает так просто” может рассматриваться как форма pooh-poohing исходного аргумента. Она отвергает прямую логику без предоставления существенных контраргументов или изучения сложностей.

Пожалуйста, дайте мне знать, если вы хотите проанализировать другие фразы или аргументы на наличие ошибок!

Gemma 2 - 27b

Модель: gemma2:27b-instruct-q3_K_L

Ответ:

Фраза “Но никогда не бывает так просто, как бывший министр внутренних дел должен знать” использует обращение к авторитету.

Вот почему:

  • Она предполагает экспертизу: Утверждение подразумевает, что потому что человек является бывшим министром внутренних дел, он автоматически имеет специальные знания о сложных социальных вопросах, таких как нехватка жилья.
  • Экспертиза не всегда релевантна: Хотя бывший министр может иметь некоторый опыт в жилищной политике, его опыт не обязательно делает его экспертом по всем факторам, влияющим на нехватку жилья.

Фраза пытается отвергнуть потенциально действительный аргумент (“слишком много людей, недостаточно домов”) просто потому, что он исходит от человека, воспринимаемого как не имеющий экспертизы в этой области.

Пожалуйста, дайте мне знать, если у вас есть другие фразы, которые вы хотите проанализировать!


Фраза содержит несколько элементов, похожих на логические ошибки, хотя и не является прямым случаем:

  • Обращение к авторитету (Слабое): “как бывший министр внутренних дел должен знать.” Это пытается придать вес аргументу, ссылаясь на предыдущую авторитетность говорящего. Однако это слабо, потому что не предоставляет никакой конкретной экспертизы или рассуждений министра, подтверждающих его позицию.

  • Ad Hominem (Потенциальное): В зависимости от контекста и тона, фраза может рассматриваться как ad hominem, если её цель - дискредитировать аргумент, исходящий от кого-то, просто потому, кто это делает, а не потому, что содержание аргумента. Например, если утверждение подразумевает, что человек не способен понимать жилищную политику потому что он был министром, это будет ad hominem.

Важное примечание: Без дополнительного контекста о том, что именно утверждал человек и общий тон, трудно однозначно классифицировать эти примеры как сильные случаи ошибок.

Пожалуйста, дайте мне знать, если у вас есть другие фразы, которые вы хотите, чтобы я проанализировал!

Qwen 2 - 7b

Логотип Qwen 2

Модель: qwen2:7b-instruct-q8_0

Ответ:

Фраза, которую вы предоставили, содержит несколько логических ошибок:

  1. Обращение к эмоциям (Argumentum ad Passiones): Утверждение “Смотрите, на первый взгляд, всё звучит совершенно разумно” пытается вызвать чувство разумности и простоты в уме слушателя без предоставления существенных доказательств или аргументации.
  2. Красный флажок: Упоминая, что “бывший министр внутренних дел должен знать”, говорящий вводит несущественный пункт (знания конкретного человека) для отвлечения внимания от основного вопроса, потенциально вводя слушателей в заблуждение, что знания этого человека релевантны, когда они могут не быть.
  3. Обращение к авторитету: Хотя это не указано явно в этой фразе, если кто-то утверждает, что “бывший министр внутренних дел” знает что-то потому, что он был министром, они совершают ошибку обращения к авторитету, предполагая, что его должность даёт экспертизу по делу без предоставления доказательств его конкретного знания или аргумента.

Эти логические ошибки могут ослабить силу аргумента, обращаясь к эмоциям вместо логики и релевантности.


Фраза, которую вы предоставили:

“Смотрите, на первый взгляд, всё звучит совершенно разумно: слишком много людей, недостаточно домов. Но никогда не бывает так просто, как бывший министр внутренних дел должен знать.”

не содержит ни одной из логических ошибок, указанных в вашем списке, относящихся к обращению к эмоциям. Однако, некоторые потенциальные логические ошибки могут быть:

  • Ad Hominem, если эта цитата используется как атака против конкретного человека (‘бывший министр внутренних дел’) вместо адресации его аргумента.
  • Красный флажок: Может быть попыткой отвлечь внимание от исходного вопроса или аргументов, упоминая несущественные темы, хотя в предложении, которое вы предоставили, явного красного флажка не наблюдается.

Также есть другие ошибки, не упомянутые под ‘Обращение к эмоциям’, такие как:

  • Ложное разделение: Представление сложного вопроса в простых двоичных терминах, где он не может быть адекватно обсуждён. Предложение, которое вы предоставили, не подразумевает эту ошибку.
  • Обращение к авторитету: Использование мнения или идентичности кого-то известного вместо действительных доказательств для поддержки аргумента. Не применимо в вашей цитате, поскольку ни один авторитет не упомянут.

Пожалуйста, уточните, если вы имели в виду другую конкретную фразу для анализа под обращение к эмоциям, и мы с радостью поможем с этим.

Qwen 2 - 72b

Я знаю, что это перегрузка не из нашей категории, но просто любопытно…

Модель: qwen2:72b-instruct-q2_K

Ответ:

Предоставленная фраза не содержит прямого обращения к эмоциям, как определено в списке логических ошибок. Однако она подразумевает потенциальную логическую ошибку, известную как “Обращение к авторитету” или “Аргумент от авторитета”. Это потому, что говорящий предполагает, что бывший министр внутренних дел должен знать лучше, предполагая, что его авторитет на данном предмете делает его мнение более действительным.

Фраза не использует напрямую эмоциональное обращение, но использует авторитет бывшего министра внутренних дел, предполагаемое знание, как способ подорвать простоту аргумента, который приводится. Это можно увидеть в структуре предложения: “Но никогда не бывает так просто, как бывший министр внутренних дел должен знать.”

В кратце:

  • Логическая ошибка, присутствующая: Обращение к авторитету
  • Определение: Обращение к авторитету происходит, когда утверждение считается истинным на основе достоинства или экспертизы человека, делающего утверждение, а не на основе силы доказательства.
  • Пример в фразе: “как бывший министр внутренних дел должен знать” подразумевает, что мнение человека с таким опытом имеет больший вес и может использоваться для отвержения более простых объяснений.

Фраза, которую вы предоставили, не обязательно вызывает конкретную эмоциональную реакцию; она обращается к знаниям и опыту слушателя, предполагая, что простые объяснения часто не рассказывают полную историю. Однако, если мы проанализируем её на потенциальное эмоциональное обращение:

Обращение к авторитету: Оно косвенно ссылается на “бывшего министра внутренних дел”, который должен знать лучше, чем принимать простые объяснения. Это может рассматриваться как косвенная попытка придать авторитету и достоверности сложности вопроса, что может тонко обращаться к нашему желанию руководствоваться экспертом.

Фраза не использует напрямую эмоциональные обращения, такие как Страх, Стыд, Смех, Гнев, Ненависть, Отвращение, Лесть, Сострадание, Патриотизм или Pooh-Pooh, но косвенно ссылается на авторитет (обращаясь к нашему уважению и подчинению), чтобы подчеркнуть сложность вопросов, которые не решаются простым виноватостью “слишком много людей” за нехватку домов. Это также может быть связано с:

Обращение к разуму: Оно побуждает нас смотреть за пределы простых решений и рассматривать, что проблемы могут иметь более глубокие или более сложные причины, чем они кажутся на первый взгляд.

В целом, хотя в фразе не явно видна сильная эмоциональная привлекательность, она пытается использовать авторитет и разум - аспекты, часто уважаемые в рациональных решениях. Это подчёркивает стратегическое использование эмоций доверия к авторитетным фигурам, чтобы вызвать сомнение в простых взглядах и побудить более вдумчивое рассмотрение слушателями, которые ценят сложность в социальных вопросах. Нюансированная версия может потенциально вызвать элементы, связанные с:

  • Страх: Тонко вызывать опасения по поводу упрощения, тем самым вызывая тревогу по поводу нерешённых сложностей.
  • Отвращение: Предполагаемое отвращение к поверхностным нарративам может быть вызвано, если это будет сформулировано в контексте критики поверхностных или глупых политических обсуждений.

Однако, эти элементы косвенные и могут сильно зависеть от контекстуальных нюансов в окружающих обсуждениях. Без дополнительного эмоционального содержания или конкретных обращений, характерных для определённых ошибок (например, пугающие, явно вызывающие чувство вины), эта фраза в основном сосредоточена на использовании разума через авторитет, а не манипулировании чувствами. Это позиционирование подчёркивает достоверность, часто оцененную при анализе логических ошибок, которые могут манипулировать эмоциями без твёрдых аргументов.

В кратце:

  • Утверждение намекает на авторитет (“бывший министр внутренних дел”), потенциально вызывая уважение или доверие (предполагая внутренние знания).
  • Оно может вызвать тонкое беспокойство по поводу упрощения как угрозы (хотя тактики страха не используются явно здесь).
  • Более подробный контекст может быть необходим для конкретных классификаций эмоционального обращения, поскольку врожденные обращения часто происходят от того, как слушатели эмоционально связываются с вопросами, выходящими за пределы самой фразы.

Помните, что ошибки обычно включают логические ошибки, но часто резонируют на более глубоких, эмоционально влияющих личных предубеждениях или общественных тревогах – таким образом, это утверждение заслуживает тщательного разбора вокруг того, что слушатели могут подсознательно связать в более широких диалогах.

Полезные ссылки