Какие модели сравнивались для обнаружения логических ошибок?

Гemma2 (9b и 27b), Qwen2 (7b и 72b) и Mistral Nemo 12b были протестированы, все ограничены для размещения или частичного размещения в 16ГБ видеопамяти.

Почему использовать квантование q8, если q4 помещается в 16 ГБ?

Когда q8 помещается в 16 ГБ видеопамяти, мы используем его для улучшения качества. В статье объясняется, как выбрать лучшее квантование, соответствующее возможностям GPU.

Где можно найти больше бенчмарков производительности LLM?

Наш центр производительности LLM охватывает пропускную способность против задержки, ограничения VRAM, параллельные запросы и бенчмарки по различным средам выполнения и оборудованию.

Как VRAM влияет на выбор моделей для бенчмаркинга?

С 16 ГБ VRAM мы выбираем квантования (например, q8_0, q3_K_L), чтобы модели помещались. Более крупные модели могут использовать выгрузку на CPU. В разделе “Производительность LLM” содержится дополнительная информация о VRAM и скорости.

Какой логический тест на ошибки используется в этом сравнении?

Тот же самый тест, что и в посте «Обнаружение логических ошибок с помощью ЛЛМ», — обнаружение соломенных чучелок, ad hominem, отвлечений и других типов ошибок в выводах моделей.

Gemma2 против Qwen2 против Mistral Nemo против...

Тестирование обнаружения логических ошибок

Содержимое страницы

Недавно мы увидели несколько новых языковых моделей, которые были выпущены. Возбуждающие времена. Давайте протестируем и посмотрим, как они работают при обнаружении логических ошибок.

Для получения дополнительной информации о производительности языковых моделей — пропускная способность против задержки, ограничения VRAM и бенчмарки по различным средам выполнения и оборудованию — см. Производительность языковых моделей: бенчмарки, узкие места и оптимизация.

Презентация mistral nemo

Что и как мы делаем

В предыдущем тесте мы уже тестировали, как языковые модели обнаруживают логические ошибки - llama3 vs phi3 vs другие. Они делают это довольно хорошо, нам понравились результаты llama3-8b-Q8 и phi3-medium-4k-instruct-q6_K.

В этом тесте мы делаем то же самое, используя Gemma2, Qwen2 и Mistral Nemo.

Мы тестируем лучшие возможные модели, но они должны соответствовать нашим ограничениям - они должны помещаться в наше потребительское GPU, которое имеет 16 ГБ видеопамяти. С учетом этих критериев мы выбрали следующие квантования:

gemma2:9b-instruct-q8_0
gemma2:27b-instruct-q3_K_L
mistral-nemo:12b-instruct-2407-q8_0
qwen2:7b-instruct-q8_0

и эту версию qwen2:

qwen2:72b-instruct-q2_K

Ее размер составляет 29ГБ, но давайте все равно протестируем ее.

Обратите внимание, что здесь мы не используем квантование по умолчанию q4. Если q8 помещается в 16ГБ видеопамяти нашего GPU, мы выбираем его, пытаясь сделать лучшее возможное в наших обстоятельствах.

TL;DR: Результаты

Предыдущие модели, которые мы тестировали в Обнаружение логических ошибок с помощью языковых моделей. Пожалуйста, посмотрите в этом посте, что мы тестируем и сейчас.

Вот обновленная таблица, где наши новые модели выделены жирным.

ModelVersion	GPU RAM	A2CS	Straw man	Ad homi-nem	Red Herring	Appeal to igno-rance	Appeal to autho-rity	False dicho-tomy	Hasty Gene-rali-zation	Begging the Ques-tion	Slippery Slope	Post hoc ergo propter hoc	Tu quo-que	Other
l3:8b-i-q4_0	5.8GB	V V	V V	V	V
l3:8b-i-q8_0	9.1GB		V			V	V V	V V
l3:8b-i-fp16	9.1GB		V				V V	V V
p3:3.8b	4.3GB		V V	V			V V		V
p3:3.8b-mini-4k-i-q8_0	5.8GB		V V	V V			V V	V	V V
p3:3.8b-mini-i-4k-fp16	8.9GB		V			V	V V		V	V
p3:14b	9.3GB			V V				V V
p3:14b-m-4k-i-q6_K	12.5GB		V V				V V	V	V
p3:14b-m-4k-i-q8_0	15.3GB			V V			V	V V
mi:7b-i-v0.3-q4_0	4.3GB			V V	V		V V		V V		V V
mi:7b-i-v0.3-q8_0	8.6GB		V V	V V					V V
mi:7b-i-v0.3-fp16	14.7GB						V V		V
ge:7b-i-v1.1-q4_0	7.2GB			V V								V V
ge:7b-i-v1.1-q6_K	9.1GB			V V					V			V V
ge:7b-i-v1.1-fp16	15.5GB			V V								V V	V
qw:14b-chat-v1.5-q8_0	15.2GB		V V	V			V V
qw:7b-chat-v1.5-fp16	15.5GB						V V	V V
qw:32b-chat-v1.5-q3_K_S	15.1GB		V	V			V	V
qw:32b-chat-v1.5-q3_K_M	15.4GB		V V	V V			V V	V V
ge2:9b-i-q8_0	9.0GB						V V	V V
ge2:27b-i-q3_K_L	14.0GB			V			V V
mi-nemo:12b-i-.q8_0	13.0GB			V	V		V	V
qw2:7b-i-q8_0	8.1GB			V	V V		V V							V
qw2:72b-i-q2_K	29.0GB						V V							V

Сокращения в названиях логических ошибок: A 2 CS=Appeal to common sense

Сокращения в названиях моделей:

l3=llama3
p3=phi3
i=instruct
m=medium
mi=mistral
ge=gemma
qw=qwen
ge2=gemma2
qw2=qwen2

Упрощение=Ложная дихотомия

Заключение

Мы ожидаем, что языковые модели найдут в образцовом тексте ошибку Чучело, Ad Hominem, Обращение к авторитету и Упрощение.

Большинство новых моделей могут увидеть в нашем образцовом тексте Обращение к авторитету, некоторые видят Ad Hominem, некоторые Упрощение. Хорошие результаты показали qwen2:7b-instruct-q8_0 и gemma2:9b-instruct-q8_0.

Но все же, победители остаются прежними.

Модель “Выбор редактора” - phi3:14b-medium-4k-instruct-q6_K. Она легко помещается в 16ГБ ОЗУ, и довольно умная. Второе место занимает phi3:3.8b-mini-4k-instruct-q8_0. Группа моделей llama3 тоже хороша.

Mistral Nemo

Давайте сначала рассмотрим результаты Mistral Nemo, даже если они не лучшие, потому что у них красивый робот на изображении.

Mistral nemo 12b

Модель: mistral-nemo:12b-instruct-2407-q8_0

Ответ:

Фраза, которую вы предоставили, содержит две основные логические ошибки:

Обращение к авторитету (Argumentum ad Verecundiam): Оратор апеллирует к авторитету бывшего министра внутренних дел, не предоставляя при этом никаких конкретных аргументов или доказательств от этого человека. Они просто предполагают, что потому что этот человек занимал определенную должность, его мнение должно быть принято как достоверное.
- Ошибка: “как бывший министр внутренних дел должен знать.”
Ложная проблема (Irrelevant Conclusion): Оратор начинает с представления, казалось бы, разумного аргумента (“слишком много людей, недостаточно домов”), но затем отвергает его без предоставления каких-либо контраргументов или доказательств. Вместо этого он апеллирует к авторитету бывшего министра.
- Ошибка: “Посмотрите, на первый взгляд, все звучит совершенно разумно: слишком много людей, недостаточно домов. Но это никогда не так просто…”

Хотя фраза не использует эмоциональный язык, обращение к авторитету и ложная проблема все же могут быть рассмотрены как формы обращения к эмоциям в более широком смысле, так как они пытаются убедить слушателя на основе факторов, отличных от рационального аргументирования.

На основе фразы, которую вы предоставили, можно выделить несколько логических ошибок:

Ad Hominem: Это нападение, направленное на человека, выдвигающего аргумент, а не на сам аргумент. В данном случае подразумевается, что поскольку у говорящего есть опыт работы бывшим министром внутренних дел, он должен знать, что вещи не так просты. Фраза предполагает, что их непонимание (или, возможно, неправильное понимание) связано с их предыдущей ролью, а не с сутью аргумента.
Обращение к сложности: Эта ошибка возникает, когда кто-то использует сложность как оправдание для того, чтобы не думать глубоко о проблеме или для отвержения доказательств или рассуждений, которые противоречат его позиции. В данном контексте “это никогда не так просто” можно рассматривать как способ отвергнуть первоначальный аргумент без реального его обсуждения.

Хотя в самой фразе нет явного обращения к эмоциям, использование ошибок, таких как Ad Hominem и Обращение к сложности, может иногда косвенно апеллировать к эмоциям, таким как презрение или раздражение от чрезмерно упрощенных аргументов. Однако это не прямые обращения к эмоциям в том же смысле, что и утверждение “Вы должны согласиться, потому что вам будет плохо, если вы не согласитесь”.

Таким образом, хотя в этой фразе действительно присутствуют логические ошибки, они не являются явными эмоциональными обращениями.

Gemma 2 - 9b

Gemma 2 logo

Модель: gemma2:9b-instruct-q8_0

Ответ:

Фраза “Look, on first blush, it all sounds perfectly reasonable: too many people, not enough houses. But it is never that simple, as a former home affairs minister should know” содержит несколько логических ошибок:

Обращение к авторитету: Фраза опирается на предполагаемый авторитет “бывшего министра внутренних дел” для опровержения первоначального аргумента. Говорящий предполагает, что потому что человек занимал должность власти, его мнение автоматически имеет больший вес. Эта ошибка игнорирует возможность того, что министр может быть не прав или что его экспертиза не применима к данной конкретной ситуации.
Отмахивание: Фраза “it is never that simple” отвергает первоначальный аргумент без предоставления каких-либо реальных контраргументов или доказательств. Это пренебрежительное заявление, которое направлено на закрытие дискуссии, а не на взаимодействие с представленными идеями.

Сообщите мне, если хотите исследовать другие примеры логических ошибок!

Обращение к авторитету: Фраза косвенно предполагает, что потому что говорящий упоминает “бывшего министра внутренних дел”, его мнение имеет больший вес. Это предполагает, что бывший министр автоматически обладает экспертизой в этом конкретном вопросе.
Отмахивание: Фраза “it is never that simple” может быть рассмотрена как форма отмахивания от первоначального аргумента. Она отвергает простое рассуждение без предоставления существенных контраргументов или исследования сложностей.

Сообщите мне, если хотите проанализировать другие фразы или аргументы на предмет ошибок!

Gemma 2 - 27b

Модель: gemma2:27b-instruct-q3_K_L

Ответ:

Фраза “But it is never that simple, as a former home affairs minister should know” использует ошибку обращение к авторитету.

Вот почему:

Она предполагает экспертизу: Заявление подразумевает, что потому что человек является бывшим министром внутренних дел, он автоматически обладает специальными знаниями о сложных социальных вопросах, таких как нехватка жилья.
Экспертиза не всегда актуальна: Хотя бывший министр может иметь некоторое понимание политики в области жилья, его опыт не обязательно делает его экспертом по всем факторам, способствующим нехватке жилья.

Фраза пытается отвергнуть потенциально обоснованный аргумент (“слишком много людей, недостаточно домов”) просто потому, что он исходит от кого-то, кто воспринимается как не имеющий экспертизы в этой области.

Сообщите мне, если у вас есть другие фразы, которые вы хотите проанализировать!

Фраза содержит несколько элементов, напоминающих логические ошибки, хотя это не является прямым случаем:

Обращение к авторитету (слабое): “как должен знать бывший министр внутренних дел”. Это пытается придать вес аргументу, призывая к предыдущему авторитету говорящего по данному вопросу. Однако это слабо, потому что не предоставляет никакой конкретной экспертизы или обоснования министра для подтверждения его позиции.
Ad Hominem (потенциальный): В зависимости от контекста и тона, фраза может быть рассмотрена как ad hominem атака, если она предназначена для дискредитации противоположного аргумента просто на основе того, кто его выдвигает, а не для рассмотрения фактического содержания аргумента. Например, если заявление подразумевает, что человек не способен понять политику в области жилья потому что он был министром, это будет ad hominem.

Важное замечание: Без дополнительного контекста о том, что именно аргументировал человек, и общем тоне, трудно однозначно классифицировать эти ошибки как сильные примеры.

Сообщите мне, если у вас есть другие фразы, которые вы хотите, чтобы я проанализировал!

Qwen 2 - 7b

Qwen 2 logo

Модель: qwen2:7b-instruct-q8_0

Ответ:

Предоставленная вами фраза содержит несколько логических ошибок:

Обращение к эмоциям (Argumentum ad Passiones): Заявление “Look, on first blush, it all sounds perfectly reasonable” пытается вызвать чувство разумности и простоты в сознании слушателя без предоставления существенных доказательств или аргументации.
Ошибка красной рыбы: Упоминая, что “бывший министр внутренних дел должен знать”, говорящий вводит нерелевантный пункт (знания конкретного человека), чтобы отвлечь внимание от основного вопроса, потенциально вводя аудиторию в заблуждение относительно того, что экспертиза человека актуальна, когда она может не быть.
Обращение к авторитету: Хотя это не указано явно в данной фразе, если кто-то утверждает, что “бывший министр внутренних дел” знает что-то, потому что он бывший министр, он совершает ошибку обращения к авторитету, предполагая, что его должность наделяет его экспертизой по данному вопросу без предоставления доказательств его конкретных знаний или аргументации.

Эти логические ошибки могут подорвать силу аргумента, обращаясь к эмоциям, а не к логике и релевантности.

Предоставленная вами фраза:

“Look, on first blush, it all sounds perfectly reasonable: too many people, not enough houses. But it is never that simple, as a former home affairs minister should know.”

не содержит ни одной из ошибок обращения к эмоциям (Appealum ad passiones), упомянутых в вашем списке. Однако некоторые потенциальные логические ошибки могут быть:

Ad Hominem, если эта цитата используется как атака на конкретного человека (‘бывший министр внутренних дел’) вместо рассмотрения его аргумента.
Ошибка красной рыбы: Может быть попытка отвлечь внимание от исходного вопроса или аргументов, упоминая нерелевантные темы, хотя в предложенной вами фразе нет очевидной красной рыбы.

Также существуют другие ошибки, не упомянутые под ‘Обращение к эмоциям’, такие как:

Ложная дилемма: Представление сложного вопроса в простых бинарных терминах, где его нельзя адекватно обсудить. Предоставленное предложение не подразумевает такого рода ошибку.
Обращение к авторитету: Использование мнения или идентичности известного человека вместо действительных доказательств для обоснования аргумента. Не применимо в вашей цитате, так как авторитет не призывается.

Пожалуйста, уточните, если у вас была другая конкретная фраза, которую вы хотели проанализировать под обращением к эмоциям, и мы будем рады помочь с этим.

Qwen 2 - 72b

Я знаю, что это не из нашей категории, но просто из любопытства…

Модель: qwen2:72b-instruct-q2_K

Ответ:

Предоставленная фраза не содержит прямого обращения к эмоциям, как определено в списке логических ошибок. Однако она подразумевает потенциальную логическую ошибку, известную как “Обращение к авторитету” или “Аргумент от авторитета”. Это происходит потому, что говорящий предполагает, что бывший министр внутренних дел должен знать лучше, что подразумевает, что его авторитет в данной области делает его мнение более обоснованным.

Фраза не использует прямо эмоциональное обращение, но использует авторитет бывшего министра внутренних дел как способ опровергнуть простоту представленного аргумента. Это можно увидеть в структуре предложения: “Но это никогда не бывает так просто, как должен знать бывший министр внутренних дел”.

Вкратце:

Присутствующая логическая ошибка: Обращение к авторитету
Определение: Обращение к авторитету происходит, когда утверждение считается истинным на основе достоверности или экспертизы человека, делающего заявление, а не на основе силы доказательств.
Пример в фразе: “как должен знать бывший министр внутренних дел” подразумевает, что мнение человека с таким опытом имеет больший вес и может быть использовано для опровержения более простых объяснений.

Предоставленная вами фраза не вызывает, как правило, конкретного эмоционального отклика; скорее, она обращается к знаниям и опыту слушателя, предполагая, что простые объяснения часто не раскрывают всей картины. Однако, если мы проанализируем её на предмет потенциального эмоционального обращения:

Обращение к авторитету: Оно косвенно ссылается на “бывшего министра внутренних дел”, который должен знать лучше, чем принимать простые объяснения. Это можно рассматривать как косвенную попытку придать авторитет и достоверность сложности вопроса, что может неявно апеллировать к нашему желанию получить экспертное руководство.

Фраза не использует прямо эмоциональные обращения, такие как Страх, Вина, Насмешка, Гнев, Злоба, Отвращение, Лесть, Сострадание, Патриотизм или Похвала, но она косвенно ссылается на авторитет (апеллируя к нашему уважению и почтительности), чтобы подчеркнуть сложность вопросов, которые не могут быть решены простым обвинением “слишком многих людей” в нехватке жилья. Это также может быть связано с:

Обращение к разуму: Оно побуждает нас смотреть за пределами простых решений и учитывать, что проблемы могут иметь более глубокие или сложные причины, чем кажется на первый взгляд.

В целом, хотя в фразе может не быть сильного эмоционального обращения, она пытается использовать авторитет и разум — аспекты, которые часто уважаются в рамках рационального принятия решений. Это подчеркивает возможную стратегическую игру на эмоциях доверия к авторитетным фигурам, чтобы вызвать сомнения в простых взглядах и поощрять более глубокие размышления у слушателей, которые ценят сложность в общественных вопросах.

Нюансированная версия могла бы потенциально вызвать элементы, связанные с:

Страхом: Неявное выражение опасений по поводу упрощения, что может вызвать тревогу по поводу нерешенных сложностей.
Отвращением: Подразумеваемое отвращение к упрощенным нарративам может быть вызвано, если это представлено в контексте критики поверхностных или невежественных обсуждений политики.

Однако эти обращения косвенны и могут сильно зависеть от контекстуальных нюансов в окружающих обсуждениях. Без дополнительного эмоционального содержания или конкретных обращений, характерных для определенных ошибок (например, сеяние страха, явное вызывание вины), эта фраза в основном сосредоточена на привлечении разума через авторитет, а не на манипуляции чувствами. Такое позиционирование подчеркивает достоверность, часто ценимую при анализе логических ошибок, которые могут быть манипуляцией эмоциями без твердых аргументов.

Вкратце:

Утверждение ссылается на авторитет (“бывший министр внутренних дел”), что может вызвать уважение или доверие (так как оно подразумевает внутренние знания).
Оно может вызвать легкую тревогу по поводу упрощения как угрозы (хотя тактики страха здесь не используются явно).
Более детальный контекст может быть необходим для конкретных классификаций эмоционального обращения, так как внутренние обращения часто зависят от того, как слушатели эмоционально соотносятся с вопросами за пределами самого утверждения.

Помните, что ошибки обычно включают логические ошибки, но часто резонируют на более глубоких, эмоционально влияемых личных предвзятостях или общественных тревогах — что делает импликации этой фразы достойными тщательного анализа относительно того, что слушатели могут бессознательно связывать в более широких диалогах.

Чтобы узнать больше о показателях производительности, VRAM и выборе моделей для GPU с 16 ГБ памяти, а также о настройке производительности, посетите наш Центр производительности ЛЛМ: Показатели, узкие места и оптимизация.

Что и как мы делаем

TL;DR: Результаты

Заключение

Mistral Nemo

Gemma 2 - 9b

Gemma 2 - 27b

Qwen 2 - 7b

Qwen 2 - 72b

Полезные ссылки