Gemma2 vs Qwen2 vs Mistral Nemo vs...

Testando a detecção de falácias lógicas

Conteúdo da página

Recentemente, vimos a liberação de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se saem ao detectar falácias lógicas.

Apresentando mistral nemo

O que e como fazemos

Em testes anteriores já testamos como LLM detectam falácias lógicas - llama3 vs phi3 vs outros. Eles fazem isso bastante bem, adoramos os resultados do llama3-8b-Q8 e phi3-medium-4k-instruct-q6_K.

Neste teste, fazemos o mesmo usando Gemma2, Qwen2 e Mistral Nemo.

Estamos testando os melhores modelos possíveis, mas eles precisam atender às nossas restrições - precisam caber em nossa GPU de consumo, que tem 16 GB de VRAM. Com esse critério em mente, escolhemos as seguintes quantizações:

  • gemma2:9b-instruct-q8_0
  • gemma2:27b-instruct-q3_K_L
  • mistral-nemo:12b-instruct-2407-q8_0
  • qwen2:7b-instruct-q8_0

e esta versão do qwen2:

  • qwen2:72b-instruct-q2_K

Tem um tamanho de 29 GB, mas vamos testá-la de qualquer forma.

Por favor, note que aqui não estamos recorrendo ao quantização padrão q4. se o q8 couber na nossa VRAM de 16 GB da GPU - vamos usá-lo, tentando o melhor possível em nossas circunstâncias.

DT;DR: O resultado

Modelos anteriores que testamos em Detecção de Falácias Lógicas com LLMs. Por favor, veja nesse post o que testamos e agora.

Aqui está a tabela atualizada onde nossos novos modelos estão em negrito.

ModelVersion GPU RAM A2CS Straw man Ad homi-nem Red Herring Appeal to igno-rance Appeal to autho-rity False dicho-tomy Hasty Gene-rali-zation Begging the Ques-tion Slippery Slope Post hoc ergo propter hoc Tu quo-que Other
l3:8b-i-q4_0 5.8GB V V V V V V
l3:8b-i-q8_0 9.1GB V V V V V V
l3:8b-i-fp16 9.1GB V V V V V
p3:3.8b 4.3GB V V V V V V
p3:3.8b-mini-4k-i-q8_0 5.8GB V V V V V V V V V
p3:3.8b-mini-i-4k-fp16 8.9GB V V V V V V
p3:14b 9.3GB V V V V
p3:14b-m-4k-i-q6_K 12.5GB V V V V V V
p3:14b-m-4k-i-q8_0 15.3GB V V V V V
mi:7b-i-v0.3-q4_0 4.3GB V V V V V V V V V
mi:7b-i-v0.3-q8_0 8.6GB V V V V V V
mi:7b-i-v0.3-fp16 14.7GB V V V
ge:7b-i-v1.1-q4_0 7.2GB V V V V
ge:7b-i-v1.1-q6_K 9.1GB V V V V V
ge:7b-i-v1.1-fp16 15.5GB V V V V V
qw:14b-chat-v1.5-q8_0 15.2GB V V V V V
qw:7b-chat-v1.5-fp16 15.5GB V V V V
qw:32b-chat-v1.5-q3_K_S 15.1GB V V V V
qw:32b-chat-v1.5-q3_K_M 15.4GB V V V V V V V V
ge2:9b-i-q8_0 9.0GB V V V V
ge2:27b-i-q3_K_L 14.0GB V V V
mi-nemo:12b-i-.q8_0 13.0GB V V V V
qw2:7b-i-q8_0 8.1GB V V V V V V
qw2:72b-i-q2_K 29.0GB V V V

Abreviações nas falácias lógicas: A 2 CS=Apelo ao senso comum

Abreviações nos nomes dos modelos:

  • l3=llama3
  • p3=phi3
  • i=instruct
  • m=medium
  • mi=mistral
  • ge=gemma
  • qw=qwen
  • ge2=gemma2
  • qw2=qwen2

Simplificação excessiva=Falso dilema

Conclusão

Esperamos que os LLMs identifiquem na frase de texto amostra a falácia Strawman, Ad Hominem, Apelo à autoridade e Simplificação excessiva.

A maioria dos novos modelos consegue identificar na nossa frase de texto amostra o Apelo à Autoridade, e alguns identificam Ad Hominem, alguns Simplificação excessiva. Bom resultados mostraram qwen2:7b-instruct-q8_0 e gemma2:9b-instruct-q8_0.

Mas, ainda assim, os vencedores permanecem os mesmos.

O modelo “Editor’s choice” é phi3:14b-medium-4k-instruct-q6_K. Ele facilmente cabe em 16 GB de RAM, e bastante inteligente. O segundo lugar é para phi3:3.8b-mini-4k-instruct-q8_0. O grupo de modelos llama3 também é bom.

Mistral Nemo

Vamos revisar os resultados do Mistral Nemo primeiro, mesmo que não sejam os melhores, porque eles têm um robô bonito na imagem.

Mistral nemo 12b

Modelo: mistral-nemo:12b-instruct-2407-q8_0

Resposta:

A frase que você forneceu contém duas principais falácias lógicas:

  1. Apelo à Autoridade (Argumentum ad Verecundiam): O falante apela para a autoridade de um ex-ministro das Relações Internas sem fornecer quaisquer argumentos ou evidências específicas desse indivíduo. Eles simplesmente assumem que, porque essa pessoa ocupou uma certa posição, sua opinião deve ser aceita como válida.

    • Falácia: “como um ex-ministro das Relações Internas deveria saber.”
  2. Red Herring (Conclusão Irrelevante): O falante começa apresentando um argumento aparentemente razoável (“muitas pessoas, poucas casas”) mas depois o rejeita sem fornecer quaisquer contra-argumentos ou evidências. Em vez disso, apela para a autoridade do ex-ministro.

    • Falácia: “Vamos ver, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples…”

Embora a frase não use explicitamente linguagem emocional, os apelos à autoridade e a falácia red herring podem ainda ser considerados formas de apelo à emoção em um sentido mais amplo, pois tentam persuadir o ouvinte com base em fatores diferentes da argumentação racional.


Com base na frase que você forneceu, há algumas falácias lógicas em ação:

  1. Ad Hominem: Este é um ataque direcionado para a pessoa que faz o argumento, em vez do argumento em si. Neste caso, implica-se que, porque o falante tem experiência como ex-ministro das Relações Internas, ele deveria saber que as coisas não são simples. A frase sugere que a falta de compreensão (ou talvez mal-entendido) é devida ao seu papel anterior, em vez de abordar a substância do argumento.

  2. Apelo à Complexidade: Esta falácia ocorre quando alguém usa a complexidade como desculpa para não pensar profundamente sobre uma questão ou para rejeitar evidências ou raciocínios que contradizem sua própria posição. Neste contexto, “nunca é tão simples” poderia ser visto como uma forma de rejeitar o argumento inicial sem realmente abordar seus méritos.

Embora não haja um apelo direto à emoção na frase em si, o uso de falácias como Ad Hominem e Apelo à Complexidade podem, às vezes, subtilmente apelar para emoções como desdém ou frustração com argumentos excessivamente simplificados. No entanto, estas não são apelos diretos à emoção no mesmo sentido que uma afirmação como “Você deveria concordar porque você se sentirá mal se não fizer”.

Portanto, embora haja realmente falácias lógicas presentes nesta frase, elas não são apelos emocionais explícitos.

Gemma 2 - 9b

Logotipo da Gemma 2

Modelo: gemma2:9b-instruct-q8_0

Resposta:

A frase “Vamos ver, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples, como um ex-ministro das Relações Internas deveria saber” contém algumas falácias lógicas:

  • Apelo à Autoridade: A frase depende da autoridade percebida de um “ex-ministro das Relações Internas” para rejeitar o argumento inicial. O falante assume que, porque a pessoa ocupou uma posição de poder, sua opinião automaticamente tem mais peso. Esta falácia ignora a possibilidade de que o ministro esteja errado ou que sua expertise não se aplique a esta situação específica.

  • Pooh-Pooh: A frase “nunca é tão simples” rejeita o argumento inicial sem fornecer quaisquer contra-argumentos ou evidências reais. É uma afirmação desdenhosa que visa encerrar a conversa, em vez de engajar-se com as ideias apresentadas.

Por favor, me avise se quiser explorar outros exemplos de falácias lógicas!


A frase “Vamos ver, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples, como um ex-ministro das Relações Internas deveria saber” contém algumas falácias lógicas:

  • Apelo à Autoridade: A frase implica que, porque o falante menciona um “ex-ministro das Relações Internas”, sua opinião tem mais peso. Isso assume que ser um ex-ministro automaticamente concede expertise sobre esta questão específica.

  • Pooh-Pooh: A frase “nunca é tão simples” poderia ser considerada uma forma de pooh-pooh do argumento inicial. Ela rejeita o raciocínio direto sem fornecer contra-argumentos substanciais ou explorar as complexidades.

Por favor, me avise se quiser analisar outras frases ou argumentos para falácias!

Gemma 2 - 27b

Modelo: gemma2:27b-instruct-q3_K_L

Resposta:

A frase “Mas nunca é tão simples, como um ex-ministro das Relações Internas deveria saber” emprega a falácia do apelo à autoridade.

Aqui está o porquê:

  • Ela assume expertise: A afirmação implica que, porque a pessoa é uma ex-ministra das Relações Internas, automaticamente tem conhecimento especial sobre questões sociais complexas como escassez de moradia.
  • A expertise nem sempre é relevante: Embora uma ex-ministra possa ter alguma visão sobre políticas habitacionais, sua experiência não necessariamente a torna uma especialista em todos os fatores contribuintes para uma escassez de moradia.

A frase tenta rejeitar um argumento potencialmente válido (“muitas pessoas, poucas casas”) simplesmente porque vem de alguém percebido como carecendo de expertise no campo.

Por favor, me avise se tiver outras frases que quiser analisar!


A frase contém alguns elementos que se assemelham a falácias lógicas, embora não seja um caso direto:

  • Apelo à Autoridade (Fraco): “como um ex-ministro das Relações Internas deveria saber.” Isso tenta dar peso ao argumento invocando a autoridade anterior do falante. No entanto, é fraco porque não fornece nenhuma expertise específica ou raciocínio do ministro para apoiar sua posição.

  • Ad Hominem (Potencial): Dependendo do contexto e do tom, a frase poderia ser vista como um ad hominem se for intencionalmente usada para desacreditar o argumento oposto apenas com base em quem o está fazendo, em vez de abordar o conteúdo real do argumento. Por exemplo, se a frase implicar que a pessoa é incapaz de compreender a política habitacional porque foi uma ministra, isso seria um ad hominem.

Nota Importante: Sem mais contexto sobre o que a pessoa realmente argumentou e o tom geral, é difícil classificar definitivamente esses como exemplos fortes de falácias.

Por favor, me avise se tiver outras frases que quiser que eu analise!

Qwen 2 - 7b

Logotipo do Qwen 2

Modelo: qwen2:7b-instruct-q8_0

Resposta:

A frase que você forneceu contém várias falácias lógicas:

  1. Apelo às Emoções (Argumentum ad Passiones): A afirmação “Vamos ver, à primeira vista, tudo parece perfeitamente razoável” tenta evocar um senso de razoabilidade e simplicidade na mente do ouvinte sem fornecer evidências substanciais ou argumentação.
  2. Falácia do Red Herring: Ao mencionar que “um ex-ministro das Relações Internas deveria saber”, o falante introduz um ponto irrelevante (o conhecimento de uma pessoa específica) para desviar a atenção do problema principal, potencialmente enganando o público para pensar que o conhecimento da pessoa é relevante quando pode não ser.
  3. Falácia do Apelo à Autoridade: Embora não seja explicitamente mencionada nesta frase, se alguém afirmar que “um ex-ministro das Relações Internas” sabe algo porque é um ex-ministro, estarão cometendo uma falácia do apelo à autoridade, assumindo que sua posição lhe dá expertise no assunto sem fornecer evidências para seu conhecimento específico ou argumento.

Essas falácias lógicas podem enfraquecer a força de um argumento ao apelar para emoções em vez de lógica e relevância.


A frase que você forneceu:

“Vamos ver, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples, como um ex-ministro das Relações Internas deveria saber.”

não contém nenhuma das falácias de Apelo às Emoções (Apelo ad passiones) mencionadas em sua lista. No entanto, algumas potenciais falácias lógicas poderiam ser:

  • Ad Hominem se essa citação for usada como um ataque contra um indivíduo específico (’ex-ministro das Relações Internas’) em vez de abordar seu argumento.
  • Falácia do Red Herring: Pode haver um esforço para desviar a atenção do problema original ou argumentos ao mencionar tópicos irrelevantes, embora nenhum red herring óbvio esteja presente na frase que você forneceu.

Há também outras falácias não mencionadas sob ‘Apelo às Emoções’, tais como:

  • Falso Dilema: Apresentar uma questão complexa em termos binários simples onde não pode ser discutida adequadamente. A frase fornecida não implica esse tipo de falácia.
  • Apelo à Autoridade: Usar a opinião ou identidade de alguém famoso em vez de evidências válidas para apoiar um argumento. Não aplicável em sua citação, pois nenhuma autoridade é invocada.

Por favor, esclareça se houve outra frase específica que você quis analisar sob apelo às emoções, e ficaremos felizes em ajudar com isso.

Qwen 2 - 72b

Eu sei, isso de estar acima do peso não é da nossa categoria, mas apenas curioso…

Modelo: qwen2:72b-instruct-q2_K

Resposta:

A frase fornecida não contém diretamente um apelo emocional conforme definido na lista de falácias lógicas. No entanto, ela implica uma possível falácia lógica conhecida como “Apelo à autoridade” ou “Argumento da autoridade”. Isso ocorre porque o falante sugere que o ex-ministro da Administração Interna deveria saber melhor, implicando que a autoridade dele sobre o assunto torna sua opinião mais válida.

A frase não usa diretamente um apelo emocional, mas sim a autoridade do ex-ministro da Administração Interna, supostamente baseada no seu conhecimento, como forma de desvalorizar a simplicidade do argumento apresentado. Isso pode ser visto na estrutura da frase: “Mas nunca é tão simples, como um ex-ministro da Administração Interna deveria saber.”

Em resumo:

  • Falácia lógica presente: Apelo à autoridade
  • Definição: Um apelo à autoridade ocorre quando uma afirmação é considerada verdadeira com base na credibilidade ou expertise da pessoa que a faz, em vez da força das evidências.
  • Exemplo na frase: “como um ex-ministro da Administração Interna deveria saber” implica que a opinião de alguém com tanta experiência tem mais peso e poderia ser usada para rejeitar explicações mais simples.

A frase que você forneceu não evoca necessariamente uma resposta emocional específica; ao invés disso, apela para o conhecimento e a experiência do ouvinte ao sugerir que explicações simples frequentemente não contam a história completa. No entanto, se analisarmos a frase para potenciais apelos emocionais:

Apelo à Autoridade: Ela se refere indiretamente a “um ex-ministro da Administração Interna” que deveria saber melhor do que aceitar explicações simplistas. Isso pode ser visto como um tentativa indireta de conferir autoridade e credibilidade à complexidade do problema, o que pode subtilmente apelar para o nosso desejo de orientação de especialistas.

A frase não usa diretamente apelos emocionais como Medo, Culpa, Ridicúlio, Raiva, Espite, Náusea, Flattery, Piedade, Patriotismo ou Pooh-Pooh, mas apela indiretamente à autoridade (apelando para o nosso respeito e deferência) para destacar a complexidade de questões que não são resolvidas simplesmente culpando “muitas pessoas” pela falta de casas. Isso também pode estar relacionado a:

Apelo à Razão: Ela nos convida a olhar além de soluções simples e considerar que os problemas podem ter causas mais profundas ou complexas do que parecem à primeira vista.

Em resumo, embora não haja um forte apelo emocional evidente na frase, ela tenta aproveitar a autoridade e a razão – aspectos frequentemente respeitados na tomada de decisões racionais. Isso destaca uma possível estratégia de manipulação emocional baseada no respeito por figuras autoritárias, para instigar dúvidas sobre visões simplistas e incentivar considerações mais reflexivas por parte dos ouvintes que apreciam a complexidade em questões sociais.

Uma versão mais sutil poderia potencialmente invocar elementos relacionados a:

  • Medo: Subtamente levantar preocupações sobre a simplificação, assim provocando ansiedade sobre complexidades não abordadas.
  • Náusea: Desgosto implícito por narrativas simplificadas poderia ser acionado se contextualizado dentro de discussões críticas sobre políticas superficiais ou ignorantes.

No entanto, esses são indiretos e podem depender fortemente de nuances contextuais nas discussões circundantes. Sem conteúdo emocional adicional ou apelos específicos característicos de falácias definidas (como manipulação do medo, invocação explícita de culpa), essa frase está principalmente centrada em apelar para a razão através da autoridade, em vez de manipular sentimentos. Essa posição destaca a credibilidade, frequentemente apreciada ao analisar falácias lógicas que podem manipular emoções sem argumentos sólidos.

Para resumir:

  • A afirmação se refere à autoridade (“um ex-ministro da Administração Interna”), potencialmente despertando respeito ou confiança (como insinua conhecimento interno).
  • Pode induzir uma ansiedade sutil em relação à simplificação como uma ameaça (embora táticas de medo não sejam claramente empregadas aqui).
  • Um contexto mais detalhado poderia ser necessário para classificações específicas de apelos emocionais, já que apelos inerentes tendem a derivar de como os ouvintes se relacionam emocionalmente com questões além da própria afirmação.

Lembre-se, as falácias geralmente envolvem erros lógicos, mas frequentemente ressoam em vieses pessoais ou ansiedades sociais mais profundos, influenciados por emoções – tornando as implicações dessa frase dignas de serem desmontadas cuidadosamente em relação ao que os ouvintes poderiam subconscientemente conectar dentro de diálogos mais amplos.