Gemma2 vs Qwen2 vs Mistral Nemo vs...
Testando detecção de falácias lógicas
Recentemente, vimos a liberação de vários novos LLMs. Tempos emocionantes. Vamos testar e ver como eles se saem ao detectar falácias lógicas.
Para mais informações sobre o desempenho dos LLMs — throughput vs latência, limites de VRAM e benchmarks em diferentes runtimes e hardware — veja Desempenho dos LLMs: Benchmarks, Bottlenecks & Otimização.

O que e como fazemos
Em testes anteriores já testamos como LLM detectam falácias lógicas - llama3 vs phi3 vs outros. Eles fazem isso bastante bem, adoramos os resultados do llama3-8b-Q8 e phi3-medium-4k-instruct-q6_K.
Neste teste fazemos o mesmo usando Gemma2, Qwen2 e Mistral Nemo.
Estamos testando os modelos mais bem sucedidos possíveis, mas eles precisam atender às nossas restrições - precisam caber em nossa GPU de consumo, que tem 16 GB de VRAM. Com esse critério em mente, escolhemos as seguintes quantizações:
- gemma2:9b-instruct-q8_0
- gemma2:27b-instruct-q3_K_L
- mistral-nemo:12b-instruct-2407-q8_0
- qwen2:7b-instruct-q8_0
e esta versão do qwen2:
- qwen2:72b-instruct-q2_K
Tem um tamanho de 29 GB, mas vamos testá-la de qualquer forma.
Por favor, note aqui que não estamos recorrendo ao quantização ‘padrão’ q4. se o q8 couber na VRAM de 16 GB da nossa GPU - vamos usá-lo, tentando o melhor possível nas nossas circunstâncias.
DT;DR: O resultado
Modelos anteriores que testamos em Detecção de Falácias Lógicas com LLMs. Por favor, veja nesse post o que testamos e agora.
Aqui está a tabela atualizada onde nossos novos modelos estão em negrito.
| ModelVersion | GPU RAM | A2CS | Straw man | Ad homi-nem | Red Herring | Appeal to igno-rance | Appeal to autho-rity | False dicho-tomy | Hasty Gene-rali-zation | Begging the Ques-tion | Slippery Slope | Post hoc ergo propter hoc | Tu quo-que | Other |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| l3:8b-i-q4_0 | 5.8GB | V V | V V | V | V | |||||||||
| l3:8b-i-q8_0 | 9.1GB | V | V | V V | V V | |||||||||
| l3:8b-i-fp16 | 9.1GB | V | V V | V V | ||||||||||
| p3:3.8b | 4.3GB | V V | V | V V | V | |||||||||
| p3:3.8b-mini-4k-i-q8_0 | 5.8GB | V V | V V | V V | V | V V | ||||||||
| p3:3.8b-mini-i-4k-fp16 | 8.9GB | V | V | V V | V | V | ||||||||
| p3:14b | 9.3GB | V V | V V | |||||||||||
| p3:14b-m-4k-i-q6_K | 12.5GB | V V | V V | V | V | |||||||||
| p3:14b-m-4k-i-q8_0 | 15.3GB | V V | V | V V | ||||||||||
| mi:7b-i-v0.3-q4_0 | 4.3GB | V V | V | V V | V V | V V | ||||||||
| mi:7b-i-v0.3-q8_0 | 8.6GB | V V | V V | V V | ||||||||||
| mi:7b-i-v0.3-fp16 | 14.7GB | V V | V | |||||||||||
| ge:7b-i-v1.1-q4_0 | 7.2GB | V V | V V | |||||||||||
| ge:7b-i-v1.1-q6_K | 9.1GB | V V | V | V V | ||||||||||
| ge:7b-i-v1.1-fp16 | 15.5GB | V V | V V | V | ||||||||||
| qw:14b-chat-v1.5-q8_0 | 15.2GB | V V | V | V V | ||||||||||
| qw:7b-chat-v1.5-fp16 | 15.5GB | V V | V V | |||||||||||
| qw:32b-chat-v1.5-q3_K_S | 15.1GB | V | V | V | V | |||||||||
| qw:32b-chat-v1.5-q3_K_M | 15.4GB | V V | V V | V V | V V | |||||||||
| ge2:9b-i-q8_0 | 9.0GB | V V | V V | |||||||||||
| ge2:27b-i-q3_K_L | 14.0GB | V | V V | |||||||||||
| mi-nemo:12b-i-.q8_0 | 13.0GB | V | V | V | V | |||||||||
| qw2:7b-i-q8_0 | 8.1GB | V | V V | V V | V | |||||||||
| qw2:72b-i-q2_K | 29.0GB | V V | V |
Abreviações nos nomes das falácias lógicas: A 2 CS=Apelo à sensatez comum
Abreviações nos nomes dos modelos:
- l3=llama3
- p3=phi3
- i=instruct
- m=medium
- mi=mistral
- ge=gemma
- qw=qwen
- ge2=gemma2
- qw2=qwen2
Simplificação excessiva=Falso dilema
Conclusão
Esperamos que os LLMs identifiquem na amostra de texto a falácia de Strawman, Ad Hominem, Apelo à autoridade e Simplificação excessiva.
A maioria dos novos modelos pode identificar no nosso texto amostra Apelo à Autoridade, e alguns identificam Ad Hominem, alguns Simplificação excessiva. Resultados bons mostraram qwen2:7b-instruct-q8_0 e gemma2:9b-instruct-q8_0.
Mas ainda assim, os vencedores permanecem os mesmos.
O modelo “Editor’s choice” é phi3:14b-medium-4k-instruct-q6_K. Ele facilmente cabe em 16 GB de RAM, e bastante inteligente. O segundo lugar é para phi3:3.8b-mini-4k-instruct-q8_0. O grupo de modelos llama3 também é bom.
Mistral Nemo
Vamos revisar os resultados do Mistral Nemo primeiro, mesmo que eles não sejam os melhores, porque eles têm um robô bonito na sua imagem.

Modelo: mistral-nemo:12b-instruct-2407-q8_0
Resposta:
A frase que você forneceu contém duas principais falácias lógicas:
-
Apelo à Autoridade (Argumentum ad Verecundiam): O falante apela para a autoridade de um ex-ministro do interior sem fornecer quaisquer argumentos ou evidências específicas desse indivíduo. Eles simplesmente assumem que, porque essa pessoa ocupou uma certa posição, sua opinião deve ser aceita como válida.
- Falácia: “como um ex-ministro do interior deveria saber.”
-
Roubo de foco (Conclusão Irrelevante): O falante começa apresentando um argumento aparentemente razoável (“muitas pessoas, poucas casas”) mas depois o descarta sem fornecer quaisquer contra-argumentos ou evidências. Em vez disso, apela para a autoridade do ex-ministro.
- Falácia: “Olhe, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples…”
Embora a frase não use explicitamente linguagem emocional, os apelos à autoridade e as falácias de roubo de foco podem ainda ser considerados formas de apelo à emoção em um sentido mais amplo, pois tentam persuadir o ouvinte com base em fatores diferentes da argumentação racional.
Com base na frase que você forneceu, existem algumas falácias lógicas em ação:
-
Ad Hominem: Este é um ataque direcionado para a pessoa que faz o argumento em vez do argumento em si. Neste caso, implica-se que, porque o falante tem experiência como ex-ministro do interior, ele deveria saber que as coisas não são simples. A frase sugere que sua falta de compreensão (ou talvez mal-entendido) é devida ao seu cargo anterior, em vez de abordar a substância do argumento.
-
Apelo à complexidade: Esta falácia ocorre quando alguém usa a complexidade como desculpa para não pensar profundamente sobre uma questão ou para descartar evidências ou razões que contradizem sua própria posição. Neste contexto, “nunca é tão simples” pode ser visto como uma forma de descartar o argumento inicial sem realmente abordar seus méritos.
Embora não haja um apelo direto à emoção na frase em si, o uso de falácias como Ad Hominem e Apelo à complexidade pode, às vezes, subtilmente apelar para emoções como desdém ou frustração com argumentos excessivamente simplificados. No entanto, essas não são apelos diretos à emoção no mesmo sentido que uma afirmação como “Você deveria concordar porque você se sentirá mal se não concordar”.
Portanto, embora haja realmente falácias lógicas presentes nesta frase, elas não são apelos emocionais explícitos.
Gemma 2 - 9b

Modelo: gemma2:9b-instruct-q8_0
Resposta:
A frase “Olhe, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples, como um ex-ministro do interior deveria saber” contém algumas falácias lógicas:
-
Apelo à Autoridade: A frase depende da autoridade percebida de um “ex-ministro do interior” para descartar o argumento inicial. O falante assume que, porque a pessoa ocupou uma posição de poder, sua opinião automaticamente tem mais peso. Esta falácia ignora a possibilidade de que o ministro esteja errado ou que seu conhecimento não se aplique a essa situação específica.
-
Pooh-Pooh: A frase “nunca é tão simples” descarta o argumento inicial sem fornecer quaisquer contra-argumentos ou evidências reais. É uma afirmação desdenhosa que visa fechar a conversa em vez de engajar-se com as ideias apresentadas.
Me avise se quiser explorar outros exemplos de falácias lógicas!
A frase “Olhe, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples, como um ex-ministro do interior deveria saber” contém algumas falácias lógicas:
-
Apelo à Autoridade: A frase sugere implicitamente que, porque o falante menciona um “ex-ministro do interior”, sua opinião tem mais peso. Isso assume que ser um ex-ministro automaticamente concede expertise sobre essa questão específica.
-
Pooh-Pooh: A frase “nunca é tão simples” poderia ser considerada uma forma de pooh-pooh do argumento inicial. Ela descarta o raciocínio direto sem fornecer contra-argumentos substanciais ou explorar as complexidades.
Me avise se quiser analisar outras frases ou argumentos para falácias!
Gemma 2 - 27b
Modelo: gemma2:27b-instruct-q3_K_L
Resposta:
A frase “Mas nunca é tão simples, como um ex-ministro do interior deveria saber” emprega a falácia de apelo à autoridade.
Aqui está o porquê:
- Ela pressupõe expertise: A afirmação implica que, porque a pessoa é uma ex-ministra do interior, automaticamente tem conhecimento especial sobre questões sociais complexas como escassez de moradia.
- A expertise nem sempre é relevante: Embora uma ex-ministra possa ter alguma visão sobre políticas habitacionais, sua experiência não necessariamente a torna uma especialista em todos os fatores contribuintes para uma escassez de moradia.
A frase tenta descartar um argumento potencialmente válido (“muitas pessoas, poucas casas”) simplesmente porque vem de alguém percebido como não tendo expertise no campo.
Me avise se tiver outras frases que quiser analisar!
A frase contém alguns elementos que assemelham-se a falácias lógicas, embora não seja um caso direto:
-
Apelo à Autoridade (Fraco): “como um ex-ministro do interior deveria saber.” Isso tenta conceder peso ao argumento invocando a autoridade anterior do falante sobre o assunto. No entanto, é fraco porque não fornece nenhuma expertise específica ou raciocínio da ministro para apoiar sua posição.
-
Ad Hominem (Potencial): Dependendo do contexto e tom, a frase poderia ser vista como um ataque ad hominem se for intencionada para desacreditar o argumento oposto apenas com base em quem o está fazendo, em vez de abordar o conteúdo real do argumento. Por exemplo, se a frase implicar que a pessoa é incapaz de compreender a política habitacional porque foi uma ministro, isso seria um ad hominem.
Nota Importante: Sem mais contexto sobre o que a pessoa realmente argumentou e o tom geral, é difícil classificar definitivamente esses como exemplos fortes de falácias.
Me avise se tiver outras frases que quiser que eu analise!
Qwen 2 - 7b

Modelo: qwen2:7b-instruct-q8_0
Resposta:
A frase que você forneceu contém várias falácias lógicas:
- Apelo às Emoções (Argumentum ad Passiones): A afirmação “Olhe, à primeira vista, tudo parece perfeitamente razoável” tenta evocar um senso de razoabilidade e simplicidade na mente do ouvinte sem fornecer evidências ou argumentação substancial.
- Falácia do Roubo de Foco: Ao mencionar que “um ex-ministro do interior deveria saber”, o falante introduz um ponto irrelevante (o conhecimento de uma pessoa específica) para desviar a atenção do problema principal, potencialmente enganando o público para pensar que o conhecimento da pessoa é relevante quando pode não ser.
- Falácia do Apelo à Autoridade: Embora não seja explicitamente declarada nesta frase, se alguém alegar que “um ex-ministro do interior” sabe algo porque é um ex-ministro, eles estariam cometendo uma falácia de apelo à autoridade, assumindo que sua posição concede expertise sobre o assunto sem fornecer evidências para seu conhecimento específico ou argumento.
Essas falácias lógicas podem enfraquecer a força de um argumento ao apelar para emoções em vez de lógica e relevância.
A frase que você forneceu:
“Olhe, à primeira vista, tudo parece perfeitamente razoável: muitas pessoas, poucas casas. Mas nunca é tão simples, como um ex-ministro do interior deveria saber.”
não contém nenhuma das falácias de Apelo às Emoções (Apelo ad passiones) mencionadas em sua lista. No entanto, algumas potenciais falácias lógicas poderiam ser:
- Ad Hominem se essa citação for usada como um ataque contra um indivíduo específico (’ex-ministro do interior’) em vez de abordar seu argumento.
- Falácia do Roubo de Foco: Poderia haver um esforço para desviar a atenção do problema original ou argumentos mencionando tópicos irrelevantes, embora não haja um roubo de foco óbvio na frase que você forneceu.
Há também outras falácias não mencionadas sob ‘Apelo às Emoções’ tais como:
- Falso Dilema: Apresentar uma questão complexa em termos binários simples onde não pode ser discutida adequadamente. A frase fornecida não implica esse tipo de falácia.
- Apelo à Autoridade: Usar a opinião ou identidade de alguém famoso em vez de evidências válidas para apoiar um argumento. Não se aplica em sua citação, pois nenhuma autoridade é invocada.
Por favor, esclareça se havia outra frase específica que você queria analisar sob apelo às emoções, e ficaremos felizes em ajudar com isso.
Qwen 2 - 72b
Eu sei, isso é sobrepeso não é da nossa categoria, mas apenas curioso…
Modelo: qwen2:72b-instruct-q2_K
Resposta:
A frase fornecida não contém diretamente um apelo às emoções conforme definido na lista de falácias lógicas. No entanto, ela implica uma potencial falácia lógica conhecida como “Apelo à autoridade” ou “Argumento da autoridade.” Isso é porque o falante sugere que o ex-ministro do interior deveria saber melhor, implicando que a autoridade dele sobre o assunto torna sua opinião mais válida.
A frase não usa diretamente um apelo emocional, mas usa a autoridade do suposto conhecimento do ex-ministro do interior como uma forma de desvalorizar a simplicidade do argumento apresentado. Isso pode ser visto na estrutura da frase: “Mas nunca é tão simples, como um ex-ministro do interior deveria saber.”
Resumindo:
- Falácia lógica presente: Apelo à autoridade
- Definição: Um apelo à autoridade ocorre quando uma afirmação é considerada verdadeira com base na credibilidade ou expertise da pessoa que a faz, em vez da força da evidência.
- Exemplo na frase: “como um ex-ministro do interior deveria saber” implica que a opinião de alguém com tanta experiência carrega mais peso e poderia ser usada para rejeitar explicações simples.
A frase que você forneceu não necessariamente evoca uma resposta emocional específica; em vez disso, apela para o conhecimento e experiência do ouvinte sugerindo que explicações simples frequentemente não contam a história completa. No entanto, se analisarmos para potenciais apelos emocionais:
Apelo à Autoridade: Ela menciona indiretamente “um ex-ministro do interior” que deveria saber melhor do que aceitar explicações simples. Isso poderia ser visto como um esforço indireto para conceder autoridade e credibilidade à complexidade do problema, que pode subtilmente apelar para nosso desejo de orientação de autoridades.
A frase não usa diretamente apelos emocionais como Medo, Culpa, Ridiculização, Raiva, Espite, Náusea, Flattery, Piedade, Patriotismo ou Pooh-Pooh, mas menciona indiretamente a autoridade (apelando para nosso respeito e deferência) para enfatizar a complexidade de questões que não são simplesmente resolvidas culpando “muitas pessoas” pela falta de casas. Isso também pode estar relacionado a:
Apelo à Razão: Ela nos convida a olhar além de soluções simples e considerar que problemas podem ter causas mais profundas ou complexas do que parecem à primeira vista.
Em resumo, embora não haja um forte apelo emocional evidente na frase, ela tenta aproveitar a autoridade e a razão - aspectos frequentemente respeitados na tomada de decisões racionais. Isso destaca um possível jogo estratégico com emoções de confiança em figuras autoritárias para instigar dúvidas em visões simplistas e encorajar considerações mais reflexivas pelos ouvintes que apreciam a complexidade em questões sociais. Uma versão mais sutil poderia potencialmente invocar elementos relacionados a:
- Medo: Subtamente levantar preocupações sobre a simplificação, assim gerando ansiedade sobre complexidades não abordadas.
- Náusea: Desgosto implícito por narrativas simplificadas poderia ser acionado se contextualizado dentro de críticas a discussões políticas superficiais ou ignorantes.
No entanto, esses são indiretos e podem depender fortemente de nuances contextuais em discussões circundantes. Sem conteúdo emocional adicional ou apelos específicos característicos de falácias definidas (ex: manipulação do medo, invocação explícita de culpa), essa frase é principalmente centrada em invocar razão através da autoridade, em vez de manipular sentimentos. Esta posição enfatiza credibilidade, frequentemente apreciada ao analisar falácias que podem manipular emoções sem argumentos sólidos.
Para resumir:
- A afirmação menciona autoridade (“um ex-ministro do interior”), potencialmente gerando respeito ou confiança (como insinua conhecimento interno).
- Pode induzir ansiedade subtil em relação à simplificação como ameaça (embora técnicas de medo não sejam claramente empregadas aqui).
- Um contexto mais detalhado poderia ser necessário para classificações específicas de apelos emocionais, já que apelos inerentes tendem a derivar de como os ouvintes se relacionam emocionalmente com questões além da afirmação em si.
Lembre-se, as falácias normalmente envolvem erros lógicos, mas frequentemente ressoam em vieses pessoais ou ansiedades sociais profundamente influenciados por emoções – assim, tornando essa frase implicações dignas de serem desmontadas cuidadosamente sobre o que os ouvintes poderiam subconscientemente conectar dentro de diálogos mais amplos.
Para explorar mais benchmarks, limites de VRAM e seleção de modelos para GPUs de 16GB, e ajustes de desempenho, consulte nossa Desempenho dos LLMs: Benchmarks, Bottlenecks & Otimização.
Links Úteis
- Detecção de Falácias Lógicas com LLMs
- Falácias Lógicas: https://www.logical-fallacy.com
- Comparação de desempenho de velocidade dos LLMs
- Instalando e configurando Ollama para auto-hospedagem de LLMs
- Comparando as capacidades de resumo dos LLMs
- Modelos de Linguagem Grandes: https://en.wikipedia.org/wiki/Large_language_model
- Auto-hospedagem do Perplexica - com Ollama
- Comparação de LLMs: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi
- Dica rápida do Ollama