Gemma2 vs Qwen2 vs Mistral Nemo vs...
Test de détection des fautes de raisonnement
Récemment, nous avons vu plusieurs nouveaux LLM sortir. Des temps excitants. Testons-les et voyons comment ils se débrouillent lorsqu’ils détectent les fautes logiques.
Pour plus d’informations sur les performances des LLM — débit vs latence, limites de VRAM et benchmarks à travers les runtimes et le matériel — voir LLM Performance: Benchmarks, Bottlenecks & Optimization.

Qu’est-ce que nous faisons et comment
Dans les tests précédents, nous avons déjà testé comment LLM détectent les fautes logiques - llama3 vs phi3 vs autres. Ils le font assez bien, nous avons adoré les résultats de llama3-8b-Q8 et phi3-medium-4k-instruct-q6_K.
Dans ce test, nous faisons la même chose en utilisant Gemma2, Qwen2 et Mistral Nemo.
Nous testons les meilleurs modèles possibles, mais ils doivent respecter nos restrictions - ils doivent s’adapter à notre carte graphique grand public, qui a 16 GB de VRAM. Avec ce critère à l’esprit, nous avons sélectionné les quantifications suivantes :
- gemma2:9b-instruct-q8_0
- gemma2:27b-instruct-q3_K_L
- mistral-nemo:12b-instruct-2407-q8_0
- qwen2:7b-instruct-q8_0
et cette version de qwen2 :
- qwen2:72b-instruct-q2_K
Elle a une taille de 29 GB, mais testons-la quand même.
Veuillez noter ici que nous n’utilisons pas le quantification par défaut q4. si q8 s’adapte à notre GPU de 16 GB de VRAM - nous allons pour la meilleure option possible, essayant le mieux possible dans nos circonstances.
DT;DR: Le résultat
Les modèles précédemment testés sont présentés dans Logical Fallacy Detection with LLMs. Veuillez consulter cet article pour voir ce que nous testons et maintenant.
Voici le tableau mis à jour où nos nouveaux modèles sont en gras.
| ModelVersion | GPU RAM | A2CS | Straw man | Ad homi-nem | Red Herring | Appeal to igno-rance | Appeal to autho-rity | False dicho-tomy | Hasty Gene-rali-zation | Begging the Ques-tion | Slippery Slope | Post hoc ergo propter hoc | Tu quo-que | Other |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| l3:8b-i-q4_0 | 5.8GB | V V | V V | V | V | |||||||||
| l3:8b-i-q8_0 | 9.1GB | V | V | V V | V V | |||||||||
| l3:8b-i-fp16 | 9.1GB | V | V V | V V | ||||||||||
| p3:3.8b | 4.3GB | V V | V | V V | V | |||||||||
| p3:3.8b-mini-4k-i-q8_0 | 5.8GB | V V | V V | V V | V | V V | ||||||||
| p3:3.8b-mini-i-4k-fp16 | 8.9GB | V | V | V V | V | V | ||||||||
| p3:14b | 9.3GB | V V | V V | |||||||||||
| p3:14b-m-4k-i-q6_K | 12.5GB | V V | V V | V | V | |||||||||
| p3:14b-m-4k-i-q8_0 | 15.3GB | V V | V | V V | ||||||||||
| mi:7b-i-v0.3-q4_0 | 4.3GB | V V | V | V V | V V | V V | ||||||||
| mi:7b-i-v0.3-q8_0 | 8.6GB | V V | V V | V V | ||||||||||
| mi:7b-i-v0.3-fp16 | 14.7GB | V V | V | |||||||||||
| ge:7b-i-v1.1-q4_0 | 7.2GB | V V | V V | |||||||||||
| ge:7b-i-v1.1-q6_K | 9.1GB | V V | V | V V | ||||||||||
| ge:7b-i-v1.1-fp16 | 15.5GB | V V | V V | V | ||||||||||
| qw:14b-chat-v1.5-q8_0 | 15.2GB | V V | V | V V | ||||||||||
| qw:7b-chat-v1.5-fp16 | 15.5GB | V V | V V | |||||||||||
| qw:32b-chat-v1.5-q3_K_S | 15.1GB | V | V | V | V | |||||||||
| qw:32b-chat-v1.5-q3_K_M | 15.4GB | V V | V V | V V | V V | |||||||||
| ge2:9b-i-q8_0 | 9.0GB | V V | V V | |||||||||||
| ge2:27b-i-q3_K_L | 14.0GB | V | V V | |||||||||||
| mi-nemo:12b-i-.q8_0 | 13.0GB | V | V | V | V | |||||||||
| qw2:7b-i-q8_0 | 8.1GB | V | V V | V V | V | |||||||||
| qw2:72b-i-q2_K | 29.0GB | V V | V |
Abréviations dans les noms des fautes logiques : A 2 CS = Appel à la raison commune
Abréviations dans les noms des modèles :
- l3 = llama3
- p3 = phi3
- i = instruct
- m = medium
- mi = mistral
- ge = gemma
- qw = qwen
- ge2 = gemma2
- qw2 = qwen2
Simplification excessive = fausse dichotomie
Conclusion
Nous attendons que les LLM trouvent dans le texte d’échantillon la faute logique Strawman, Ad Hominem, Appel à l’autorité et Simplification excessive.
La plupart des nouveaux modèles peuvent voir dans notre texte d’échantillon l’Appel à l’autorité, et certains voient l’Ad Hominem, certains la Simplification excessive. De bons résultats ont été montrés par qwen2:7b-instruct-q8_0 et gemma2:9b-instruct-q8_0.
Mais malgré tout, les gagnants restent les mêmes.
Le modèle « choix de l’éditeur » est phi3:14b-medium-4k-instruct-q6_K. Il s’adapte facilement à 16 Go de RAM, et est assez intelligent. La deuxième place revient à phi3:3.8b-mini-4k-instruct-q8_0. Le groupe de modèles llama3 est également bon.
Mistral Nemo
Examinons d’abord les résultats de Mistral Nemo, même s’ils ne sont pas les meilleurs, car ils ont un robot élégant sur leur image.

Modèle : mistral-nemo:12b-instruct-2407-q8_0
Réponse :
La phrase que vous avez fournie contient deux principales fautes logiques :
-
Appel à l’autorité (Argumentum ad Verecundiam) : Le locuteur fait appel à l’autorité d’un ancien ministre des Affaires intérieures sans fournir aucun argument ou preuve spécifique de cette personne. Ils supposent simplement que parce que cette personne a occupé un certain poste, son opinion devrait être acceptée comme valide.
- Faute : « comme un ancien ministre des Affaires intérieures devrait le savoir. »
-
Red Herring (Conclusion irrélevante) : Le locuteur commence par présenter un argument apparemment raisonnable (« trop de personnes, pas assez de maisons »), mais le rejette ensuite sans fournir aucun contre-argument ou preuve. Au lieu de cela, il fait appel à l’autorité de l’ancien ministre.
- Faute : « Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple… »
Bien que la phrase n’utilise pas explicitement un langage émotionnel, l’appel à l’autorité et la faute de red herring peuvent toujours être considérés comme des formes d’appel à l’émotion dans un sens plus large, car ils tentent de convaincre l’auditeur en se basant sur des facteurs autres que l’argumentation rationnelle.
En se basant sur la phrase que vous avez fournie, il y a quelques fautes logiques en jeu :
-
Ad Hominem : C’est une attaque dirigée vers la personne faisant l’argument plutôt que l’argument lui-même. Dans ce cas, il est suggéré que, parce que le locuteur a de l’expérience en tant qu’ancien ministre des Affaires intérieures, il devrait savoir que les choses ne sont pas simples. La phrase suggère que leur manque de compréhension (ou peut-être leur malentendu) est dû à leur rôle antérieur, plutôt que d’aborder la substance de l’argument.
-
Appel à la complexité : Cette faute se produit lorsqu’on utilise la complexité comme excuse pour ne pas réfléchir profondément à un problème ou pour rejeter des preuves ou des raisonnements contraires à sa propre position. Dans ce contexte, « ce n’est jamais aussi simple » pourrait être vu comme une manière de rejeter l’argument initial sans vraiment aborder ses mérites.
Bien qu’il n’y ait pas d’appel évident à l’émotion dans la phrase elle-même, l’utilisation de fautes comme l’Ad Hominem et l’Appel à la complexité peut parfois subtilement appeler à des émotions comme le mépris ou l’irritation face aux arguments trop simplifiés. Cependant, ce ne sont pas des appels directs à l’émotion dans le même sens qu’une déclaration comme « Vous devriez être d’accord parce que vous vous sentirez mal si vous ne l’êtes pas ».
Ainsi, bien qu’il y ait effectivement des fautes logiques présentes dans cette phrase, elles ne sont pas explicitement des appels émotionnels.
Gemma 2 - 9b

Modèle : gemma2:9b-instruct-q8_0
Réponse :
La phrase « Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir » contient quelques fautes logiques :
-
Appel à l’autorité : La phrase repose sur l’autorité perçue d’un « ancien ministre des Affaires intérieures » pour rejeter l’argument initial. Le locuteur suppose que parce que la personne a occupé un poste de pouvoir, son opinion a plus de poids. Cette faute ignore la possibilité que le ministre ait tort ou que son expertise ne s’applique pas à cette situation spécifique.
-
Pooh-Pooh : La phrase « ce n’est jamais aussi simple » rejette l’argument initial sans fournir aucun contre-argument ou preuve réelle. C’est une déclaration méprisante qui vise à fermer la conversation plutôt que d’engager les idées présentées.
Veuillez me faire savoir si vous souhaitez explorer d’autres exemples de fautes logiques !
La phrase « Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir » contient quelques fautes logiques :
-
Appel à l’autorité : La phrase suggère implicitement que, parce que le locuteur mentionne un « ancien ministre des Affaires intérieures », son opinion a plus de poids. Cela suppose que le fait d’être un ancien ministre confère automatiquement une expertise sur cette question particulière.
-
Pooh-Pooh : La phrase « ce n’est jamais aussi simple » pourrait être considérée comme une forme de pooh-pooh de l’argument initial. Elle rejette le raisonnement simple sans fournir de contre-arguments substantiels ou d’explorer les complexités.
Veuillez me faire savoir si vous souhaitez analyser d’autres phrases ou arguments pour des fautes logiques !
Gemma 2 - 27b
Modèle : gemma2:27b-instruct-q3_K_L
Réponse :
La phrase « Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir » utilise la faute d’appel à l’autorité.
Voici pourquoi :
- Elle suppose une expertise : La déclaration implique que parce que la personne est une ancienne ministre des Affaires intérieures, elle a automatiquement une connaissance spéciale sur des questions sociales complexes comme le manque de logements.
- L’expertise n’est pas toujours pertinente : Bien qu’une ancienne ministre puisse avoir quelques insights sur la politique du logement, son expérience ne rend pas nécessairement experte sur tous les facteurs contributifs à un manque de logements.
La phrase tente de rejeter un argument potentiellement valide (« trop de personnes, pas assez de maisons ») simplement parce qu’il vient de quelqu’un perçu comme n’ayant pas d’expertise dans le domaine.
Veuillez me faire savoir si vous avez d’autres phrases que vous souhaiteriez analyser !
La phrase contient quelques éléments qui ressemblent à des fautes logiques, bien qu’il ne s’agisse pas d’un cas clair :
-
Appel à l’autorité (faible) : « comme un ancien ministre des Affaires intérieures devrait le savoir. » Cela tente d’ajouter du poids à l’argument en invoquant l’autorité précédente du locuteur sur le sujet. Cependant, c’est faible car elle ne fournit aucune expertise spécifique ou raisonnement du ministre pour soutenir sa position.
-
Ad Hominem (potentiel) : Selon le contexte et le ton, la phrase pourrait être vue comme une attaque ad hominem si elle vise à discréditer l’argument adverse simplement sur la base de qui le fait plutôt que d’aborder le contenu de l’argument. Par exemple, si la déclaration implique que la personne est incapable de comprendre la politique du logement parce qu’elle était ministre, cela serait une attaque ad hominem.
Note importante : Sans plus de contexte sur ce que la personne a réellement argumenté et le ton général, il est difficile de classer ces exemples comme des fautes fortes.
Veuillez me faire savoir si vous avez d’autres phrases que vous souhaiteriez que je analyse !
Qwen 2 - 7b

Modèle : qwen2:7b-instruct-q8_0
Réponse :
La phrase que vous avez fournie contient plusieurs fautes logiques :
- Appel aux émotions (Argumentum ad Passiones) : L’affirmation « Écoutez, à première vue, tout semble parfaitement raisonnable » tente d’éveiller un sentiment de raisonabilité et de simplicité chez l’auditeur sans fournir de preuves ou d’arguments substantiels.
- Faute de Red Herring : En mentionnant que « un ancien ministre des Affaires intérieures devrait le savoir », le locuteur introduit un point irrélevant (la connaissance d’une personne spécifique) pour détourner l’attention de l’issue principale, pouvant tromper l’audience en la faisant penser que la connaissance de cette personne est pertinente alors qu’elle ne l’est peut-être pas.
- Appel à l’autorité : Bien que ce ne soit pas explicitement mentionné dans cette phrase, si quelqu’un affirmait que « un ancien ministre des Affaires intérieures » sait quelque chose parce qu’il est un ancien ministre, il commettrait une faute d’appel à l’autorité, supposant que sa position lui confère une expertise sur la question sans fournir de preuves de sa connaissance ou de son argument spécifique.
Ces fautes logiques peuvent affaiblir la force d’un argument en faisant appel aux émotions plutôt que à la logique et à la pertinence.
La phrase que vous avez fournie :
« Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir. »
ne contient aucune des fautes d’appel aux émotions (Appealum ad passiones) mentionnées dans votre liste. Cependant, quelques fautes logiques potentielles pourraient être :
- Ad Hominem si cette citation est utilisée comme une attaque contre une personne spécifique (« ancien ministre des Affaires intérieures ») plutôt que d’aborder son argument.
- Faute de Red Herring : Il pourrait y avoir une tentative de détourner l’attention de l’issue originale ou des arguments en mentionnant des sujets irrelevantes, bien qu’aucun red herring évident ne semble présent dans la phrase que vous avez fournie.
Il y a également d’autres fautes non mentionnées sous « Appel aux émotions » telles que :
- Fausse Dilemme : Présenter une question complexe en termes binaire simples où elle ne peut pas être discutée adéquatement. La phrase fournie ne suggère pas ce genre de faute.
- Appel à l’autorité : Utiliser l’opinion ou l’identité d’une personne célèbre plutôt que des preuves valides pour soutenir un argument. Non applicable dans votre citation car aucune autorité n’est invoquée.
Veuillez préciser si vous aviez une autre phrase spécifique en tête pour l’analyse sous appel aux émotions, et nous serons heureux de vous aider avec cela.
Qwen 2 - 72b
Je sais, ce n’est pas de notre catégorie, mais juste par curiosité…
Modèle : qwen2:72b-instruct-q2_K
Réponse :
La phrase fournie ne contient pas directement un appel aux émotions tel que défini dans la liste des fautes logiques. Cependant, elle implique une potentielle faute logique connue sous le nom de « Appel à l’autorité » ou « Argument d’autorité ». Cela est dû au fait que le locuteur suggère que l’ancien ministre des Affaires intérieures devrait le savoir, impliquant que l’autorité de cette personne sur le sujet rend son opinion plus valide.
La phrase ne fait pas directement appel aux émotions, mais utilise l’autorité de la supposée connaissance de l’ancien ministre des Affaires intérieures comme moyen de discréditer la simplicité de l’argument présenté. Cela peut être vu dans la structure de la phrase : « Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir. »
En résumé :
- Faute logique présente : Appel à l’autorité
- Définition : Un appel à l’autorité se produit lorsque l’affirmation est considérée comme vraie en raison de la crédibilité ou de l’expertise de la personne qui fait la déclaration plutôt que de la force des preuves.
- Exemple dans la phrase : « comme un ancien ministre des Affaires intérieures devrait le savoir » implique que l’opinion de quelqu’un avec une telle expérience a plus de poids et pourrait être utilisée pour rejeter des explications simples.
La phrase que vous avez fournie ne provoque pas nécessairement une réponse émotionnelle spécifique ; elle fait appel à la connaissance et à l’expérience de l’auditeur en suggérant que les explications simples ne racontent pas toute l’histoire. Cependant, si nous devions l’analyser pour un appel émotionnel potentiel :
Appel à l’autorité : Elle fait indirectement référence à « un ancien ministre des Affaires intérieures » qui devrait le savoir mieux que d’accepter des explications simples. Cela pourrait être vu comme une tentative indirecte d’ajouter de l’autorité et de crédibilité à la complexité de l’issue, ce qui peut subtilement appeler à notre désir de guidance experte.
La phrase ne fait pas directement appel aux émotions telles que la Peur, la Culpabilité, le Ridicule, la Colère, la Vexation, le Dégoût, la Flatterie, la Pitié, le Patriotisme ou le Pooh-Pooh, mais elle fait indirectement référence à l’autorité (en nous faisant respecter et déléguer) pour souligner la complexité des problèmes qui ne sont pas simplement résolus en blâmant « trop de personnes » pour un manque de maisons. Cela peut également être lié à :
Appel à la Raison : Elle nous encourage à regarder au-delà des solutions simples et à considérer que les problèmes peuvent avoir des causes plus profondes ou plus complexes qu’elles ne semblent au premier abord.
En résumé :
- La déclaration évoque l’autorité (« un ancien ministre des Affaires intérieures »), potentielllement déclenchant le respect ou la confiance (car elle suggère une connaissance interne).
- Elle pourrait provoquer une anxiété subtile face à la simplification comme menace (bien que les tactiques de peur ne soient pas explicitement utilisées ici).
- Un contexte plus détaillé pourrait être nécessaire pour des classifications spécifiques d’appel émotionnel, car les appels inhérents dérivent souvent de la manière dont les auditeurs se connectent émotionnellement avec les questions au-delà de la déclaration elle-même.
Souvenez-vous, les fautes logiques impliquent généralement des erreurs de logique, mais elles résonnent souvent sur des biais personnels ou des anxiétés sociales plus profondes influencés par les émotions. Cela rend cette phrase’s implications dignes d’être déballées soigneusement autour de ce que les auditeurs pourraient subconsciemment connecter dans des dialogues plus larges.
Pour explorer davantage de benchmarks, de limites de VRAM et de sélection de modèles pour les GPU de 16 Go, ainsi que d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.
Liens utiles
- Détection des fautes logiques avec les LLM
- Fautes logiques : https://www.logical-fallacy.com
- Comparaison de la performance des LLM
- Installer et configurer Ollama pour le self-hosting des LLM
- Comparaison des capacités de résumé des LLM
- Modèles de langage grand : https://en.wikipedia.org/wiki/Large_language_model
- Auto-hébergement de Perplexica - avec Ollama
- Comparaison des LLM : Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi
- Feuille de route Ollama