Gemma2 vs Qwen2 vs Mistral Nemo vs...
Test de détection des fautes de raisonnement
Récemment, nous avons vu plusieurs nouveaux LLM sortir. Des temps excitants. Testons-les et voyons comment ils se débrouillent lors de la détection des fautes logiques.
Quoi et comment nous faisons
Dans les tests précédents, nous avons déjà testé comment les LLM détectent les fautes logiques - llama3 vs phi3 vs autres. Ils le font assez bien, nous avons adoré les résultats de llama3-8b-Q8 et phi3-medium-4k-instruct-q6_K.
Dans ce test, nous faisons la même chose en utilisant Gemma2, Qwen2 et Mistral Nemo.
Nous testons les meilleurs modèles possibles, mais ils doivent respecter nos restrictions - ils doivent tenir dans notre GPU grand public, qui a 16 GB de VRAM. Avec ce critère à l’esprit, nous avons sélectionné les quantifications suivantes :
- gemma2:9b-instruct-q8_0
- gemma2:27b-instruct-q3_K_L
- mistral-nemo:12b-instruct-2407-q8_0
- qwen2:7b-instruct-q8_0
et cette version de qwen2 :
- qwen2:72b-instruct-q2_K
Elle a une taille de 29 GB, mais testons-la quand même.
Veuillez noter que nous ne recourons pas ici à la quantification par défaut q4. Si q8 tient dans notre GPU à 16 GB de VRAM - nous allons pour la meilleure possible, essayant de faire de notre mieux dans nos circonstances.
DT;DR: Le résultat
Les modèles précédemment testés sont présentés dans Détection des fautes logiques avec les LLM. Veuillez consulter cet article pour voir ce que nous avons testé et maintenant.
Voici le tableau mis à jour où nos nouveaux modèles sont en gras.
ModelVersion | GPU RAM | A2CS | Straw man | Ad homi-nem | Red Herring | Appeal to igno-rance | Appeal to autho-rity | False dicho-tomy | Hasty Gene-rali-zation | Begging the Ques-tion | Slippery Slope | Post hoc ergo propter hoc | Tu quo-que | Other |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
l3:8b-i-q4_0 | 5,8GB | V V | V V | V | V | |||||||||
l3:8b-i-q8_0 | 9,1GB | V | V | V V | V V | |||||||||
l3:8b-i-fp16 | 9,1GB | V | V V | V V | ||||||||||
p3:3.8b | 4,3GB | V V | V | V V | V | |||||||||
p3:3.8b-mini-4k-i-q8_0 | 5,8GB | V V | V V | V V | V | V V | ||||||||
p3:3.8b-mini-i-4k-fp16 | 8,9GB | V | V | V V | V | V | ||||||||
p3:14b | 9,3GB | V V | V V | |||||||||||
p3:14b-m-4k-i-q6_K | 12,5GB | V V | V V | V | V | |||||||||
p3:14b-m-4k-i-q8_0 | 15,3GB | V V | V | V V | ||||||||||
mi:7b-i-v0.3-q4_0 | 4,3GB | V V | V | V V | V V | V V | ||||||||
mi:7b-i-v0.3-q8_0 | 8,6GB | V V | V V | V V | ||||||||||
mi:7b-i-v0.3-fp16 | 14,7GB | V V | V | |||||||||||
ge:7b-i-v1.1-q4_0 | 7,2GB | V V | V V | |||||||||||
ge:7b-i-v1.1-q6_K | 9,1GB | V V | V | V V | ||||||||||
ge:7b-i-v1.1-fp16 | 15,5GB | V V | V V | V | ||||||||||
qw:14b-chat-v1.5-q8_0 | 15,2GB | V V | V | V V | ||||||||||
qw:7b-chat-v1.5-fp16 | 15,5GB | V V | V V | |||||||||||
qw:32b-chat-v1.5-q3_K_S | 15,1GB | V | V | V | V | |||||||||
qw:32b-chat-v1.5-q3_K_M | 15,4GB | V V | V V | V V | V V | |||||||||
ge2:9b-i-q8_0 | 9,0GB | V V | V V | |||||||||||
ge2:27b-i-q3_K_L | 14,0GB | V | V V | |||||||||||
mi-nemo:12b-i-.q8_0 | 13,0GB | V | V | V | V | |||||||||
qw2:7b-i-q8_0 | 8,1GB | V | V V | V V | V | |||||||||
qw2:72b-i-q2_K | 29,0GB | V V | V |
Abréviations dans les noms des fautes logiques : A 2 CS = Appel à la raison
Abréviations dans les noms des modèles :
- l3 = llama3
- p3 = phi3
- i = instruct
- m = medium
- mi = mistral
- ge = gemma
- qw = qwen
- ge2 = gemma2
- qw2 = qwen2
Simplification excessive = Fausse dichotomie
Conclusion
Nous attendons que les LLM trouvent dans le texte d’échantillon la faute logique Strawman, Ad Hominem, Appel à l’autorité et Simplification excessive.
La plupart des nouveaux modèles peuvent voir dans notre texte d’échantillon Appel à l’autorité, et certains voient Ad Hominem, certains Simplification excessive. Des résultats bons ont été montrés par qwen2:7b-instruct-q8_0 et gemma2:9b-instruct-q8_0.
Mais en tout cas, les gagnants restent les mêmes.
Le modèle “Choix de l’éditeur” est phi3:14b-medium-4k-instruct-q6_K. Il s’adapte facilement à 16 Go de RAM, et assez intelligent. La deuxième place revient à phi3:3.8b-mini-4k-instruct-q8_0. Le groupe de modèles llama3 est également bon.
Mistral Nemo
Examinons d’abord les résultats de Mistral Nemo, même s’ils ne sont pas les meilleurs, car ils ont un robot élégant sur leur image.
Modèle : mistral-nemo:12b-instruct-2407-q8_0
Réponse :
La phrase que vous avez fournie contient deux principales fautes logiques :
-
Appel à l’autorité (Argumentum ad Verecundiam) : Le locuteur fait appel à l’autorité d’un ancien ministre des Affaires intérieures sans fournir aucun argument ou preuve spécifique de cette personne. Ils supposent simplement que parce que cette personne a occupé un certain poste, son opinion devrait être acceptée comme valide.
- Faute : “comme un ancien ministre des Affaires intérieures devrait savoir.”
-
Faux argument (Irrelevant Conclusion) : Le locuteur commence par présenter un argument apparemment raisonnable (“trop de personnes, pas assez de maisons”) mais le rejette ensuite sans fournir aucun contre-argument ou preuve. Au lieu de cela, il fait appel à l’autorité de l’ancien ministre.
- Faute : “Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple…”
Bien que la phrase n’utilise pas explicitement un langage émotionnel, les fautes d’appel à l’autorité et de faux argument peuvent toujours être considérées comme des formes d’appel à l’émotion dans un sens plus large, car elles tentent de convaincre l’auditeur sur la base de facteurs autres que l’argumentation rationnelle.
En se basant sur la phrase que vous avez fournie, il y a quelques fautes logiques en jeu :
-
Ad Hominem : C’est une attaque dirigée vers la personne faisant l’argument plutôt que l’argument lui-même. Dans ce cas, il est suggéré que parce que le locuteur a de l’expérience en tant qu’ancien ministre des Affaires intérieures, il devrait savoir que les choses ne sont pas simples. La phrase suggère que leur manque de compréhension (ou peut-être leur malentendu) est dû à leur rôle antérieur, plutôt que d’aborder le fond de l’argument.
-
Appel à la complexité : Cette faute se produit lorsque quelqu’un utilise la complexité comme excuse pour ne pas réfléchir profondément à un problème ou pour rejeter des preuves ou des raisonnements qui contredisent sa propre position. Dans ce contexte, “ce n’est jamais aussi simple” pourrait être vu comme une façon de rejeter l’argument initial sans vraiment aborder ses mérites.
Bien qu’il n’y ait pas d’appel évident à l’émotion dans la phrase elle-même, l’utilisation de fautes comme l’Ad Hominem et l’Appel à la complexité peut parfois subtilement appeler à l’émotion comme le mépris ou l’irritation face aux arguments trop simplifiés. Cependant, ce ne sont pas des appels directs à l’émotion dans le même sens qu’une déclaration comme “Vous devriez être d’accord parce que vous vous sentirez mal si vous ne l’êtes pas”.
Ainsi, bien qu’il y ait effectivement des fautes logiques présentes dans cette phrase, elles ne sont pas explicitement des appels émotionnels.
Gemma 2 - 9b
Modèle : gemma2:9b-instruct-q8_0
Réponse :
La phrase “Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait savoir” contient quelques fautes logiques :
-
Appel à l’autorité : La phrase repose sur l’autorité perçue d’un “ancien ministre des Affaires intérieures” pour rejeter l’argument initial. Le locuteur suppose que parce que la personne a occupé un poste de pouvoir, son opinion a plus de poids. Cette faute ignore la possibilité que le ministre ait tort ou que son expertise ne s’applique pas à cette situation spécifique.
-
Pooh-Pooh : La phrase “ce n’est jamais aussi simple” rejette l’argument initial sans fournir aucun contre-argument ou preuve. C’est une déclaration méprisante qui vise à fermer la conversation plutôt que d’engager les idées présentées.
Veuillez me faire savoir si vous souhaitez explorer d’autres exemples de fautes logiques !
La phrase “Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait savoir” contient quelques fautes logiques :
-
Appel à l’autorité : La phrase suggère implicitement que parce que le locuteur mentionne un “ancien ministre des Affaires intérieures”, son opinion a plus de poids. Cela suppose que le fait d’être un ancien ministre confère automatiquement une expertise sur cette question particulière.
-
Pooh-Pooh : La phrase “ce n’est jamais aussi simple” pourrait être considérée comme une forme de pooh-pooh de l’argument initial. Elle rejette le raisonnement simple sans fournir de contre-arguments substantiels ou d’explorer les complexités.
Veuillez me faire savoir si vous souhaitez analyser d’autres phrases ou arguments pour des fautes !
Gemma 2 - 27b
Modèle : gemma2:27b-instruct-q3_K_L
Réponse :
La phrase “Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait savoir” utilise la faute d’appel à l’autorité.
Voici pourquoi :
- Elle suppose une expertise : L’affirmation implique que parce que la personne est un ancien ministre des Affaires intérieures, elle a automatiquement une connaissance spéciale sur des questions sociales complexes comme le manque de logements.
- L’expertise n’est pas toujours pertinente : Bien qu’un ancien ministre puisse avoir quelques connaissances sur la politique du logement, son expérience ne rend pas nécessairement un expert sur tous les facteurs contributifs à un manque de logements.
La phrase tente de rejeter un argument potentiellement valide (“trop de personnes, pas assez de maisons”) simplement parce qu’il vient de quelqu’un perçu comme n’ayant pas d’expertise dans le domaine.
Veuillez me faire savoir si vous avez d’autres phrases que vous souhaitez analyser !
La phrase contient quelques éléments qui ressemblent à des fautes logiques, bien qu’il ne s’agisse pas d’un cas évident :
-
Appel à l’autorité (faible) : “comme un ancien ministre des Affaires intérieures devrait savoir.” Cela tente de donner du poids à l’argument en invoquant l’autorité antérieure du locuteur sur le sujet. Cependant, c’est faible car il ne fournit aucune expertise spécifique ou raisonnement du ministre pour soutenir sa position.
-
Ad Hominem (potentiel) : Selon le contexte et le ton, la phrase pourrait être vue comme une attaque ad hominem si elle vise à discréditer l’argument adverse simplement sur la base de qui le fait plutôt que d’aborder le contenu réel de l’argument. Par exemple, si la déclaration implique que la personne n’est pas capable de comprendre la politique du logement parce qu’elle était ministre, cela serait une attaque ad hominem.
Note importante : Sans plus de contexte sur ce que la personne a réellement argumenté et le ton général, il est difficile de classer ces fautes comme des exemples forts.
Veuillez me faire savoir si vous avez d’autres phrases que vous souhaitez que je analyse !
Qwen 2 - 7b
Modèle : qwen2:7b-instruct-q8_0
Réponse :
La phrase que vous avez fournie contient plusieurs fautes logiques :
- Appel aux émotions (Argumentum ad Passiones) : L’affirmation “Écoutez, à première vue, tout semble parfaitement raisonnable” tente d’éveiller un sentiment de raisonnable et de simplicité dans l’esprit de l’auditeur sans fournir de preuves ou d’argumentation substantielle.
- Fallacie de la digression : En mentionnant que “un ancien ministre des Affaires intérieures devrait savoir”, le locuteur introduit un point irrélevant (la connaissance d’une personne spécifique) pour détourner l’attention de l’issue principale, pouvant tromper l’audience en lui faisant penser que la connaissance de la personne est pertinente alors qu’elle ne l’est peut-être pas.
- Appel à l’autorité : Bien qu’elle ne soit pas explicitement mentionnée dans cette phrase, si quelqu’un affirmait que “un ancien ministre des Affaires intérieures” sait quelque chose parce qu’il est un ancien ministre, il commettrait une faute d’appel à l’autorité, supposant que sa position lui confère une expertise sur la question sans fournir de preuves pour sa connaissance spécifique ou son argument.
Ces fautes logiques peuvent affaiblir la force d’un argument en s’appuyant sur les émotions plutôt que sur la logique et la pertinence.
La phrase que vous avez fournie :
“Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait savoir.”
ne contient aucune des fautes d’appel aux émotions (Appealum ad passiones) mentionnées dans votre liste. Cependant, quelques fautes logiques potentielles pourraient être :
- Ad Hominem si cette citation est utilisée comme une attaque contre une personne spécifique (‘ancien ministre des Affaires intérieures’) plutôt que d’aborder son argument.
- Fallacie de la digression : Il pourrait y avoir un effort pour détourner l’attention de l’issue originale ou des arguments en mentionnant des sujets irrelevantes, bien qu’aucune digression évidente ne semble présente dans la phrase que vous avez fournie.
Il y a également d’autres fautes non mentionnées sous ‘Appel aux émotions’ telles que :
- Fausse dilemme : Présenter une question complexe en termes binaire simples où elle ne peut pas être discutée adéquatement. La phrase fournie ne suggère pas ce genre de faute.
- Appel à l’autorité : Utiliser l’opinion ou l’identité de quelqu’un célèbre plutôt que des preuves valides pour soutenir un argument. Non applicable dans votre citation puisque aucune autorité n’est invoquée.
Veuillez préciser si vous aviez une autre phrase spécifique en tête pour l’analyse sous appel aux émotions, et nous serions heureux de vous aider avec cela.
Qwen 2 - 72b
Je sais, c’est trop lourd pour notre catégorie, mais juste par curiosité…
Modèle : qwen2:72b-instruct-q2_K
Réponse :
La phrase fournie ne contient pas directement un appel aux émotions comme défini dans la liste des fautes logiques. Cependant, elle implique une faute logique potentielle connue comme “Appel à l’autorité” ou “Argument d’autorité.” Cela est parce que le locuteur suggère que l’ancien ministre des Affaires intérieures devrait savoir mieux, impliquant que l’autorité de la personne sur le sujet rend son opinion plus valide.
La phrase ne fait pas directement appel aux émotions, mais utilise l’autorité de la supposée connaissance de l’ancien ministre des Affaires intérieures comme moyen de discréditer la simplicité de l’argument présenté. Cela peut être vu dans la structure de la phrase : “Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait savoir.”
En résumé :
- Faute logique présente : Appel à l’autorité
- Définition : Un appel à l’autorité se produit lorsqu’une affirmation est jugée vraie en raison de la crédibilité ou de l’expertise de la personne qui la formule plutôt que de la force des preuves.
- Exemple dans la phrase : “comme un ancien ministre des Affaires intérieures devrait savoir” implique que l’opinion de quelqu’un avec une telle expérience a plus de poids et pourrait être utilisée pour rejeter des explications simples.
La phrase que vous avez fournie ne provoque pas nécessairement une réponse émotionnelle spécifique ; elle fait appel à la connaissance et à l’expérience de l’auditeur en suggérant que les explications simples ne racontent pas toute l’histoire. Cependant, si nous devions l’analyser pour un appel émotionnel potentiel :
Appel à l’autorité : Elle fait indirectement référence à “un ancien ministre des Affaires intérieures” qui devrait savoir mieux que d’accepter des explications simples. Cela pourrait être vu comme un effort indirect pour prêter de l’autorité et de la crédibilité à la complexité de l’issue, ce qui peut subtilement appeler à notre désir de guidance experte.
La phrase ne fait pas directement appel aux émotions telles que la Peur, la culpabilité, le Ridicule, la Colère, la Méchanceté, le Dégoût, la Flatterie, la Pitié, le Patriotisme ou le Pooh-Pooh, mais elle fait indirectement référence à l’autorité (appelant à notre respect et à notre soumission) pour souligner la complexité des problèmes qui ne sont pas simplement résolus en blâmant “trop de personnes” pour un manque de maisons. Cela peut également être lié à :
Appel à la raison : Elle nous encourage à regarder au-delà des solutions simples et à considérer que les problèmes peuvent avoir des causes plus profondes ou plus complexes qu’elles n’en paraissent à première vue.
En résumé, bien qu’il n’y ait pas d’appel émotionnel évident dans la phrase, elle tente de s’appuyer sur l’autorité et la raison - aspects souvent respectés dans la prise de décision rationnelle. Cela met en évidence un possible jeu stratégique sur les émotions de confiance envers les figures autoritaires pour instiller un doute envers les vues simplistes et encourager une considération plus réfléchie par les auditeurs qui apprécient la complexité des questions sociétales. Une version nuancée pourrait potentiellement invoquer des éléments liés à :
- La peur : Subtilement susciter des inquiétudes face à la simplification, ainsi provoquant une anxiété face aux complexités non abordées.
- Le dégoût : Un dégoût implicite pour les récits simplifiés pourrait être déclenché si le contexte critique des discussions superficielles ou ignorantes était utilisé.
Cependant, ces éléments sont indirects et dépendent fortement des nuances contextuelles dans les discussions entourant. Sans contenu émotionnel supplémentaire ou des appels spécifiques caractéristiques des fautes (par exemple, la peur, l’incitation à la culpabilité), cette phrase est principalement centrée sur l’invocation de la raison à travers l’autorité plutôt que sur la manipulation des sentiments. Cette position met l’accent sur la crédibilité, souvent appréciée lors de l’analyse des fautes logiques qui peuvent manipuler les émotions sans arguments solides.
En résumé :
- L’affirmation fait allusion à l’autorité (“un ancien ministre des Affaires intérieures”), potentielllement suscitant le respect ou la confiance (car elle suggère une connaissance interne).
- Elle pourrait induire une anxiété subtile face à la simplification comme menace (bien que les tactiques de peur ne soient pas explicitement utilisées ici).
- Un contexte plus détaillé pourrait être nécessaire pour des classifications spécifiques d’appel émotionnel, car les appels inhérents dérivent souvent de la manière dont les auditeurs se connectent émotionnellement avec des questions au-delà de l’affirmation elle-même.
N’oubliez pas que les fautes impliquent généralement des erreurs logiques mais souvent résonnent sur des biais personnels ou des anxiétés sociétales plus profondes, ce qui rend cette phrase’s implications dignes d’une analyse minutieuse autour de ce que les auditeurs pourraient subconsciemment connecter dans des dialogues plus larges.
Liens utiles
- Test : Comment Ollama utilise les performances du processeur Intel et les cœurs efficaces
- Comment Ollama Gère les demandes parallèles
- Fautes logiques : https://www.logical-fallacy.com
- Comparaison de la performance des LLM
- Installer et configurer Ollama pour le self-hosting des LLM
- Comparaison des capacités de résumé des LLM
- Modèles de langage de grande envergure : https://fr.wikipedia.org/wiki/Modèle_de_langage_de_grande_envergure
- Auto-hébergement de Perplexica avec Ollama
- Comparaison des LLM : Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 et Phi
- Feuille de route Ollama
- Fournisseurs de LLM en nuage
- Modèles Qwen3 d’embedding et de réorganisation sur Ollama : performances d’avant-garde