Quels modèles ont été comparés pour la détection des fautes logiques ?

Gemma2 (9b et 27b), Qwen2 (7b et 72b) et Mistral Nemo 12b ont été testés, tous contraints pour s’adapter ou s’adapter partiellement à 16 Go de VRAM.

Pourquoi utiliser la quantification q8 alors que la q4 tient dans 16 Go ?

Lorsque q8 tient dans 16 Go de VRAM, nous l’utilisons pour une meilleure qualité. L’article explique comment choisir la meilleure quantification compatible avec la carte graphique.

Où puis-je trouver plus de benchmarks de performance des LLM ?

Notre centre de performance des LLM aborde le débit par rapport à la latence, les limites de VRAM, les requêtes parallèles et les benchmarks sur différents runtimes et matériels.

Comment la VRAM affecte-t-elle les modèles que vous pouvez tester ?

Avec 16 Go de VRAM, nous sélectionnons des quantifications (par exemple q8_0, q3_K_L) afin que les modèles puissent s’adapter. Les modèles plus volumineux peuvent utiliser le déchargement sur le CPU. La section « Performance des LLM » aborde davantage les aspects de la VRAM et de la vitesse.

Quelle est l’erreur logique utilisée dans cette comparaison ?

Le même test que dans l’article Détection des fautes logiques avec les LLM — détecter le sophisme du faux ami, l’ad hominem, le détour, et autres types de fautes logiques dans les sorties des modèles.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Test de détection des fautes de raisonnement

Sommaire

Récemment, nous avons vu plusieurs nouveaux LLM sortir. Des temps excitants. Testons-les et voyons comment ils se débrouillent lorsqu’ils détectent les fautes logiques.

Pour plus d’informations sur les performances des LLM — débit vs latence, limites de VRAM et benchmarks à travers les runtimes et le matériel — voir LLM Performance: Benchmarks, Bottlenecks & Optimization.

Présentation de mistral nemo

Qu’est-ce que nous faisons et comment

Dans les tests précédents, nous avons déjà testé comment LLM détectent les fautes logiques - llama3 vs phi3 vs autres. Ils le font assez bien, nous avons adoré les résultats de llama3-8b-Q8 et phi3-medium-4k-instruct-q6_K.

Dans ce test, nous faisons la même chose en utilisant Gemma2, Qwen2 et Mistral Nemo.

Nous testons les meilleurs modèles possibles, mais ils doivent respecter nos restrictions - ils doivent s’adapter à notre carte graphique grand public, qui a 16 GB de VRAM. Avec ce critère à l’esprit, nous avons sélectionné les quantifications suivantes :

gemma2:9b-instruct-q8_0
gemma2:27b-instruct-q3_K_L
mistral-nemo:12b-instruct-2407-q8_0
qwen2:7b-instruct-q8_0

et cette version de qwen2 :

qwen2:72b-instruct-q2_K

Elle a une taille de 29 GB, mais testons-la quand même.

Veuillez noter ici que nous n’utilisons pas le quantification par défaut q4. si q8 s’adapte à notre GPU de 16 GB de VRAM - nous allons pour la meilleure option possible, essayant le mieux possible dans nos circonstances.

DT;DR: Le résultat

Les modèles précédemment testés sont présentés dans Logical Fallacy Detection with LLMs. Veuillez consulter cet article pour voir ce que nous testons et maintenant.

Voici le tableau mis à jour où nos nouveaux modèles sont en gras.

ModelVersion	GPU RAM	A2CS	Straw man	Ad homi-nem	Red Herring	Appeal to igno-rance	Appeal to autho-rity	False dicho-tomy	Hasty Gene-rali-zation	Begging the Ques-tion	Slippery Slope	Post hoc ergo propter hoc	Tu quo-que	Other
l3:8b-i-q4_0	5.8GB	V V	V V	V	V
l3:8b-i-q8_0	9.1GB		V			V	V V	V V
l3:8b-i-fp16	9.1GB		V				V V	V V
p3:3.8b	4.3GB		V V	V			V V		V
p3:3.8b-mini-4k-i-q8_0	5.8GB		V V	V V			V V	V	V V
p3:3.8b-mini-i-4k-fp16	8.9GB		V			V	V V		V	V
p3:14b	9.3GB			V V				V V
p3:14b-m-4k-i-q6_K	12.5GB		V V				V V	V	V
p3:14b-m-4k-i-q8_0	15.3GB			V V			V	V V
mi:7b-i-v0.3-q4_0	4.3GB			V V	V		V V		V V		V V
mi:7b-i-v0.3-q8_0	8.6GB		V V	V V					V V
mi:7b-i-v0.3-fp16	14.7GB						V V		V
ge:7b-i-v1.1-q4_0	7.2GB			V V								V V
ge:7b-i-v1.1-q6_K	9.1GB			V V					V			V V
ge:7b-i-v1.1-fp16	15.5GB			V V								V V	V
qw:14b-chat-v1.5-q8_0	15.2GB		V V	V			V V
qw:7b-chat-v1.5-fp16	15.5GB						V V	V V
qw:32b-chat-v1.5-q3_K_S	15.1GB		V	V			V	V
qw:32b-chat-v1.5-q3_K_M	15.4GB		V V	V V			V V	V V
ge2:9b-i-q8_0	9.0GB						V V	V V
ge2:27b-i-q3_K_L	14.0GB			V			V V
mi-nemo:12b-i-.q8_0	13.0GB			V	V		V	V
qw2:7b-i-q8_0	8.1GB			V	V V		V V							V
qw2:72b-i-q2_K	29.0GB						V V							V

Abréviations dans les noms des fautes logiques : A 2 CS = Appel à la raison commune

Abréviations dans les noms des modèles :

l3 = llama3
p3 = phi3
i = instruct
m = medium
mi = mistral
ge = gemma
qw = qwen
ge2 = gemma2
qw2 = qwen2

Simplification excessive = fausse dichotomie

Conclusion

Nous attendons que les LLM trouvent dans le texte d’échantillon la faute logique Strawman, Ad Hominem, Appel à l’autorité et Simplification excessive.

La plupart des nouveaux modèles peuvent voir dans notre texte d’échantillon l’Appel à l’autorité, et certains voient l’Ad Hominem, certains la Simplification excessive. De bons résultats ont été montrés par qwen2:7b-instruct-q8_0 et gemma2:9b-instruct-q8_0.

Mais malgré tout, les gagnants restent les mêmes.

Le modèle « choix de l’éditeur » est phi3:14b-medium-4k-instruct-q6_K. Il s’adapte facilement à 16 Go de RAM, et est assez intelligent. La deuxième place revient à phi3:3.8b-mini-4k-instruct-q8_0. Le groupe de modèles llama3 est également bon.

Mistral Nemo

Examinons d’abord les résultats de Mistral Nemo, même s’ils ne sont pas les meilleurs, car ils ont un robot élégant sur leur image.

Mistral nemo 12b

Modèle : mistral-nemo:12b-instruct-2407-q8_0

Réponse :

La phrase que vous avez fournie contient deux principales fautes logiques :

Appel à l’autorité (Argumentum ad Verecundiam) : Le locuteur fait appel à l’autorité d’un ancien ministre des Affaires intérieures sans fournir aucun argument ou preuve spécifique de cette personne. Ils supposent simplement que parce que cette personne a occupé un certain poste, son opinion devrait être acceptée comme valide.
- Faute : « comme un ancien ministre des Affaires intérieures devrait le savoir. »
Red Herring (Conclusion irrélevante) : Le locuteur commence par présenter un argument apparemment raisonnable (« trop de personnes, pas assez de maisons »), mais le rejette ensuite sans fournir aucun contre-argument ou preuve. Au lieu de cela, il fait appel à l’autorité de l’ancien ministre.
- Faute : « Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple… »

Bien que la phrase n’utilise pas explicitement un langage émotionnel, l’appel à l’autorité et la faute de red herring peuvent toujours être considérés comme des formes d’appel à l’émotion dans un sens plus large, car ils tentent de convaincre l’auditeur en se basant sur des facteurs autres que l’argumentation rationnelle.

En se basant sur la phrase que vous avez fournie, il y a quelques fautes logiques en jeu :

Ad Hominem : C’est une attaque dirigée vers la personne faisant l’argument plutôt que l’argument lui-même. Dans ce cas, il est suggéré que, parce que le locuteur a de l’expérience en tant qu’ancien ministre des Affaires intérieures, il devrait savoir que les choses ne sont pas simples. La phrase suggère que leur manque de compréhension (ou peut-être leur malentendu) est dû à leur rôle antérieur, plutôt que d’aborder la substance de l’argument.
Appel à la complexité : Cette faute se produit lorsqu’on utilise la complexité comme excuse pour ne pas réfléchir profondément à un problème ou pour rejeter des preuves ou des raisonnements contraires à sa propre position. Dans ce contexte, « ce n’est jamais aussi simple » pourrait être vu comme une manière de rejeter l’argument initial sans vraiment aborder ses mérites.

Bien qu’il n’y ait pas d’appel évident à l’émotion dans la phrase elle-même, l’utilisation de fautes comme l’Ad Hominem et l’Appel à la complexité peut parfois subtilement appeler à des émotions comme le mépris ou l’irritation face aux arguments trop simplifiés. Cependant, ce ne sont pas des appels directs à l’émotion dans le même sens qu’une déclaration comme « Vous devriez être d’accord parce que vous vous sentirez mal si vous ne l’êtes pas ».

Ainsi, bien qu’il y ait effectivement des fautes logiques présentes dans cette phrase, elles ne sont pas explicitement des appels émotionnels.

Gemma 2 - 9b

Logo de Gemma 2

Modèle : gemma2:9b-instruct-q8_0

Réponse :

La phrase « Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir » contient quelques fautes logiques :

Appel à l’autorité : La phrase repose sur l’autorité perçue d’un « ancien ministre des Affaires intérieures » pour rejeter l’argument initial. Le locuteur suppose que parce que la personne a occupé un poste de pouvoir, son opinion a plus de poids. Cette faute ignore la possibilité que le ministre ait tort ou que son expertise ne s’applique pas à cette situation spécifique.
Pooh-Pooh : La phrase « ce n’est jamais aussi simple » rejette l’argument initial sans fournir aucun contre-argument ou preuve réelle. C’est une déclaration méprisante qui vise à fermer la conversation plutôt que d’engager les idées présentées.

Veuillez me faire savoir si vous souhaitez explorer d’autres exemples de fautes logiques !

Appel à l’autorité : La phrase suggère implicitement que, parce que le locuteur mentionne un « ancien ministre des Affaires intérieures », son opinion a plus de poids. Cela suppose que le fait d’être un ancien ministre confère automatiquement une expertise sur cette question particulière.
Pooh-Pooh : La phrase « ce n’est jamais aussi simple » pourrait être considérée comme une forme de pooh-pooh de l’argument initial. Elle rejette le raisonnement simple sans fournir de contre-arguments substantiels ou d’explorer les complexités.

Veuillez me faire savoir si vous souhaitez analyser d’autres phrases ou arguments pour des fautes logiques !

Gemma 2 - 27b

Modèle : gemma2:27b-instruct-q3_K_L

Réponse :

La phrase « Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir » utilise la faute d’appel à l’autorité.

Voici pourquoi :

Elle suppose une expertise : La déclaration implique que parce que la personne est une ancienne ministre des Affaires intérieures, elle a automatiquement une connaissance spéciale sur des questions sociales complexes comme le manque de logements.
L’expertise n’est pas toujours pertinente : Bien qu’une ancienne ministre puisse avoir quelques insights sur la politique du logement, son expérience ne rend pas nécessairement experte sur tous les facteurs contributifs à un manque de logements.

La phrase tente de rejeter un argument potentiellement valide (« trop de personnes, pas assez de maisons ») simplement parce qu’il vient de quelqu’un perçu comme n’ayant pas d’expertise dans le domaine.

Veuillez me faire savoir si vous avez d’autres phrases que vous souhaiteriez analyser !

La phrase contient quelques éléments qui ressemblent à des fautes logiques, bien qu’il ne s’agisse pas d’un cas clair :

Appel à l’autorité (faible) : « comme un ancien ministre des Affaires intérieures devrait le savoir. » Cela tente d’ajouter du poids à l’argument en invoquant l’autorité précédente du locuteur sur le sujet. Cependant, c’est faible car elle ne fournit aucune expertise spécifique ou raisonnement du ministre pour soutenir sa position.
Ad Hominem (potentiel) : Selon le contexte et le ton, la phrase pourrait être vue comme une attaque ad hominem si elle vise à discréditer l’argument adverse simplement sur la base de qui le fait plutôt que d’aborder le contenu de l’argument. Par exemple, si la déclaration implique que la personne est incapable de comprendre la politique du logement parce qu’elle était ministre, cela serait une attaque ad hominem.

Note importante : Sans plus de contexte sur ce que la personne a réellement argumenté et le ton général, il est difficile de classer ces exemples comme des fautes fortes.

Veuillez me faire savoir si vous avez d’autres phrases que vous souhaiteriez que je analyse !

Qwen 2 - 7b

Logo de Qwen 2

Modèle : qwen2:7b-instruct-q8_0

Réponse :

La phrase que vous avez fournie contient plusieurs fautes logiques :

Appel aux émotions (Argumentum ad Passiones) : L’affirmation « Écoutez, à première vue, tout semble parfaitement raisonnable » tente d’éveiller un sentiment de raisonabilité et de simplicité chez l’auditeur sans fournir de preuves ou d’arguments substantiels.
Faute de Red Herring : En mentionnant que « un ancien ministre des Affaires intérieures devrait le savoir », le locuteur introduit un point irrélevant (la connaissance d’une personne spécifique) pour détourner l’attention de l’issue principale, pouvant tromper l’audience en la faisant penser que la connaissance de cette personne est pertinente alors qu’elle ne l’est peut-être pas.
Appel à l’autorité : Bien que ce ne soit pas explicitement mentionné dans cette phrase, si quelqu’un affirmait que « un ancien ministre des Affaires intérieures » sait quelque chose parce qu’il est un ancien ministre, il commettrait une faute d’appel à l’autorité, supposant que sa position lui confère une expertise sur la question sans fournir de preuves de sa connaissance ou de son argument spécifique.

Ces fautes logiques peuvent affaiblir la force d’un argument en faisant appel aux émotions plutôt que à la logique et à la pertinence.

La phrase que vous avez fournie :

« Écoutez, à première vue, tout semble parfaitement raisonnable : trop de personnes, pas assez de maisons. Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir. »

ne contient aucune des fautes d’appel aux émotions (Appealum ad passiones) mentionnées dans votre liste. Cependant, quelques fautes logiques potentielles pourraient être :

Ad Hominem si cette citation est utilisée comme une attaque contre une personne spécifique (« ancien ministre des Affaires intérieures ») plutôt que d’aborder son argument.
Faute de Red Herring : Il pourrait y avoir une tentative de détourner l’attention de l’issue originale ou des arguments en mentionnant des sujets irrelevantes, bien qu’aucun red herring évident ne semble présent dans la phrase que vous avez fournie.

Il y a également d’autres fautes non mentionnées sous « Appel aux émotions » telles que :

Fausse Dilemme : Présenter une question complexe en termes binaire simples où elle ne peut pas être discutée adéquatement. La phrase fournie ne suggère pas ce genre de faute.
Appel à l’autorité : Utiliser l’opinion ou l’identité d’une personne célèbre plutôt que des preuves valides pour soutenir un argument. Non applicable dans votre citation car aucune autorité n’est invoquée.

Veuillez préciser si vous aviez une autre phrase spécifique en tête pour l’analyse sous appel aux émotions, et nous serons heureux de vous aider avec cela.

Qwen 2 - 72b

Je sais, ce n’est pas de notre catégorie, mais juste par curiosité…

Modèle : qwen2:72b-instruct-q2_K

Réponse :

La phrase fournie ne contient pas directement un appel aux émotions tel que défini dans la liste des fautes logiques. Cependant, elle implique une potentielle faute logique connue sous le nom de « Appel à l’autorité » ou « Argument d’autorité ». Cela est dû au fait que le locuteur suggère que l’ancien ministre des Affaires intérieures devrait le savoir, impliquant que l’autorité de cette personne sur le sujet rend son opinion plus valide.

La phrase ne fait pas directement appel aux émotions, mais utilise l’autorité de la supposée connaissance de l’ancien ministre des Affaires intérieures comme moyen de discréditer la simplicité de l’argument présenté. Cela peut être vu dans la structure de la phrase : « Mais ce n’est jamais aussi simple, comme un ancien ministre des Affaires intérieures devrait le savoir. »

En résumé :

Faute logique présente : Appel à l’autorité
Définition : Un appel à l’autorité se produit lorsque l’affirmation est considérée comme vraie en raison de la crédibilité ou de l’expertise de la personne qui fait la déclaration plutôt que de la force des preuves.
Exemple dans la phrase : « comme un ancien ministre des Affaires intérieures devrait le savoir » implique que l’opinion de quelqu’un avec une telle expérience a plus de poids et pourrait être utilisée pour rejeter des explications simples.

La phrase que vous avez fournie ne provoque pas nécessairement une réponse émotionnelle spécifique ; elle fait appel à la connaissance et à l’expérience de l’auditeur en suggérant que les explications simples ne racontent pas toute l’histoire. Cependant, si nous devions l’analyser pour un appel émotionnel potentiel :

Appel à l’autorité : Elle fait indirectement référence à « un ancien ministre des Affaires intérieures » qui devrait le savoir mieux que d’accepter des explications simples. Cela pourrait être vu comme une tentative indirecte d’ajouter de l’autorité et de crédibilité à la complexité de l’issue, ce qui peut subtilement appeler à notre désir de guidance experte.

La phrase ne fait pas directement appel aux émotions telles que la Peur, la Culpabilité, le Ridicule, la Colère, la Vexation, le Dégoût, la Flatterie, la Pitié, le Patriotisme ou le Pooh-Pooh, mais elle fait indirectement référence à l’autorité (en nous faisant respecter et déléguer) pour souligner la complexité des problèmes qui ne sont pas simplement résolus en blâmant « trop de personnes » pour un manque de maisons. Cela peut également être lié à :

Appel à la Raison : Elle nous encourage à regarder au-delà des solutions simples et à considérer que les problèmes peuvent avoir des causes plus profondes ou plus complexes qu’elles ne semblent au premier abord.

En résumé :

La déclaration évoque l’autorité (« un ancien ministre des Affaires intérieures »), potentielllement déclenchant le respect ou la confiance (car elle suggère une connaissance interne).
Elle pourrait provoquer une anxiété subtile face à la simplification comme menace (bien que les tactiques de peur ne soient pas explicitement utilisées ici).
Un contexte plus détaillé pourrait être nécessaire pour des classifications spécifiques d’appel émotionnel, car les appels inhérents dérivent souvent de la manière dont les auditeurs se connectent émotionnellement avec les questions au-delà de la déclaration elle-même.

Souvenez-vous, les fautes logiques impliquent généralement des erreurs de logique, mais elles résonnent souvent sur des biais personnels ou des anxiétés sociales plus profondes influencés par les émotions. Cela rend cette phrase’s implications dignes d’être déballées soigneusement autour de ce que les auditeurs pourraient subconsciemment connecter dans des dialogues plus larges.

Pour explorer davantage de benchmarks, de limites de VRAM et de sélection de modèles pour les GPU de 16 Go, ainsi que d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization hub.

Qu’est-ce que nous faisons et comment

DT;DR: Le résultat

Conclusion

Mistral Nemo

Gemma 2 - 9b

Gemma 2 - 27b

Qwen 2 - 7b

Qwen 2 - 72b

Liens utiles