Gemma2 と Qwen2 と Mistral Nemo と...

論理的誤謬の検出をテストする

最近、いくつかの新しいLLMがリリースされました。
非常にエキサイティングな時代です。
それらが論理的誤謬を検出する際のパフォーマンスをテストし、確認してみましょう。

Presenting mistral nemo

何をし、どのように行うか

以前のテストでは、LLMが論理的誤謬を検出する - llama3 vs phi3 vs others において、LLMが論理的誤謬を検出する方法をテストしました。
それらは非常にうまく機能し、llama3-8b-Q8 と phi3-medium-4k-instruct-q6_K の結果に非常に満足しました。

このテストでは、Gemma2、Qwen2、Mistral Nemoを使用して同じことを行います。

我々は可能な限り最良のモデルをテストしていますが、いくつかの制限があります。
それらは、我々の消費者向けGPUに適合しなければなりません。このGPUは16GBのVRAMを持っています。
この基準を考慮して、以下の量子化を選択しました：

gemma2:9b-instruct-q8_0
gemma2:27b-instruct-q3_K_L
mistral-nemo:12b-instruct-2407-q8_0
qwen2:7b-instruct-q8_0

そして、このqwen2バージョンも：

qwen2:72b-instruct-q2_K

そのサイズは29GBですが、それでもテストしてみましょう。

ここでは、‘default’の量子化q4にフォールバックしないことに注意してください。
q8が我々のGPUの16GB VRAMに適合する場合、それを選択し、状況に応じて最善を尽くします。

DT;DR: 結果

以前テストしたモデルは LLMによる論理的誤謬の検出. その投稿でテストした内容と現在のテスト内容をご覧ください。

以下は、新しいモデルが太字で表示されている更新された表です。

ModelVersion	GPU RAM	A2CS	Straw man	Ad homi-nem	Red Herring	Appeal to igno-rance	Appeal to autho-rity	False dicho-tomy	Hasty Gene-rali-zation	Begging the Ques-tion	Slippery Slope	Post hoc ergo propter hoc	Tu quo-que	Other
l3:8b-i-q4_0	5.8GB	V V	V V	V	V
l3:8b-i-q8_0	9.1GB		V			V	V V	V V
l3:8b-i-fp16	9.1GB		V				V V	V V
p3:3.8b	4.3GB		V V	V			V V		V
p3:3.8b-mini-4k-i-q8_0	5.8GB		V V	V V			V V	V	V V
p3:3.8b-mini-i-4k-fp16	8.9GB		V			V	V V		V	V
p3:14b	9.3GB			V V				V V
p3:14b-m-4k-i-q6_K	12.5GB		V V				V V	V	V
p3:14b-m-4k-i-q8_0	15.3GB			V V			V	V V
mi:7b-i-v0.3-q4_0	4.3GB			V V	V		V V		V V		V V
mi:7b-i-v0.3-q8_0	8.6GB		V V	V V					V V
mi:7b-i-v0.3-fp16	14.7GB						V V		V
ge:7b-i-v1.1-q4_0	7.2GB			V V								V V
ge:7b-i-v1.1-q6_K	9.1GB			V V					V			V V
ge:7b-i-v1.1-fp16	15.5GB			V V								V V	V
qw:14b-chat-v1.5-q8_0	15.2GB		V V	V			V V
qw:7b-chat-v1.5-fp16	15.5GB						V V	V V
qw:32b-chat-v1.5-q3_K_S	15.1GB		V	V			V	V
qw:32b-chat-v1.5-q3_K_M	15.4GB		V V	V V			V V	V V
ge2:9b-i-q8_0	9.0GB						V V	V V
ge2:27b-i-q3_K_L	14.0GB			V			V V
mi-nemo:12b-i-.q8_0	13.0GB			V	V		V	V
qw2:7b-i-q8_0	8.1GB			V	V V		V V							V
qw2:72b-i-q2_K	29.0GB						V V							V

論理的誤謬の名前の略称：A 2 CS=Appeal to common sense

モデル名の略称：

l3=llama3
p3=phi3
i=instruct
m=medium
mi=mistral
ge=gemma
qw=qwen
ge2=gemma2
qw2=qwen2

過度な単純化=False dichotomy

結論

LLMsは、サンプルテキスト内でストラワーマンの誤謬、アドホミニエム、権威への訴え、過度な単純化を発見することを期待しています。

新しいモデルの多くは、サンプルテキスト内で権威への訴えを認識し、一部はアドホミニエム、一部は過度な単純化を認識しています。
良い結果を示したのは、qwen2:7b-instruct-q8_0 と gemma2:9b-instruct-q8_0 です。

しかし、勝者たちは変わりません。

「編集者の選択」モデルは phi3:14b-medium-4k-instruct-q6_K です。
このモデルは16GB RAMに簡単に適合し、非常にスマートです。
2位は phi3:3.8b-mini-4k-instruct-q8_0 です。
llama3モデルのグループも非常に良い結果を示しました。

Mistral Nemo

Mistral Nemoの結果をまず確認しましょう、彼らは最優秀ではないかもしれませんが、画像に見事なロボットがいるからです。

Mistral nemo 12b

モデル: mistral-nemo:12b-instruct-2407-q8_0

応答:

提供された文には2つの主な論理的誤謬が含まれています：

権威への訴え（Argumentum ad Verecundiam）: 話者は、元の住宅・内務大臣の権威に訴えるが、この人物からの具体的な議論や証拠を提供していません。単に、この人物が特定の地位を保有しているから、その意見が有効であると仮定しています。
- 誤謬: “元の住宅・内務大臣として知っているべきである。”
レッド・ヘリング（Irrelevant Conclusion）: 話者は、最初に「人口が多すぎて住宅が足りない」というように、一見して合理的な議論を提示しますが、その後、その議論を無視して、元大臣の権威に訴えます。
- 誤謬: “最初に見ると、すべて非常に合理的に聞こえる：人口が多すぎて住宅が足りない。しかし、それは常にそう単純ではない…”

文自体は明確に感情的な言葉を使用していませんが、権威への訴えとレッド・ヘリングの誤謬は、広い意味で感情への訴えと見なされることがあります。なぜなら、論理的議論ではなく、他の要因に基づいて聞き手を説得しようとしているからです。

提供された文には、いくつかの論理的誤謬が含まれています：

アドホミニエム: これは、議論そのものではなく、議論をした人物への攻撃です。この場合、元の住宅・内務大臣の経験があるから、彼らが「すべて単純ではない」と言うことを仮定しています。この文は、彼らの理解不足（または誤解）が、以前の役職のせいであると示唆していますが、議論の本質には触れていない。
複雑性への訴え: この誤謬は、複雑さを理由に、深く考えることを避けるか、自分の立場に反する証拠や論理を無視するときに発生します。この文脈では、「それは常にそう単純ではない」という表現は、最初の議論を無視して、その価値を実際に評価することなく、議論を終わらせようとする方法として見なされます。

文自体には明確な感情への訴えは含まれていませんが、アドホミニエムや複雑性への訴えなどの誤謬は、単純化された議論に対する嫌悪や不満などの感情に間接的に訴えることがあります。ただし、これらは「あなたが同意しないと不快感を感じるだろう」といったような直接的な感情への訴えとは異なります。

したがって、この文には確かに論理的誤謬が存在していますが、それらは明確な感情への訴えではありません。

Gemma 2 - 9b

Gemma 2 logo

モデル: gemma2:9b-instruct-q8_0

応答:

「最初に見ると、すべて非常に合理的に聞こえる：人口が多すぎて住宅が足りない。しかし、それは常にそう単純ではない、元の住宅・内務大臣として知っているべきである」という文には、いくつかの論理的誤謬が含まれています：

権威への訴え: この文は、「元の住宅・内務大臣」の権威に依存して、最初の議論を無効にしようとしています。話者は、この人物が権力の地位を保有しているから、その意見が自動的に重みを持つと仮定しています。この誤謬は、大臣が間違っている可能性や、その専門知識がこの特定の状況に適用されない可能性を無視しています。
Pooh-Pooh: 「それは常にそう単純ではない」という表現は、最初の議論に対して実際の反論や証拠を提供することなく、議論を終わらせようとするものです。これは、提示されたアイデアと対話するのではなく、会話を終わらせようとする消極的な発言です。

他の論理的誤謬の例をさらに探したい場合はお知らせください！

権威への訴え: この文は、話者が「元の住宅・内務大臣」を言及していることから、その意見がより重みを持つことを暗に示しています。これは、元の大臣がこの特定の問題について自動的に専門知識を持っていることを仮定しています。
Pooh-Pooh: 「それは常にそう単純ではない」という表現は、最初の単純な論理を無視して、複雑さを強調するものと見なされることがあります。これは、実際の議論の複雑さを探索することなく、議論を無視しようとするものです。

他の文や議論の誤謬を分析したい場合はお知らせください！

Gemma 2 - 27b

モデル: gemma2:27b-instruct-q3_K_L

応答:

「しかし、それは常にそう単純ではない、元の住宅・内務大臣として知っているべきである」という文は、権威への訴えの誤謬を用いています。

その理由は以下の通りです：

専門知識の仮定: この文は、元の住宅・内務大臣が、住宅不足などの複雑な社会問題について自動的に専門知識を持っていることを仮定しています。
専門知識の関連性: 元の大臣が住宅政策についていくつかの洞察を持っていることは事実ですが、その経験が住宅不足のすべての要因についての専門知識を保証しているわけではありません。

この文は、潜在的に有効な議論（「人口が多すぎて住宅が足りない」）を、専門知識がこの分野にない人物が述べているから無視しようとしています。

他の文の分析をご希望の場合はお知らせください！

この文には、いくつかの論理的誤謬に類似する要素が含まれていますが、明確なケースではありません：

権威への訴え（弱い）: 「元の住宅・内務大臣として知っているべきである。」これは、話者の以前の権威を援用して、議論に重みを付けようとしています。しかし、これは弱い誤謬です。なぜなら、大臣の具体的な専門知識や議論を裏付ける根拠を提供していないからです。
アドホミニエム（可能性あり）: 文脈やトーンに依存して、この文は、議論の内容ではなく、議論をした人物を無視しようとするアドホミニエムの攻撃と見なされる可能性があります。例えば、この文が、人物が住宅政策を理解できないと述べている場合、それはアドホミニエムです。

重要な注意点: 人物が実際に何を主張したか、そして全体のトーンについてさらに情報がない限り、これらの誤謬を明確に分類することは困難です。

他の文の分析をご希望の場合はお知らせください！

Qwen 2 - 7b

Qwen 2 logo

モデル: qwen2:7b-instruct-q8_0

応答:

提供された文にはいくつかの論理的誤謬が含まれています：

感情への訴え（Argumentum ad Passiones）: 「最初に見ると、すべて非常に合理的に聞こえる」という表現は、実際の証拠や議論を提供することなく、聞き手の心に合理性と単純さの感覚を喚起しようとしています。
レッド・ヘリングの誤謬: 「元の住宅・内務大臣として知っているべきである」という表現は、主な問題から注意を逸らすために、特定の個人の知識という関係ない点を導入しています。これにより、その人物の専門知識が関係しているかどうかを誤って聞き手に信じさせることになります。
権威への訴えの誤謬: この文では明確に述べられていませんが、もし誰かが「元の住宅・内務大臣」が何かを知っていると主張する場合、その人物の地位がその問題に関する専門知識を自動的に与えると仮定する誤謬を犯しています。

これらの論理的誤謬は、感情に訴えることによって、論理や関連性に基づく議論の強さを損なう可能性があります。

提供された文：

「最初に見ると、すべて非常に合理的に聞こえる：人口が多すぎて住宅が足りない。しかし、それは常にそう単純ではない、元の住宅・内務大臣として知っているべきである。」

には、リストに挙げた感情への訴え（Appealum ad passiones）の誤謬は含まれていません。ただし、いくつかの潜在的な論理的誤謬が考えられます：

アドホミニエム: この引用が特定の個人（「元の住宅・内務大臣」）への攻撃として使われている場合、議論そのものではなく、議論をした人物を攻撃している可能性があります。
レッド・ヘリングの誤謬: 元の問題や議論から注意を逸らすために、関係ない話題を提示しようとしている可能性がありますが、提供された文には明確なレッド・ヘリングは見られません。

また、感情への訴えに含まれていない他の誤謬もあります：

偽二択: 複雑な問題を単純な二択に限定して議論する誤謬。提供された文にはこの誤謬は見られません。
権威への訴え: 著名な人物の意見やアイデンティティを、有効な証拠ではなく、議論を裏付けるために使用する誤謬。この引用では権威が言及されていないため、この誤謬は適用されません。

分析したい他の文がございましたら、お知らせください。

Qwen 2 - 72b

ご存知のように、これは私たちのカテゴリではありませんが、ただ興味があって…

モデル: qwen2:72b-instruct-q2_K

応答:

提供された文は、論理的誤謬リストに定義されている「感情への訴え」を直接的に含んでいません。しかし、「かつての内務大臣はもっとよく知っているはずだ」と述べることで、「権威への訴え」または「権威からの論証」という潜在的な論理的誤謬を含んでいる可能性があります。これは、話者がかつての内務大臣がその分野についてよりよく知っていることを示唆しており、その権威により意見の妥当性が高まると示唆しているからです。

この文は直接的に感情への訴えを用いていませんが、かつての内務大臣の知識の権威を用いて、提示されている議論の単純さを否定する方法として使われています。この構造が文の構成に現れています。「しかし、それは常に単純ではない。かつての内務大臣が知っているはずだ。」

要約すると：

存在する論理的誤謬：権威への訴え
定義：権威への訴えとは、主張がその主張をした人物の信頼性または専門性に基づいて真であるとされる場合に発生します。証拠の強さではなく、人物の専門性に基づいて主張が受け入れられる場合です。
文中の例：「かつての内務大臣が知っているはずだ」という表現は、その経験を持つ人物の意見がより重みを持ち、単純な説明を否定するための手段として使われていることを示唆しています。

提供された文は特定の感情的反応を必ずしも引き起こすわけではありませんが、単純な説明が物語の全体像を語っていないことを示唆することで、聞き手の知識と経験に訴えることを試みています。しかし、感情的訴えの観点から分析するなら：

権威への訴え： 「かつての内務大臣」が単純な説明を受け入れるよりも、よりよく知っているはずだと示唆することで、間接的に権威と信頼性を示唆しています。これは、問題が「多くの人々のせい」に帰属するだけではなく、より複雑な原因を持つ可能性があることを示唆するため、間接的に権威に依拠して、複雑性を強調する試みと見なせます。

この文は、直接的に恐怖、罪悪感、馬鹿にすること、怒り、怨恨、嫌悪、奉承、憐れみ、愛国心、または無視などの感情的訴えを用いていませんが、権威への依拠（尊重と敬意）を間接的に示唆することで、問題が単純な原因に帰属するわけではないことを強調しています。これはまた：

理性への訴え： 簡単な解決策にとどまらず、問題がより深く複雑な原因を持つ可能性があることを聞き手に促すものです。

全体的に見ると、この文には明確な感情的訴えは見られませんが、権威と理性という要素を活用して、論理的決定において尊重される側面を強調しています。これは、権威的な人物への信頼を無意識に利用して、単純な見解への疑問を引き起こし、社会問題における複雑性を重視する聞き手に促す戦略的な試みです。この文の含意は、広範な対話の中で聞き手が無意識に結びつける感情的な要素を慎重に解釈する価値があります。

より詳細な文脈が必要な場合もありますが、感情的訴えの分類は、文そのものに含まれるよりも、聞き手が問題に対して感情的にどのように関係するかに依存する傾向があります。

覚えておいてください。誤謬は通常論理的誤りですが、しばしば個人的なバイアスや社会的な不安といった感情に影響される深層の問題と関連しています。この文の含意は、聞き手が広範な対話の中で無意識に結びつける感情的な要素を慎重に解釈する価値があります。