Gemma2 与 Qwen2 与 Mistral Nemo 与...
测试逻辑谬误检测
最近我们看到有几款新的大型语言模型(LLMs)发布。
令人兴奋的时刻。
让我们进行测试,看看它们在检测逻辑谬误时的表现如何。
我们做了什么和如何做的
在之前的测试中,我们已经测试了LLM 如何检测逻辑谬误 - llama3 vs phi3 vs 其他.
它们表现得相当不错,我们特别喜欢 llama3-8b-Q8 和 phi3-medium-4k-instruct-q6_K 的结果。
在本次测试中,我们使用 Gemma2、Qwen2 和 Mistral Nemo 进行同样的测试。
我们正在测试尽可能最好的模型,但它们需要满足我们的限制条件 -
它们必须适合我们消费级的 GPU,该 GPU 拥有 16 GB 的 VRAM。
基于这个标准,我们选择了以下量化版本:
- gemma2:9b-instruct-q8_0
- gemma2:27b-instruct-q3_K_L
- mistral-nemo:12b-instruct-2407-q8_0
- qwen2:7b-instruct-q8_0
以及这个 qwen2 版本:
- qwen2:72b-instruct-q2_K
它的大小是 29GB,但我们仍然要进行测试。
请注意,我们在这里不会使用默认的量化版本 q4。 如果 q8 能够适合我们 GPU 的 16GB VRAM - 我们会尝试使用它, 在我们的条件下尽力而为。
DT;DR:结果
我们之前测试过的模型在 LLMs 的逻辑谬误检测. 请在那篇文章中查看我们测试了什么以及现在的情况。
这是更新后的表格,其中我们的新模型以 粗体 标出。
ModelVersion | GPU RAM | A2CS | Straw man | Ad homi-nem | Red Herring | Appeal to igno-rance | Appeal to autho-rity | False dicho-tomy | Hasty Gene-rali-zation | Begging the Ques-tion | Slippery Slope | Post hoc ergo propter hoc | Tu quo-que | Other |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
l3:8b-i-q4_0 | 5.8GB | V V | V V | V | V | |||||||||
l3:8b-i-q8_0 | 9.1GB | V | V | V V | V V | |||||||||
l3:8b-i-fp16 | 9.1GB | V | V V | V V | ||||||||||
p3:3.8b | 4.3GB | V V | V | V V | V | |||||||||
p3:3.8b-mini-4k-i-q8_0 | 5.8GB | V V | V V | V V | V | V V | ||||||||
p3:3.8b-mini-i-4k-fp16 | 8.9GB | V | V | V V | V | V | ||||||||
p3:14b | 9.3GB | V V | V V | |||||||||||
p3:14b-m-4k-i-q6_K | 12.5GB | V V | V V | V | V | |||||||||
p3:14b-m-4k-i-q8_0 | 15.3GB | V V | V | V V | ||||||||||
mi:7b-i-v0.3-q4_0 | 4.3GB | V V | V | V V | V V | V V | ||||||||
mi:7b-i-v0.3-q8_0 | 8.6GB | V V | V V | V V | ||||||||||
mi:7b-i-v0.3-fp16 | 14.7GB | V V | V | |||||||||||
ge:7b-i-v1.1-q4_0 | 7.2GB | V V | V V | |||||||||||
ge:7b-i-v1.1-q6_K | 9.1GB | V V | V | V V | ||||||||||
ge:7b-i-v1.1-fp16 | 15.5GB | V V | V V | V | ||||||||||
qw:14b-chat-v1.5-q8_0 | 15.2GB | V V | V | V V | ||||||||||
qw:7b-chat-v1.5-fp16 | 15.5GB | V V | V V | |||||||||||
qw:32b-chat-v1.5-q3_K_S | 15.1GB | V | V | V | V | |||||||||
qw:32b-chat-v1.5-q3_K_M | 15.4GB | V V | V V | V V | V V | |||||||||
ge2:9b-i-q8_0 | 9.0GB | V V | V V | |||||||||||
ge2:27b-i-q3_K_L | 14.0GB | V | V V | |||||||||||
mi-nemo:12b-i-.q8_0 | 13.0GB | V | V | V | V | |||||||||
qw2:7b-i-q8_0 | 8.1GB | V | V V | V V | V | |||||||||
qw2:72b-i-q2_K | 29.0GB | V V | V |
逻辑谬误名称的缩写:A 2 CS=诉诸常识
模型名称的缩写:
- l3=llama3
- p3=phi3
- i=instruct
- m=medium
- mi=mistral
- ge=gemma
- qw=qwen
- ge2=gemma2
- qw2=qwen2
过度简化=虚假二分法
结论
我们期望 LLMs 能够在样本文本中找到 Strawman 谬误、Ad Hominem、诉诸权威和过度简化。
大多数新模型能够在我们的样本文本中识别出诉诸权威,一些模型能够识别出 Ad Hominem,一些模型能够识别出过度简化。 表现良好的模型是 qwen2:7b-instruct-q8_0 和 gemma2:9b-instruct-q8_0。
但仍然,赢家保持不变。
“编辑推荐”的模型是 phi3:14b-medium-4k-instruct-q6_K。 它 轻松 适配 16GB 内存,而且相当聪明。 第二名是 phi3:3.8b-mini-4k-instruct-q8_0。 llama3 模型组也表现良好。
Mistral Nemo
让我们先回顾 Mistral Nemo 的结果,即使它们不是最好的,因为它们的图片上有一个好看的机器人。
模型:mistral-nemo:12b-instruct-2407-q8_0
回应:
您提供的短语中包含两个主要的逻辑谬误:
-
诉诸权威(Argumentum ad Verecundiam):说话者诉诸于前内政部长的权威,但没有提供任何具体的论点或证据来自此人。他们只是假设因为这个人担任过某个职位,他们的意见就应该被接受为有效。
- 谬误:“作为前内政部长应该知道。”
-
红鲱鱼(Irrelevant Conclusion):说话者首先提出一个看似合理的论点(“人太多,房子不够”),但随后在没有提供任何反驳论点或证据的情况下就将其驳回。相反,他们诉诸于前部长的权威。
- 谬误:“看,乍一看,这听起来完全合理:人太多,房子不够。但事情从来都不是那么简单……”
虽然短语中没有明确使用情感语言,但诉诸权威和红鲱鱼谬误仍可被视为在更广泛意义上诉诸情感,因为它们试图基于非理性论证的其他因素来说服听众。
根据您提供的短语,有几种逻辑谬误在起作用:
-
人身攻击(Ad Hominem):这是一种针对提出论点的人而非论点本身的攻击。在这种情况下,暗示因为说话者有前内政部长的经验,他们应该知道事情并不简单。短语暗示他们的不理解(或可能的误解)是由于他们之前的职位,而不是解决论点本身的内容。
-
诉诸复杂性:这种谬误发生在某人用复杂性作为不深入思考某个问题或拒绝与自己立场相悖的证据或推理的借口。在这种情况下,“事情从来都不是那么简单”可以被视为一种不实际解决初始论点的借口。
虽然短语本身没有明确的诉诸情感,但使用人身攻击和诉诸复杂性的谬误有时会微妙地诉诸于对过度简化论点的蔑视或沮丧等情感。然而,这些并不是像“你应该同意,因为如果你不同意你会感到难过”这样的直接诉诸情感。
因此,虽然短语中确实存在逻辑谬误,但它们并不是明确的情感诉求。
Gemma 2 - 9b
模型:gemma2:9b-instruct-q8_0
回应:
短语“看,乍一看,这听起来完全合理:人太多,房子不够。但事情从来都不是那么简单,作为前内政部长应该知道”包含几个逻辑谬误:
-
诉诸权威:短语依赖于“前内政部长”的权威来驳回初始论点。说话者假设因为这个人担任过权力职位,他们的意见自动更有分量。这种谬误忽略了前部长可能错误或他们的专业知识不适用于这个具体情况的可能性。
-
Pooh-Pooh:短语“事情从来都不是那么简单”在没有提供任何实际反驳论点或证据的情况下驳回了初始论点。这是一个旨在关闭对话而不是与提出的想法进行互动的贬低性陈述。
如果您想探索其他逻辑谬误的例子,请告诉我!
短语“看,乍一看,这听起来完全合理:人太多,房子不够。但事情从来都不是那么简单,作为前内政部长应该知道”包含几个逻辑谬误:
-
诉诸权威:短语隐含地暗示,因为说话者提到“前内政部长”,他们的意见更有分量。这假设担任前部长会自动赋予该问题的专家资格。
-
Pooh-Pooh:短语“事情从来都不是那么简单”可以被视为一种Pooh-Pooh,它在没有提供实质性反驳论点或探索复杂性的情况下驳回了简单的推理。
如果您想分析其他短语或论点中的谬误,请告诉我!
Gemma 2 - 27b
模型:gemma2:27b-instruct-q3_K_L
回应:
短语“但事情从来都不是那么简单,作为前内政部长应该知道”使用了 诉诸权威 的谬误。
原因如下:
- 假设专业知识:该陈述暗示,因为这个人是前内政部长,他们自动对住房短缺等复杂社会问题有特殊知识。
- 专业知识不一定相关:虽然前部长可能对住房政策有一些见解,但他们的经验并不一定使他们成为住房短缺所有相关因素的专家。
该短语试图仅因为某人被认为在该领域缺乏专业知识而驳回一个可能有效的论点(“人太多,房子不够”)。
如果您有其他短语需要分析,请告诉我!
Qwen 2 - 7b
模型:qwen2:7b-instruct-q8_0
回应:
您提供的短语包含几个逻辑谬误:
- 诉诸情感(Argumentum ad Passiones):陈述“看,乍一看,这听起来完全合理”试图在没有提供实质性证据或论证的情况下,在听众心中唤起合理性和简单性的感觉。
- 红鲱鱼谬误:通过提到“前内政部长应该知道”,说话者引入了一个无关的点(特定个人的知识),以转移注意力,可能误导听众认为该人的专业知识相关,而实际上可能不是。
- 诉诸权威谬误:虽然该短语中没有明确陈述,但如果有人声称“前内政部长”知道某事是因为他们是前部长,他们就会犯诉诸权威的谬误,假设他们的职位赋予他们专业知识,而没有提供他们具体知识或论点的证据。
这些逻辑谬误可以通过诉诸情感而不是逻辑和相关性来削弱论点的强度。
您提供的短语:
“看,乍一看,这听起来完全合理:人太多,房子不够。但事情从来都不是那么简单,作为前内政部长应该知道。”
不包含您列表中提到的诉诸情感(Appealum ad passiones)谬误。然而,可能存在一些潜在的逻辑谬误:
- 人身攻击(Ad Hominem):如果该引语被用作对特定个人(“前内政部长”)的攻击,而不是针对其论点本身,那么这可能被视为人身攻击。
- 红鲱鱼谬误:可能试图通过提及不相关的话题来转移注意力,但您提供的句子中没有明显的红鲱鱼。
还有其他未在“诉诸情感”下提到的谬误,例如:
- 虚假两难:将复杂问题简化为二元选择,无法充分讨论。您提供的句子中没有暗示这种谬误。
- 诉诸权威:使用某位名人或权威人物的意见而不是有效证据来支持论点。在您的引语中不适用,因为没有引用权威。
如果还有其他特定短语您希望分析,请澄清,我们将很乐意帮助您。
Qwen 2 - 72b
我知道,那不是我们分类中的内容,但只是好奇…
模型:qwen2:72b-instruct-q2_K
回应:
提供的短语并不直接包含您列出的逻辑谬误中的诉诸情感。然而,它暗示了一个潜在的逻辑谬误,称为“诉诸权威”或“从权威论证”。这是因为说话者暗示前内政部长应该知道得更多,暗示他们的权威使他们的观点更有效。
该短语并不直接使用情感诉求,而是使用前内政部长的权威知识作为削弱所呈现的简单解释的一种方式。这在句子结构中可以看出来:“但事情从来都不是那么简单,作为前内政部长应该知道。”
总结:
- 存在的逻辑谬误:诉诸权威
- 定义:诉诸权威是指一个断言被视作正确,基于提出该断言的人的可信度或专业知识,而不是论据的强度。
- 短语中的例子:“作为前内政部长应该知道”暗示了某人经验的权威性,可能被用来驳回简单的解释。
您提供的短语并不一定唤起特定的情感反应;它通过暗示简单解释可能没有讲述完整的故事,来诉诸于听众的知识和经验。然而,如果我们分析它潜在的情感诉求:
诉诸权威: 它间接提到了“前内政部长”,他们应该知道得更好,这可以被视为一种间接尝试,通过权威和可信度来强调问题的复杂性,这可能微妙地诉诸于我们对权威指导的渴望。
该短语并不直接使用恐惧、内疚、嘲笑、愤怒、怨恨、厌恶、奉承、怜悯、爱国主义或Pooh-Pooh等情感诉求,但间接提到了权威(诉诸于我们对权威的尊重和顺从),以强调那些不能通过简单归因于“人太多”而解决的房屋短缺问题的复杂性。这也可以与以下内容相关:
诉诸理性: 它促使我们超越简单解决方案,考虑问题可能有更深层次或更复杂的原因,而不是它们最初看起来那样。
总体而言,虽然短语中没有明显的情感诉求,但它试图利用权威和理性——在理性决策中通常受到尊重的方面。这突出了一个可能的策略,利用对权威人物的情感信任,以在听众中引发对简单观点的怀疑,并鼓励他们对社会问题进行更深入的思考。一个更细致的版本可能潜在地引发与以下内容相关的元素:
- 恐惧: 通过引发对过度简化的担忧,从而引发对未解决复杂性的焦虑。
- 厌恶: 如果在批评肤浅或无知的政策讨论的背景下,可能触发对过度简化的叙述的厌恶。
然而,这些是间接的,可能在上下文的细微差别中高度依赖。没有额外的情感内容或特定的诉求(如恐吓、明显地唤起内疚),该短语主要集中在通过权威来诉诸理性,而不是操纵情感。这种定位强调了可信度,通常在分析逻辑谬误时,这些谬误可能操纵情感而没有坚实论据。
总结:
- 该陈述提到了权威(“前内政部长”),可能引发尊重或信任(暗示内部知识)。
- 它可能引发对简化主义的微妙焦虑,作为威胁(尽管没有明显使用恐惧战术)。
- 更详细的上下文可能对于特定情感诉求的分类是必要的,因为内在诉求通常来源于听众如何在陈述之外与问题产生情感联系。
请记住,谬误通常涉及逻辑错误,但往往与更深层次、受情感影响的个人偏见或社会焦虑有关——因此,这句话的含义值得仔细分析,以了解听众可能在更广泛的对话中无意识地连接的内容。
有用的链接
- 测试:Ollama 如何使用 Intel CPU 性能和高效核心
- Ollama 如何处理并行请求
- LLMs 的逻辑谬误检测
- 逻辑谬误:https://www.logical-fallacy.com
- LLM 速度性能比较
- 安装和配置 Ollama 用于 LLM 自托管
- 比较 LLM 的摘要能力
- 大型语言模型:https://en.wikipedia.org/wiki/Large_language_model
- 使用 Ollama 自托管 Perplexica
- LLMs 比较:Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 和 Phi
- Ollama 快速参考
- 云 LLM 提供商
- Qwen3 嵌入和重排序模型在 Ollama 上:最先进的性能