Hugo 页面翻译质量对比 - Ollama 上的 LLMs
qwen3 8b、14b 和 30b,devstral 24b,mistral small 24b
在这项测试中,我正在比较不同LLMs在Ollama上如何将Hugo页面从英语翻译成德语。
我测试的三页内容涉及不同主题,其中包含一些结构良好的markdown内容:标题、列表、表格、链接等。
所有这些模型都在配备16GB显存的NVIDIA GPU上运行,其中一些模型完全适合显存,而另一些(24b和30b)则不适合,会溢出到CPU上。
尽管如此,我也测试了这些模型。
我测试的Ollama模型包括:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
在对所有这些模型运行翻译提示后,我请求了智能的Anthropic模型来分析翻译质量,进行比较并为每个模型提供指标。
我也尝试了magistral:24b,但它“思考”时间太长,因此速度很慢,而且会占用所有上下文。 所以 - 不适合我的GPU。
简单结论:TL;DR
最好的是Mistral Small 3.1 24b。它不适合16GB显存,因此在我的硬件上稍慢一些。
接下来的两个最佳模型是Qwen 3 14b和Qwen 3 30b。14b模型适合显存,但30b是MoE模型,因此速度也很快。在我的硬件上它们的速度相似。
测试1:哲学主题
基于Hugo网站的页面markdown内容,涉及一些精彩的哲学主题 - Ad Baculum逻辑谬误的描述和例子。
index.de.devstral-24b.md - 评分:7/10 优势:
- 技术术语翻译准确(“argumentum ad baculum Fehlschluss”)
- 保持正确的链接格式和结构
- 复杂哲学概念的准确翻译
- 正确的德语语法和句法
劣势:
- “verunstaltet"用于“tainted”有些生硬;“getrübt"会更自然
- 一些短语感觉略微生硬或过于直译
- 某些句子中存在轻微的流畅性问题
index.de.mistral-small3.1-24b.md - 评分:8.5/10 优势:
- 非常自然的德语语言流畅性
- 技术术语翻译出色
- 原文含义和语气的良好保留
- 正确的语法和句子结构
- 使用"getrübt"翻译“tainted”更为自然
劣势:
- 术语一致性存在轻微不一致
- 偶尔与原文结构略有偏差
index.de.qwen3-8b.md - 评分:6.5/10 优势:
- 主要概念的准确翻译
- 技术术语处理得当
- 保持文章结构
劣势:
- 一些生硬的表达(“kann sich auch in alltäglichen Interaktionen breiten”)
- 几个段落中德语流畅性较差
- 一些语法结构显得生硬
- “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"中缺少一个词(语法错误)
index.de.qwen3-14b.md - 评分:8/10 优势:
- 自然的德语语言流畅性
- 技术术语处理出色
- 原文含义的良好保留
- 正确的语法和句法
- 全文风格一致
劣势:
- 术语一致性存在轻微变化
- 某些句子可以更简洁
index.de.qwen3-30b-a3b.md - 评分:7.5/10 优势:
- 整体翻译质量良好
- 自然的德语表达
- 技术术语翻译良好
- 保持可读性和流畅性
- 含义保留良好
劣势:
- 一些词语选择存在轻微不一致
- 偶尔有略显生硬的表达
- 最后一段中缺少冠词 “über das [Terrain der] Argumentation”
总结排名
文件 | 翻译质量评分 |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
最佳翻译: index.de.mistral-small3.1-24b.md
- 最自然的德语流畅性,技术准确性出色
改进领域: Qwen3-8b版本需要语法修正和更自然的表达,而其他版本主要需要在词语选择和一致性方面进行小幅改进。
测试2:Ollama上Qwen3嵌入和重排序模型页面的翻译
根据我对德语翻译与原文英语文本的分析,以下是1-10分的评分:
文件 | LLM模型 | 翻译质量评分 | 评论 |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | 整体翻译优秀,德语流畅自然,技术术语准确,完全保留了Hugo短代码。因一些略显生硬的表达而略有扣分。 |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | 非常高质量的翻译,术语一致,德语自然,格式保留完美。流畅性略优于Devstral。 |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | 质量参差不齐 - 开头段落中存在英德混用问题(“The [Qwen3 Embedding and Reranker models]” 而非完整德语)。其余部分翻译良好但不一致。 |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | 德语翻译良好,技术术语准确,自然流畅。结构良好且一致。 |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | 翻译质量优秀,德语自然流畅,技术术语一致性完美,可读性极佳。整体最佳翻译。 |
关键评估标准:
翻译中观察到的优势:
- 保留Hugo短代码(
{ {< ref >}}
语法) - 技术术语准确性
- 保留markdown格式
- 表格结构保留
- 图像引用一致性
质量差异点:
- 语言一致性 - Qwen3 8B存在英德混用问题
- 自然德语流畅性 - Qwen3 30B实现了最自然的德语表达
- 技术精确性 - 所有模型都处理技术术语良好
- 格式保留 - 所有模型都完美保留了Hugo结构
按质量排名:
- Qwen3 30B (9.0/10) - 整体最佳
- Mistral Small 3.1 24B (8.7/10) - 非常强
- Devstral 24B (8.5/10) - 优秀
- Qwen3 14B (8.2/10) - 良好
- Qwen3 8B (6.5/10) - 有缺陷
较大的模型(Qwen3 30B和Mistral Small 3.1 24B)产生了最高质量的翻译,而较小的Qwen3 8B模型在一致性方面表现出明显的局限性。
测试3:使用Ollama和Qwen3嵌入模型进行重排序 - 在Go中
基本上,这是该网站上的先前文章: 使用Ollama和Qwen3嵌入模型对文本文档进行重排序 - 在Go中.
根据我对德语翻译的详细分析,以下是比较评估:
翻译质量分析(1-10分)
文件 | 模型 | 评分 | 关键评估 |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | 优秀 - 最一致和专业 |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | 非常好 - 自然但存在轻微不一致 |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | 良好 - 基本良好但存在混合元素 |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | 一般 - 包含未翻译的英文 |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | 差 - 多次翻译失败 |
详细比较分析:
🥇 DeVistral 24B (9/10) - 获胜者 优势:
- 技术精确性:使用"ollama API-Fehler”(小写,更自然)
- 一致性翻译:“handelt mit parallelen Anfragen”(精致表达)
- 专业质量:全文完整德语翻译
- 格式:完美保留markdown结构
小问题:非常少,主要是风格偏好
🥈 Mistral Small 3.1 24B (8.5/10) 优势:
- 自然的德语流畅性
- 良好的技术术语:“Ollama-API-Fehler”(连字符,正式风格)
- 一致的"verarbeitet parallele Anfragen”
问题:
- 一些技术语境中表达略显不够精致
- 一些格式变化
🥉 Qwen3 14B (7/10) 优势:
- 一般含义保留准确
- 正确的德语语法结构
问题:
- 一些生硬的构造
- 技术术语质量参差不齐
- 包含”```“开头和格式问题
Qwen3 30B (6.5/10) 关键缺陷:
- 包含未翻译的英文:“This little"直接出现在德语文本中
- 尽管模型更大,但存在翻译不一致
- 技术准确性存在但交付有缺陷
Qwen3 8B (5.5/10) 主要问题:
- 未翻译部分:“This little"保留英文
- 术语不一致:使用"RANGORDNUNG” vs 标准"RANGIERUNG”
- 流畅性差:德语构造不够自然
- 显示出较小模型尺寸的明显局限性
发现的关键差异点:
-
API错误翻译:
- DeVistral:
ollama API-Fehler
(自然,小写) - 其他:
Ollama-API-Fehler
(正式,带连字符)
- DeVistral:
-
并行请求:
- DeVistral: “handelt mit parallelen Anfragen”(精致)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen”(标准)
- Qwen3-8B: “behandelt parallele Anfragen”(不够精确)
-
章节标题:
- 大部分: “RANGIERUNG NACH ÄHNLICHKEIT”(标准)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT”(生硬)
-
英文污染:
- Qwen3-30B & Qwen3-8B: “This little"未翻译
- 其他:正确翻译为"Dieses kleine”
胜出者:DeVistral 24B - 显示出最一致的专业级德语翻译,技术术语精致,语言转换完整。
嘿嘿,DeVistral :). 但这又是另一个LLM的错误。