Hugo 页面翻译质量对比 - Ollama 上的 LLMs

qwen3 8b、14b 和 30b,devstral 24b,mistral small 24b

目录

在这项测试中,我正在比较不同LLMs在Ollama上如何将Hugo页面从英语翻译成德语

我测试的三页内容涉及不同主题,其中包含一些结构良好的markdown内容:标题、列表、表格、链接等。

所有这些模型都在配备16GB显存的NVIDIA GPU上运行,其中一些模型完全适合显存,而另一些(24b和30b)则不适合,会溢出到CPU上。

尽管如此,我也测试了这些模型。

两页 - 翻译正在进行中

我测试的Ollama模型包括:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

在对所有这些模型运行翻译提示后,我请求了智能的Anthropic模型来分析翻译质量,进行比较并为每个模型提供指标。

我也尝试了magistral:24b,但它“思考”时间太长,因此速度很慢,而且会占用所有上下文。 所以 - 不适合我的GPU。

简单结论:TL;DR

最好的是Mistral Small 3.1 24b。它不适合16GB显存,因此在我的硬件上稍慢一些。

接下来的两个最佳模型是Qwen 3 14b和Qwen 3 30b。14b模型适合显存,但30b是MoE模型,因此速度也很快。在我的硬件上它们的速度相似。

测试1:哲学主题

基于Hugo网站的页面markdown内容,涉及一些精彩的哲学主题 - Ad Baculum逻辑谬误的描述和例子。

index.de.devstral-24b.md - 评分:7/10 优势:

  • 技术术语翻译准确(“argumentum ad baculum Fehlschluss”)
  • 保持正确的链接格式和结构
  • 复杂哲学概念的准确翻译
  • 正确的德语语法和句法

劣势:

  • “verunstaltet"用于“tainted”有些生硬;“getrübt"会更自然
  • 一些短语感觉略微生硬或过于直译
  • 某些句子中存在轻微的流畅性问题

index.de.mistral-small3.1-24b.md - 评分:8.5/10 优势:

  • 非常自然的德语语言流畅性
  • 技术术语翻译出色
  • 原文含义和语气的良好保留
  • 正确的语法和句子结构
  • 使用"getrübt"翻译“tainted”更为自然

劣势:

  • 术语一致性存在轻微不一致
  • 偶尔与原文结构略有偏差

index.de.qwen3-8b.md - 评分:6.5/10 优势:

  • 主要概念的准确翻译
  • 技术术语处理得当
  • 保持文章结构

劣势:

  • 一些生硬的表达(“kann sich auch in alltäglichen Interaktionen breiten”)
  • 几个段落中德语流畅性较差
  • 一些语法结构显得生硬
  • “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"中缺少一个词(语法错误)

index.de.qwen3-14b.md - 评分:8/10 优势:

  • 自然的德语语言流畅性
  • 技术术语处理出色
  • 原文含义的良好保留
  • 正确的语法和句法
  • 全文风格一致

劣势:

  • 术语一致性存在轻微变化
  • 某些句子可以更简洁

index.de.qwen3-30b-a3b.md - 评分:7.5/10 优势:

  • 整体翻译质量良好
  • 自然的德语表达
  • 技术术语翻译良好
  • 保持可读性和流畅性
  • 含义保留良好

劣势:

  • 一些词语选择存在轻微不一致
  • 偶尔有略显生硬的表达
  • 最后一段中缺少冠词 “über das [Terrain der] Argumentation”

总结排名

文件 翻译质量评分
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

最佳翻译: index.de.mistral-small3.1-24b.md - 最自然的德语流畅性,技术准确性出色

改进领域: Qwen3-8b版本需要语法修正和更自然的表达,而其他版本主要需要在词语选择和一致性方面进行小幅改进。

测试2:Ollama上Qwen3嵌入和重排序模型页面的翻译

根据我对德语翻译与原文英语文本的分析,以下是1-10分的评分:

文件 LLM模型 翻译质量评分 评论
index.de.devstral-24b.md Devstral 24B 8.5/10 整体翻译优秀,德语流畅自然,技术术语准确,完全保留了Hugo短代码。因一些略显生硬的表达而略有扣分。
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 非常高质量的翻译,术语一致,德语自然,格式保留完美。流畅性略优于Devstral。
index.de.qwen3-8b.md Qwen3 8B 6.5/10 质量参差不齐 - 开头段落中存在英德混用问题(“The [Qwen3 Embedding and Reranker models]” 而非完整德语)。其余部分翻译良好但不一致。
index.de.qwen3-14b.md Qwen3 14B 8.2/10 德语翻译良好,技术术语准确,自然流畅。结构良好且一致。
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 翻译质量优秀,德语自然流畅,技术术语一致性完美,可读性极佳。整体最佳翻译。

关键评估标准:

翻译中观察到的优势:

  • 保留Hugo短代码({ {< ref >}}语法)
  • 技术术语准确性
  • 保留markdown格式
  • 表格结构保留
  • 图像引用一致性

质量差异点:

  1. 语言一致性 - Qwen3 8B存在英德混用问题
  2. 自然德语流畅性 - Qwen3 30B实现了最自然的德语表达
  3. 技术精确性 - 所有模型都处理技术术语良好
  4. 格式保留 - 所有模型都完美保留了Hugo结构

按质量排名:

  1. Qwen3 30B (9.0/10) - 整体最佳
  2. Mistral Small 3.1 24B (8.7/10) - 非常强
  3. Devstral 24B (8.5/10) - 优秀
  4. Qwen3 14B (8.2/10) - 良好
  5. Qwen3 8B (6.5/10) - 有缺陷

较大的模型(Qwen3 30B和Mistral Small 3.1 24B)产生了最高质量的翻译,而较小的Qwen3 8B模型在一致性方面表现出明显的局限性。

测试3:使用Ollama和Qwen3嵌入模型进行重排序 - 在Go中

基本上,这是该网站上的先前文章: 使用Ollama和Qwen3嵌入模型对文本文档进行重排序 - 在Go中.

根据我对德语翻译的详细分析,以下是比较评估

翻译质量分析(1-10分)

文件 模型 评分 关键评估
index.de.devstral-24b.md DeVistral 24B 9/10 优秀 - 最一致和专业
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 非常好 - 自然但存在轻微不一致
index.de.qwen3-14b.md Qwen3 14B 7/10 良好 - 基本良好但存在混合元素
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 一般 - 包含未翻译的英文
index.de.qwen3-8b.md Qwen3 8B 5.5/10 - 多次翻译失败

详细比较分析:

🥇 DeVistral 24B (9/10) - 获胜者 优势:

  • 技术精确性:使用"ollama API-Fehler”(小写,更自然)
  • 一致性翻译:“handelt mit parallelen Anfragen”(精致表达)
  • 专业质量:全文完整德语翻译
  • 格式:完美保留markdown结构

小问题:非常少,主要是风格偏好

🥈 Mistral Small 3.1 24B (8.5/10) 优势:

  • 自然的德语流畅性
  • 良好的技术术语:“Ollama-API-Fehler”(连字符,正式风格)
  • 一致的"verarbeitet parallele Anfragen”

问题:

  • 一些技术语境中表达略显不够精致
  • 一些格式变化

🥉 Qwen3 14B (7/10) 优势:

  • 一般含义保留准确
  • 正确的德语语法结构

问题:

  • 一些生硬的构造
  • 技术术语质量参差不齐
  • 包含”```“开头和格式问题

Qwen3 30B (6.5/10) 关键缺陷:

  • 包含未翻译的英文:“This little"直接出现在德语文本中
  • 尽管模型更大,但存在翻译不一致
  • 技术准确性存在但交付有缺陷

Qwen3 8B (5.5/10) 主要问题:

  • 未翻译部分:“This little"保留英文
  • 术语不一致:使用"RANGORDNUNG” vs 标准"RANGIERUNG”
  • 流畅性差:德语构造不够自然
  • 显示出较小模型尺寸的明显局限性

发现的关键差异点:

  1. API错误翻译:

    • DeVistral: ollama API-Fehler(自然,小写)
    • 其他:Ollama-API-Fehler(正式,带连字符)
  2. 并行请求:

    • DeVistral: “handelt mit parallelen Anfragen”(精致)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen”(标准)
    • Qwen3-8B: “behandelt parallele Anfragen”(不够精确)
  3. 章节标题:

    • 大部分: “RANGIERUNG NACH ÄHNLICHKEIT”(标准)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT”(生硬)
  4. 英文污染:

    • Qwen3-30B & Qwen3-8B: “This little"未翻译
    • 其他:正确翻译为"Dieses kleine”

胜出者:DeVistral 24B - 显示出最一致的专业级德语翻译,技术术语精致,语言转换完整。


嘿嘿,DeVistral :). 但这又是另一个LLM的错误。

有用的链接