在 OLLAMA 上，哪个大语言模型最适合用于文本翻译？

在 OLLAMA 上用于文本翻译的最佳 LLM 是 Mistral small 3.1 24b。

Hugo 页面翻译质量对比 - Ollama 上的 LLMs

qwen3 8b、14b 和 30b，devstral 24b，mistral small 24b

在这项测试中，我正在比较不同LLMs在Ollama上如何将Hugo页面从英语翻译成德语。

我测试的三页内容涉及不同主题，其中包含一些结构良好的markdown内容：标题、列表、表格、链接等。

所有这些模型都在配备16GB显存的NVIDIA GPU上运行，其中一些模型完全适合显存，而另一些（24b和30b）则不适合，会溢出到CPU上。

尽管如此，我也测试了这些模型。

两页 - 翻译正在进行中

我测试的Ollama模型包括：

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

在对所有这些模型运行翻译提示后，我请求了智能的Anthropic模型来分析翻译质量，进行比较并为每个模型提供指标。

我也尝试了magistral:24b，但它“思考”时间太长，因此速度很慢，而且会占用所有上下文。所以 - 不适合我的GPU。

简单结论：TL;DR

最好的是Mistral Small 3.1 24b。它不适合16GB显存，因此在我的硬件上稍慢一些。

接下来的两个最佳模型是Qwen 3 14b和Qwen 3 30b。14b模型适合显存，但30b是MoE模型，因此速度也很快。在我的硬件上它们的速度相似。

测试1：哲学主题

基于Hugo网站的页面markdown内容，涉及一些精彩的哲学主题 - Ad Baculum逻辑谬误的描述和例子。

index.de.devstral-24b.md - 评分：7/10 优势：

技术术语翻译准确（“argumentum ad baculum Fehlschluss”）
保持正确的链接格式和结构
复杂哲学概念的准确翻译
正确的德语语法和句法

劣势：

“verunstaltet"用于“tainted”有些生硬；“getrübt"会更自然
一些短语感觉略微生硬或过于直译
某些句子中存在轻微的流畅性问题

index.de.mistral-small3.1-24b.md - 评分：8.5/10 优势：

非常自然的德语语言流畅性
技术术语翻译出色
原文含义和语气的良好保留
正确的语法和句子结构
使用"getrübt"翻译“tainted”更为自然

劣势：

术语一致性存在轻微不一致
偶尔与原文结构略有偏差

index.de.qwen3-8b.md - 评分：6.5/10 优势：

主要概念的准确翻译
技术术语处理得当
保持文章结构

劣势：

一些生硬的表达（“kann sich auch in alltäglichen Interaktionen breiten”）
几个段落中德语流畅性较差
一些语法结构显得生硬
“ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"中缺少一个词（语法错误）

index.de.qwen3-14b.md - 评分：8/10 优势：

自然的德语语言流畅性
技术术语处理出色
原文含义的良好保留
正确的语法和句法
全文风格一致

劣势：

术语一致性存在轻微变化
某些句子可以更简洁

index.de.qwen3-30b-a3b.md - 评分：7.5/10 优势：

整体翻译质量良好
自然的德语表达
技术术语翻译良好
保持可读性和流畅性
含义保留良好

劣势：

一些词语选择存在轻微不一致
偶尔有略显生硬的表达
最后一段中缺少冠词 “über das [Terrain der] Argumentation”

总结排名

文件	翻译质量评分
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

最佳翻译： index.de.mistral-small3.1-24b.md - 最自然的德语流畅性，技术准确性出色

改进领域： Qwen3-8b版本需要语法修正和更自然的表达，而其他版本主要需要在词语选择和一致性方面进行小幅改进。

测试2：Ollama上Qwen3嵌入和重排序模型页面的翻译

根据我对德语翻译与原文英语文本的分析，以下是1-10分的评分：

文件	LLM模型	翻译质量评分	评论
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	整体翻译优秀，德语流畅自然，技术术语准确，完全保留了Hugo短代码。因一些略显生硬的表达而略有扣分。
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	非常高质量的翻译，术语一致，德语自然，格式保留完美。流畅性略优于Devstral。
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	质量参差不齐 - 开头段落中存在英德混用问题（“The [Qwen3 Embedding and Reranker models]” 而非完整德语）。其余部分翻译良好但不一致。
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	德语翻译良好，技术术语准确，自然流畅。结构良好且一致。
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	翻译质量优秀，德语自然流畅，技术术语一致性完美，可读性极佳。整体最佳翻译。

关键评估标准：

翻译中观察到的优势：

保留Hugo短代码（{ {< ref >}}语法）
技术术语准确性
保留markdown格式
表格结构保留
图像引用一致性

质量差异点：

语言一致性 - Qwen3 8B存在英德混用问题
自然德语流畅性 - Qwen3 30B实现了最自然的德语表达
技术精确性 - 所有模型都处理技术术语良好
格式保留 - 所有模型都完美保留了Hugo结构

按质量排名：

Qwen3 30B (9.0/10) - 整体最佳
Mistral Small 3.1 24B (8.7/10) - 非常强
Devstral 24B (8.5/10) - 优秀
Qwen3 14B (8.2/10) - 良好
Qwen3 8B (6.5/10) - 有缺陷

较大的模型（Qwen3 30B和Mistral Small 3.1 24B）产生了最高质量的翻译，而较小的Qwen3 8B模型在一致性方面表现出明显的局限性。

测试3：使用Ollama和Qwen3嵌入模型进行重排序 - 在Go中

基本上，这是该网站上的先前文章：使用Ollama和Qwen3嵌入模型对文本文档进行重排序 - 在Go中.

根据我对德语翻译的详细分析，以下是比较评估：

翻译质量分析（1-10分）

文件	模型	评分	关键评估
index.de.devstral-24b.md	DeVistral 24B	9/10	优秀 - 最一致和专业
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	非常好 - 自然但存在轻微不一致
index.de.qwen3-14b.md	Qwen3 14B	7/10	良好 - 基本良好但存在混合元素
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	一般 - 包含未翻译的英文
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	差 - 多次翻译失败

详细比较分析：

🥇 DeVistral 24B (9/10) - 获胜者 优势：

技术精确性：使用"ollama API-Fehler”（小写，更自然）
一致性翻译：“handelt mit parallelen Anfragen”（精致表达）
专业质量：全文完整德语翻译
格式：完美保留markdown结构

小问题：非常少，主要是风格偏好

🥈 Mistral Small 3.1 24B (8.5/10) 优势：

自然的德语流畅性
良好的技术术语：“Ollama-API-Fehler”（连字符，正式风格）
一致的"verarbeitet parallele Anfragen”

问题：

一些技术语境中表达略显不够精致
一些格式变化

🥉 Qwen3 14B (7/10) 优势：

一般含义保留准确
正确的德语语法结构

问题：

一些生硬的构造
技术术语质量参差不齐
包含”```“开头和格式问题

Qwen3 30B (6.5/10) 关键缺陷：

包含未翻译的英文：“This little"直接出现在德语文本中
尽管模型更大，但存在翻译不一致
技术准确性存在但交付有缺陷

Qwen3 8B (5.5/10) 主要问题：

未翻译部分：“This little"保留英文
术语不一致：使用"RANGORDNUNG” vs 标准"RANGIERUNG”
流畅性差：德语构造不够自然
显示出较小模型尺寸的明显局限性

发现的关键差异点：

API错误翻译：
- DeVistral: ollama API-Fehler（自然，小写）
- 其他：Ollama-API-Fehler（正式，带连字符）
并行请求：
- DeVistral: “handelt mit parallelen Anfragen”（精致）
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen”（标准）
- Qwen3-8B: “behandelt parallele Anfragen”（不够精确）
章节标题：
- 大部分： “RANGIERUNG NACH ÄHNLICHKEIT”（标准）
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT”（生硬）
英文污染：
- Qwen3-30B & Qwen3-8B: “This little"未翻译
- 其他：正确翻译为"Dieses kleine”

胜出者：DeVistral 24B - 显示出最一致的专业级德语翻译，技术术语精致，语言转换完整。

嘿嘿，DeVistral :). 但这又是另一个LLM的错误。

简单结论：TL;DR

测试1：哲学主题

测试2：Ollama上Qwen3嵌入和重排序模型页面的翻译

测试3：使用Ollama和Qwen3嵌入模型进行重排序 - 在Go中

有用的链接