Hugoページ翻訳品質の比較 - Ollama上のLLM
qwen3 8b、14bおよび30b、devstral 24b、mistral small 24b
このテストでは、Ollama上でホストされているさまざまなLLMがHugoページを英語からドイツ語に翻訳する方法を比較しています([英語からドイツ語へのHugoページの翻訳の比較](https://www.glukhov.org/ja/post/2025/06/translation-quality-comparison-llms-on-ollama/ “英語からドイツ語へのHugoページの翻訳の比較”)。
テストした3つのページは、異なるトピックについており、いくつかの構造を持つマークダウンがありました:見出し、リスト、テーブル、リンクなど。
すべてのモデルは、16GB VRAMを持つNVIDIA GPU上で実行され、いくつかは完全にVRAMに収まり、いくつか(24bおよび30b)はVRAMに収まらず、CPUにオーバーフローしました。
それでも、それらもテストしました。
私がテストしたOllamaモデル:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
すべてのモデルに対して翻訳プロンプトを実行した後、スマートなAnthropicモデルに翻訳の品質を分析し、各モデルのメトリクスを比較してもらうようにしました。
また、magistral:24bも試しましたが、thinking
に時間がかかりすぎて遅く、コンテキストをすべて消費しました。
したがって、私のGPUには不向きです。
簡潔な結論:TL;DR
最も優れたのはMistral Small 3.1 24bです。16GB VRAMには収まらないため、私のハードウェアでは少し遅かったです。
次に優れたのは、Qwen 3 14bとQwen 3 30bです。14bはスムーズに収まりますが、30bはMoEモデルなので、非常に高速でもあります。私のハードウェアでは、その速度はほぼ同じでした。
テスト1:哲学的トピック
Hugoベースのウェブサイトページのマークダウンは、ある素晴らしい哲学的トピックについて:Ad Baculum論理的誤謬の説明と例。
index.de.devstral-24b.md - 評価:7/10 強み:
- 技術用語の翻訳が良好(“argumentum ad baculum Fehlschluss”)
- 適切なリンクフォーマットと構造の維持
- 複雑な哲学的概念の正確な翻訳
- 適切なドイツ語の文法と構文
弱み:
- “verunstaltet"で"tainted"を表すのはやや不自然;“getrübt"の方が自然
- いくつかのフレーズがやや硬直または過度に直訳されている
- 一部の文で流れの問題がある
index.de.mistral-small3.1-24b.md - 評価:8.5/10 強み:
- 非常に自然なドイツ語の流れ
- 技術用語の優れた翻訳
- 元の意味とトーンの良好な保持
- 適切な文法と文構造
- “getrübt"で"tainted"を表すのがより自然
弱み:
- 用語の一貫性に非常にわずかな不一致
- 一部の文でソース構造からわずかな逸脱がある
index.de.qwen3-8b.md - 評価:6.5/10 強み:
- 主な概念の正確な翻訳
- 技術用語の適切な処理
- 記事構造の維持
弱み:
- いくつかの不自然な表現(“kann sich auch in alltäglichen Interaktionen breiten”)
- 複数の箇所でドイツ語の流れが自然でない
- 一部の文法構造が強引に感じられる
- 最後の段落で「ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt」に語が欠けている(文法エラー)
index.de.qwen3-14b.md - 評価:8/10 強み:
- 自然なドイツ語の流れ
- 技術用語の優れた処理
- 元の意味の良好な保持
- 適切な文法と構文
- 一貫したスタイル
弱み:
- 用語の一貫性にわずかな変動
- 一部の文はより簡潔にできる
index.de.qwen3-30b-a3b.md - 評価:7.5/10 強み:
- 全体的な翻訳品質が良好
- 自然なドイツ語表現
- 技術用語の良好な翻訳
- 読みやすさと流れの維持
- 意味の良好な保持
弱み:
- 一部で語の選択にわずかな不一致
- 一部の表現がやや不自然
- 最後の段落で「über das [Terrain der] Argumentation」に冠詞が欠けている
総合評価順位
ファイル | 翻訳品質スコア |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
最高の翻訳: index.de.mistral-small3.1-24b.md
- 最も自然なドイツ語の流れと優れた技術的正確性
改善点: Qwen3-8bバージョンは文法の修正とより自然な表現が必要であり、他のモデルは主に語の選択と一貫性の微調整が必要です。
テスト2:Ollama上のQwen3 Embedding & Rerankerモデルに関するページの翻訳
私の分析に基づき、ドイツ語の翻訳を元の英語テキストと比較した結果、1〜10スケールでの品質評価は以下の通りです:
ファイル | LLMモデル | 翻訳品質スコア | コメント |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | 全体的に優れた翻訳で、自然なドイツ語の流れ、適切な技術用語、Hugoショートコードの完全な保持。一部の表現がやや不自然な点で減点。 |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | 非常に高い品質の翻訳で、用語の一貫性、自然なドイツ語、フォーマットの完全な保持。Devstralよりやや流れが良い。 |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | 質が混在 - 開頭の段落で英語とドイツ語の混在(“The [Qwen3 Embedding and Reranker models]“ではなく完全なドイツ語)。残りは良好に翻訳されているが、一貫性に欠ける。 |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | 良好なドイツ語翻訳で、適切な技術用語と自然な流れ。構造が整っており、全体的に一貫している。 |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | 優れた翻訳品質で、非常に自然なドイツ語表現、技術用語の一貫性が高く、読みやすさが非常に良い。最も優れた翻訳。 |
主要な評価基準:
翻訳全体に見られた強み:
- Hugoショートコードの保持(
{ {< ref >}}
構文) - 技術用語の正確性
- マークダウンフォーマットの維持
- テーブル構造の保持
- 画像参照の一貫性
品質の差別化要因:
- 言語の一貫性 - Qwen3 8Bは英語とドイツ語の混在の問題がある
- 自然なドイツ語の流れ - Qwen3 30Bは最も自然なドイツ語表現を実現
- 技術的正確性 - すべてのモデルが技術用語を適切に処理
- フォーマットの保持 - すべてのモデルがHugo構造を完全に保持
品質順位:
- Qwen3 30B (9.0/10) - 全体的に最も優れた品質
- Mistral Small 3.1 24B (8.7/10) - 非常に強力
- Devstral 24B (8.5/10) - 非常に優れた品質
- Qwen3 14B (8.2/10) - 良好
- Qwen3 8B (6.5/10) - 問題があるが十分
より大きなモデル(Qwen3 30BおよびMistral Small 3.1 24B)は最高品質の翻訳を生成し、一方でより小さなQwen3 8Bモデルは一貫性に明確な限界を示しました。
テスト3:OllamaとQwen3 Embeddingモデルによるリランキング - Go言語で
これは、このウェブサイトの以前の投稿です: OllamaとQwen3 Embeddingモデルを使用したテキストドキュメントのリランキング - Go言語で。
私の詳細な分析に基づき、ドイツ語の翻訳に対する比較評価は以下の通りです:
翻訳品質分析(1〜10スケール)
ファイル | モデル | スコア | 主な評価 |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | 非常に優れた - 最も一貫性があり、プロフェッショナル |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | 非常に良い - 自然だが、わずかな不一致がある |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | 良好 - 一部の要素が混在しているが、全体的に安定 |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | 普通 - 英語の部分が翻訳されていない |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | 悪い - 複数の翻訳失敗がある |
詳細な比較分析:
🥇 DeVistral 24B(9/10)- 優勝 強み:
- 技術的正確性:
ollama API-Fehler
(小文字、より自然) - 一貫した翻訳:
handelt mit parallelen Anfragen
(洗練された表現) - プロフェッショナルな品質:全体的にドイツ語の翻訳が完全
- フォーマット:マークダウン構造の完全な保持
わずかな問題:主にスタイルの好みに起因するもの
🥈 Mistral Small 3.1 24B(8.5/10) 強み:
- 自然なドイツ語の流れ
- 良好な技術用語:
Ollama-API-Fehler
(ハイフン付き、フォーマルスタイル) - 一貫した
verarbeitet parallele Anfragen
問題:
- 一部の技術的文脈でやや洗練された表現が不足
- 一部のフォーマットのわずかな変動
🥉 Qwen3 14B(7/10) 強み:
- 一般的な意味の保持が良好
- 適切なドイツ語文法構造
問題:
- 一部の構文がやや不自然
- 技術用語の品質が混在
-
Qwen3 30B(6.5/10) 重大な欠点:
- 英語の部分が翻訳されていない:
This little
がドイツ語テキストに直接現れる - より大きなモデルサイズにもかかわらず、翻訳の一貫性に欠ける
- 技術的正確性は存在するが、表現に欠陥がある
Qwen3 8B(5.5/10) 主要な問題:
- 翻訳されていないセクション:
This little
が英語のまま - 用語の一貫性の欠如:
RANGORDNUNG
vs 標準のRANGIERUNG
を使用 - 流れの悪さ:より自然でないドイツ語構文
- 小さなモデルサイズの明確な限界を示す
見つかった主な差別化要因:
-
APIエラーの翻訳:
- DeVistral:
ollama API-Fehler
(自然、小文字) - 他:
Ollama-API-Fehler
(フォーマル、ハイフン付き)
- DeVistral:
-
並列リクエストの処理:
- DeVistral: “handelt mit parallelen Anfragen”(洗練された表現)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen”(標準)
- Qwen3-8B: “behandelt parallele Anfragen”(精度が低い)
-
セクションヘッダー:
- 多くのモデル: “RANGIERUNG NACH ÄHNLICHKEIT”(標準)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT”(不自然)
-
英語の汚染:
- Qwen3-30B & Qwen3-8B: “This little"が翻訳されていない
- 他:適切に「Dieses kleine」に翻訳
勝者:DeVistral 24B - 最も一貫したプロフェッショナルレベルのドイツ語翻訳を示し、洗練された技術用語と完全な言語変換を実現。
へへ、DeVistral :)。しかし、これは別のLLMのエラーです。