Hugoページ翻訳品質の比較 - Ollama上のLLM

qwen3 8b、14bおよび30b、devstral 24b、mistral small 24b

目次

このテストでは、Ollama上でホストされているさまざまなLLMがHugoページを英語からドイツ語に翻訳する方法を比較しています([英語からドイツ語へのHugoページの翻訳の比較](https://www.glukhov.org/ja/post/2025/06/translation-quality-comparison-llms-on-ollama/ “英語からドイツ語へのHugoページの翻訳の比較”)。

テストした3つのページは、異なるトピックについており、いくつかの構造を持つマークダウンがありました:見出し、リスト、テーブル、リンクなど。

すべてのモデルは、16GB VRAMを持つNVIDIA GPU上で実行され、いくつかは完全にVRAMに収まり、いくつか(24bおよび30b)はVRAMに収まらず、CPUにオーバーフローしました。

それでも、それらもテストしました。

2つのページ - 翻訳進行中

私がテストしたOllamaモデル:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

すべてのモデルに対して翻訳プロンプトを実行した後、スマートなAnthropicモデルに翻訳の品質を分析し、各モデルのメトリクスを比較してもらうようにしました。

また、magistral:24bも試しましたが、thinkingに時間がかかりすぎて遅く、コンテキストをすべて消費しました。 したがって、私のGPUには不向きです。

簡潔な結論:TL;DR

最も優れたのはMistral Small 3.1 24bです。16GB VRAMには収まらないため、私のハードウェアでは少し遅かったです。

次に優れたのは、Qwen 3 14bとQwen 3 30bです。14bはスムーズに収まりますが、30bはMoEモデルなので、非常に高速でもあります。私のハードウェアでは、その速度はほぼ同じでした。

テスト1:哲学的トピック

Hugoベースのウェブサイトページのマークダウンは、ある素晴らしい哲学的トピックについて:Ad Baculum論理的誤謬の説明と例。

index.de.devstral-24b.md - 評価:7/10 強み:

  • 技術用語の翻訳が良好(“argumentum ad baculum Fehlschluss”)
  • 適切なリンクフォーマットと構造の維持
  • 複雑な哲学的概念の正確な翻訳
  • 適切なドイツ語の文法と構文

弱み:

  • “verunstaltet"で"tainted"を表すのはやや不自然;“getrübt"の方が自然
  • いくつかのフレーズがやや硬直または過度に直訳されている
  • 一部の文で流れの問題がある

index.de.mistral-small3.1-24b.md - 評価:8.5/10 強み:

  • 非常に自然なドイツ語の流れ
  • 技術用語の優れた翻訳
  • 元の意味とトーンの良好な保持
  • 適切な文法と文構造
  • “getrübt"で"tainted"を表すのがより自然

弱み:

  • 用語の一貫性に非常にわずかな不一致
  • 一部の文でソース構造からわずかな逸脱がある

index.de.qwen3-8b.md - 評価:6.5/10 強み:

  • 主な概念の正確な翻訳
  • 技術用語の適切な処理
  • 記事構造の維持

弱み:

  • いくつかの不自然な表現(“kann sich auch in alltäglichen Interaktionen breiten”)
  • 複数の箇所でドイツ語の流れが自然でない
  • 一部の文法構造が強引に感じられる
  • 最後の段落で「ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt」に語が欠けている(文法エラー)

index.de.qwen3-14b.md - 評価:8/10 強み:

  • 自然なドイツ語の流れ
  • 技術用語の優れた処理
  • 元の意味の良好な保持
  • 適切な文法と構文
  • 一貫したスタイル

弱み:

  • 用語の一貫性にわずかな変動
  • 一部の文はより簡潔にできる

index.de.qwen3-30b-a3b.md - 評価:7.5/10 強み:

  • 全体的な翻訳品質が良好
  • 自然なドイツ語表現
  • 技術用語の良好な翻訳
  • 読みやすさと流れの維持
  • 意味の良好な保持

弱み:

  • 一部で語の選択にわずかな不一致
  • 一部の表現がやや不自然
  • 最後の段落で「über das [Terrain der] Argumentation」に冠詞が欠けている

総合評価順位

ファイル 翻訳品質スコア
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

最高の翻訳: index.de.mistral-small3.1-24b.md - 最も自然なドイツ語の流れと優れた技術的正確性

改善点: Qwen3-8bバージョンは文法の修正とより自然な表現が必要であり、他のモデルは主に語の選択と一貫性の微調整が必要です。

テスト2:Ollama上のQwen3 Embedding & Rerankerモデルに関するページの翻訳

私の分析に基づき、ドイツ語の翻訳を元の英語テキストと比較した結果、1〜10スケールでの品質評価は以下の通りです:

ファイル LLMモデル 翻訳品質スコア コメント
index.de.devstral-24b.md Devstral 24B 8.5/10 全体的に優れた翻訳で、自然なドイツ語の流れ、適切な技術用語、Hugoショートコードの完全な保持。一部の表現がやや不自然な点で減点。
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 非常に高い品質の翻訳で、用語の一貫性、自然なドイツ語、フォーマットの完全な保持。Devstralよりやや流れが良い。
index.de.qwen3-8b.md Qwen3 8B 6.5/10 質が混在 - 開頭の段落で英語とドイツ語の混在(“The [Qwen3 Embedding and Reranker models]“ではなく完全なドイツ語)。残りは良好に翻訳されているが、一貫性に欠ける。
index.de.qwen3-14b.md Qwen3 14B 8.2/10 良好なドイツ語翻訳で、適切な技術用語と自然な流れ。構造が整っており、全体的に一貫している。
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 優れた翻訳品質で、非常に自然なドイツ語表現、技術用語の一貫性が高く、読みやすさが非常に良い。最も優れた翻訳。

主要な評価基準:

翻訳全体に見られた強み:

  • Hugoショートコードの保持({ {< ref >}}構文)
  • 技術用語の正確性
  • マークダウンフォーマットの維持
  • テーブル構造の保持
  • 画像参照の一貫性

品質の差別化要因:

  1. 言語の一貫性 - Qwen3 8Bは英語とドイツ語の混在の問題がある
  2. 自然なドイツ語の流れ - Qwen3 30Bは最も自然なドイツ語表現を実現
  3. 技術的正確性 - すべてのモデルが技術用語を適切に処理
  4. フォーマットの保持 - すべてのモデルがHugo構造を完全に保持

品質順位:

  1. Qwen3 30B (9.0/10) - 全体的に最も優れた品質
  2. Mistral Small 3.1 24B (8.7/10) - 非常に強力
  3. Devstral 24B (8.5/10) - 非常に優れた品質
  4. Qwen3 14B (8.2/10) - 良好
  5. Qwen3 8B (6.5/10) - 問題があるが十分

より大きなモデル(Qwen3 30BおよびMistral Small 3.1 24B)は最高品質の翻訳を生成し、一方でより小さなQwen3 8Bモデルは一貫性に明確な限界を示しました。

テスト3:OllamaとQwen3 Embeddingモデルによるリランキング - Go言語で

これは、このウェブサイトの以前の投稿です: OllamaとQwen3 Embeddingモデルを使用したテキストドキュメントのリランキング - Go言語で

私の詳細な分析に基づき、ドイツ語の翻訳に対する比較評価は以下の通りです:

翻訳品質分析(1〜10スケール)

ファイル モデル スコア 主な評価
index.de.devstral-24b.md DeVistral 24B 9/10 非常に優れた - 最も一貫性があり、プロフェッショナル
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 非常に良い - 自然だが、わずかな不一致がある
index.de.qwen3-14b.md Qwen3 14B 7/10 良好 - 一部の要素が混在しているが、全体的に安定
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 普通 - 英語の部分が翻訳されていない
index.de.qwen3-8b.md Qwen3 8B 5.5/10 悪い - 複数の翻訳失敗がある

詳細な比較分析:

🥇 DeVistral 24B(9/10)- 優勝 強み:

  • 技術的正確性ollama API-Fehler(小文字、より自然)
  • 一貫した翻訳handelt mit parallelen Anfragen(洗練された表現)
  • プロフェッショナルな品質:全体的にドイツ語の翻訳が完全
  • フォーマット:マークダウン構造の完全な保持

わずかな問題:主にスタイルの好みに起因するもの

🥈 Mistral Small 3.1 24B(8.5/10) 強み:

  • 自然なドイツ語の流れ
  • 良好な技術用語:Ollama-API-Fehler(ハイフン付き、フォーマルスタイル)
  • 一貫したverarbeitet parallele Anfragen

問題:

  • 一部の技術的文脈でやや洗練された表現が不足
  • 一部のフォーマットのわずかな変動

🥉 Qwen3 14B(7/10) 強み:

  • 一般的な意味の保持が良好
  • 適切なドイツ語文法構造

問題:

  • 一部の構文がやや不自然
  • 技術用語の品質が混在

Qwen3 30B(6.5/10) 重大な欠点:

  • 英語の部分が翻訳されていないThis littleがドイツ語テキストに直接現れる
  • より大きなモデルサイズにもかかわらず、翻訳の一貫性に欠ける
  • 技術的正確性は存在するが、表現に欠陥がある

Qwen3 8B(5.5/10) 主要な問題:

  • 翻訳されていないセクションThis littleが英語のまま
  • 用語の一貫性の欠如RANGORDNUNG vs 標準のRANGIERUNGを使用
  • 流れの悪さ:より自然でないドイツ語構文
  • 小さなモデルサイズの明確な限界を示す

見つかった主な差別化要因:

  1. APIエラーの翻訳:

    • DeVistral: ollama API-Fehler(自然、小文字)
    • 他:Ollama-API-Fehler(フォーマル、ハイフン付き)
  2. 並列リクエストの処理:

    • DeVistral: “handelt mit parallelen Anfragen”(洗練された表現)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen”(標準)
    • Qwen3-8B: “behandelt parallele Anfragen”(精度が低い)
  3. セクションヘッダー:

    • 多くのモデル: “RANGIERUNG NACH ÄHNLICHKEIT”(標準)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT”(不自然)
  4. 英語の汚染:

    • Qwen3-30B & Qwen3-8B: “This little"が翻訳されていない
    • 他:適切に「Dieses kleine」に翻訳

勝者:DeVistral 24B - 最も一貫したプロフェッショナルレベルのドイツ語翻訳を示し、洗練された技術用語と完全な言語変換を実現。


へへ、DeVistral :)。しかし、これは別のLLMのエラーです。

有用なリンク