OLLAMA上でテキスト翻訳に最適なLLMはどれですか？

OLLAMA 上でのテキスト翻訳に最適な LLM は、Mistral small 3.1 24b です。

Hugoページ翻訳品質の比較 - Ollama上のLLM

qwen3 8b、14bおよび30b、devstral 24b、mistral small 24b

このテストでは、Ollama上でホストされているさまざまなLLMがHugoページを英語からドイツ語に翻訳する方法を比較しています（[英語からドイツ語へのHugoページの翻訳の比較](https://www.glukhov.org/ja/post/2025/06/translation-quality-comparison-llms-on-ollama/ “英語からドイツ語へのHugoページの翻訳の比較”）。

テストした3つのページは、異なるトピックについており、いくつかの構造を持つマークダウンがありました：見出し、リスト、テーブル、リンクなど。

すべてのモデルは、16GB VRAMを持つNVIDIA GPU上で実行され、いくつかは完全にVRAMに収まり、いくつか（24bおよび30b）はVRAMに収まらず、CPUにオーバーフローしました。

それでも、それらもテストしました。

2つのページ - 翻訳進行中

私がテストしたOllamaモデル：

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

すべてのモデルに対して翻訳プロンプトを実行した後、スマートなAnthropicモデルに翻訳の品質を分析し、各モデルのメトリクスを比較してもらうようにしました。

また、magistral:24bも試しましたが、thinkingに時間がかかりすぎて遅く、コンテキストをすべて消費しました。したがって、私のGPUには不向きです。

簡潔な結論：TL;DR

最も優れたのはMistral Small 3.1 24bです。16GB VRAMには収まらないため、私のハードウェアでは少し遅かったです。

次に優れたのは、Qwen 3 14bとQwen 3 30bです。14bはスムーズに収まりますが、30bはMoEモデルなので、非常に高速でもあります。私のハードウェアでは、その速度はほぼ同じでした。

テスト1：哲学的トピック

Hugoベースのウェブサイトページのマークダウンは、ある素晴らしい哲学的トピックについて：Ad Baculum論理的誤謬の説明と例。

index.de.devstral-24b.md - 評価：7/10 強み：

技術用語の翻訳が良好（“argumentum ad baculum Fehlschluss”）
適切なリンクフォーマットと構造の維持
複雑な哲学的概念の正確な翻訳
適切なドイツ語の文法と構文

弱み：

“verunstaltet"で"tainted"を表すのはやや不自然；“getrübt"の方が自然
いくつかのフレーズがやや硬直または過度に直訳されている
一部の文で流れの問題がある

index.de.mistral-small3.1-24b.md - 評価：8.5/10 強み：

非常に自然なドイツ語の流れ
技術用語の優れた翻訳
元の意味とトーンの良好な保持
適切な文法と文構造
“getrübt"で"tainted"を表すのがより自然

弱み：

用語の一貫性に非常にわずかな不一致
一部の文でソース構造からわずかな逸脱がある

index.de.qwen3-8b.md - 評価：6.5/10 強み：

主な概念の正確な翻訳
技術用語の適切な処理
記事構造の維持

弱み：

いくつかの不自然な表現（“kann sich auch in alltäglichen Interaktionen breiten”）
複数の箇所でドイツ語の流れが自然でない
一部の文法構造が強引に感じられる
最後の段落で「ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt」に語が欠けている（文法エラー）

index.de.qwen3-14b.md - 評価：8/10 強み：

自然なドイツ語の流れ
技術用語の優れた処理
元の意味の良好な保持
適切な文法と構文
一貫したスタイル

弱み：

用語の一貫性にわずかな変動
一部の文はより簡潔にできる

index.de.qwen3-30b-a3b.md - 評価：7.5/10 強み：

全体的な翻訳品質が良好
自然なドイツ語表現
技術用語の良好な翻訳
読みやすさと流れの維持
意味の良好な保持

弱み：

一部で語の選択にわずかな不一致
一部の表現がやや不自然
最後の段落で「über das [Terrain der] Argumentation」に冠詞が欠けている

総合評価順位

ファイル	翻訳品質スコア
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

最高の翻訳： index.de.mistral-small3.1-24b.md - 最も自然なドイツ語の流れと優れた技術的正確性

改善点： Qwen3-8bバージョンは文法の修正とより自然な表現が必要であり、他のモデルは主に語の選択と一貫性の微調整が必要です。

テスト2：Ollama上のQwen3 Embedding & Rerankerモデルに関するページの翻訳

私の分析に基づき、ドイツ語の翻訳を元の英語テキストと比較した結果、1〜10スケールでの品質評価は以下の通りです：

ファイル	LLMモデル	翻訳品質スコア	コメント
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	全体的に優れた翻訳で、自然なドイツ語の流れ、適切な技術用語、Hugoショートコードの完全な保持。一部の表現がやや不自然な点で減点。
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	非常に高い品質の翻訳で、用語の一貫性、自然なドイツ語、フォーマットの完全な保持。Devstralよりやや流れが良い。
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	質が混在 - 開頭の段落で英語とドイツ語の混在（“The [Qwen3 Embedding and Reranker models]“ではなく完全なドイツ語）。残りは良好に翻訳されているが、一貫性に欠ける。
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	良好なドイツ語翻訳で、適切な技術用語と自然な流れ。構造が整っており、全体的に一貫している。
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	優れた翻訳品質で、非常に自然なドイツ語表現、技術用語の一貫性が高く、読みやすさが非常に良い。最も優れた翻訳。

主要な評価基準：

翻訳全体に見られた強み：

Hugoショートコードの保持（{ {< ref >}}構文）
技術用語の正確性
マークダウンフォーマットの維持
テーブル構造の保持
画像参照の一貫性

品質の差別化要因：

言語の一貫性 - Qwen3 8Bは英語とドイツ語の混在の問題がある
自然なドイツ語の流れ - Qwen3 30Bは最も自然なドイツ語表現を実現
技術的正確性 - すべてのモデルが技術用語を適切に処理
フォーマットの保持 - すべてのモデルがHugo構造を完全に保持

品質順位：

Qwen3 30B (9.0/10) - 全体的に最も優れた品質
Mistral Small 3.1 24B (8.7/10) - 非常に強力
Devstral 24B (8.5/10) - 非常に優れた品質
Qwen3 14B (8.2/10) - 良好
Qwen3 8B (6.5/10) - 問題があるが十分

より大きなモデル（Qwen3 30BおよびMistral Small 3.1 24B）は最高品質の翻訳を生成し、一方でより小さなQwen3 8Bモデルは一貫性に明確な限界を示しました。

テスト3：OllamaとQwen3 Embeddingモデルによるリランキング - Go言語で

これは、このウェブサイトの以前の投稿です： OllamaとQwen3 Embeddingモデルを使用したテキストドキュメントのリランキング - Go言語で。

私の詳細な分析に基づき、ドイツ語の翻訳に対する比較評価は以下の通りです：

翻訳品質分析（1〜10スケール）

ファイル	モデル	スコア	主な評価
index.de.devstral-24b.md	DeVistral 24B	9/10	非常に優れた - 最も一貫性があり、プロフェッショナル
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	非常に良い - 自然だが、わずかな不一致がある
index.de.qwen3-14b.md	Qwen3 14B	7/10	良好 - 一部の要素が混在しているが、全体的に安定
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	普通 - 英語の部分が翻訳されていない
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	悪い - 複数の翻訳失敗がある

詳細な比較分析：

🥇 DeVistral 24B（9/10）- 優勝 強み：

技術的正確性：ollama API-Fehler（小文字、より自然）
一貫した翻訳：handelt mit parallelen Anfragen（洗練された表現）
プロフェッショナルな品質：全体的にドイツ語の翻訳が完全
フォーマット：マークダウン構造の完全な保持

わずかな問題：主にスタイルの好みに起因するもの

🥈 Mistral Small 3.1 24B（8.5/10） 強み：

自然なドイツ語の流れ
良好な技術用語：Ollama-API-Fehler（ハイフン付き、フォーマルスタイル）
一貫したverarbeitet parallele Anfragen

問題：

一部の技術的文脈でやや洗練された表現が不足
一部のフォーマットのわずかな変動

🥉 Qwen3 14B（7/10） 強み：

一般的な意味の保持が良好
適切なドイツ語文法構造

問題：

一部の構文がやや不自然
技術用語の品質が混在

Qwen3 30B（6.5/10） 重大な欠点：

英語の部分が翻訳されていない：This littleがドイツ語テキストに直接現れる
より大きなモデルサイズにもかかわらず、翻訳の一貫性に欠ける
技術的正確性は存在するが、表現に欠陥がある

Qwen3 8B（5.5/10） 主要な問題：

翻訳されていないセクション：This littleが英語のまま
用語の一貫性の欠如：RANGORDNUNG vs 標準のRANGIERUNGを使用
流れの悪さ：より自然でないドイツ語構文
小さなモデルサイズの明確な限界を示す

見つかった主な差別化要因：

APIエラーの翻訳：
- DeVistral: ollama API-Fehler（自然、小文字）
- 他：Ollama-API-Fehler（フォーマル、ハイフン付き）
並列リクエストの処理：
- DeVistral: “handelt mit parallelen Anfragen”（洗練された表現）
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen”（標準）
- Qwen3-8B: “behandelt parallele Anfragen”（精度が低い）
セクションヘッダー：
- 多くのモデル： “RANGIERUNG NACH ÄHNLICHKEIT”（標準）
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT”（不自然）
英語の汚染：
- Qwen3-30B & Qwen3-8B: “This little"が翻訳されていない
- 他：適切に「Dieses kleine」に翻訳

勝者：DeVistral 24B - 最も一貫したプロフェッショナルレベルのドイツ語翻訳を示し、洗練された技術用語と完全な言語変換を実現。

へへ、DeVistral :）。しかし、これは別のLLMのエラーです。

簡潔な結論：TL;DR

テスト1：哲学的トピック

総合評価順位

テスト2：Ollama上のQwen3 Embedding & Rerankerモデルに関するページの翻訳

テスト3：OllamaとQwen3 Embeddingモデルによるリランキング - Go言語で

有用なリンク