Welches ist die beste LLM für Textübersetzungen auf OLLAMA?

Die beste LLM für Textübersetzungen auf OLLAMA ist Mistral small 3.1 24b.

Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

qwen3 8b, 14b und 30b, devstral 24b, mistral small 24b

Inhaltsverzeichnis

In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten von Englisch ins Deutsche übersetzen: Vergleich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten übersetzen. Drei Seiten, die ich getestet habe, befassen sich mit unterschiedlichen Themen und enthalten einige schöne Markdown-Elemente mit Struktur: Überschriften, Listen, Tabellen, Links usw.

Alle diese Modelle wurden auf einer NVidia-GPU mit 16 GB VRAM ausgeführt. Einige von ihnen passten vollständig in die VRAM, andere (24b und 30b) nicht und wurden auf den CPU ausgelagert.

Trotzdem habe ich auch diese getestet.

zwei Seiten - Übersetzung im Gange

Die Ollama-Modelle, die ich getestet habe:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Nachdem ich Übersetzungsaufträge auf all diese Modelle laufen ließ, fragte ich ein intelligentes Anthropic-Modell, um die Qualität der Übersetzungen zu analysieren, zu vergleichen und Metriken für jedes Modell bereitzustellen.

Ich habe auch magistral:24b ausprobiert, aber es war thinking zu viel, also war es langsam und verbrauchte alle Kontexte. Also – nicht für meine GPU.

Die einfache Schlussfolgerung: TL;DR

Das beste Modell ist Mistral Small 3.1 24b. Es passt nicht in 16 GB VRAM, also war es auf meiner Hardware etwas langsam.

Die nächsten beiden besten: Qwen 3 14b und Qwen 3 30b. 14b passt gut, aber 30b ist ein MoE-Modell, also ziemlich schnell. Auf meiner Hardware war ihre Geschwindigkeit ähnlich.

Test 1: Philosophisches Thema

Das Markdown der Hugo-basierten Website-Seite zu einem faszinierenden philosophischen Thema – Beschreibung und Beispiele für den Ad Baculum logischen Fehlschluss.

index.de.devstral-24b.md - Bewertung: 7/10 Stärken:

Gute Übersetzung technischer Begriffe (“argumentum ad baculum Fehlschluss”)
Erhaltung der richtigen Linkformatierung und Struktur
Genauere Übersetzung komplexer philosophischer Konzepte
Richtiges deutsches Grammatik und Syntax

Schwächen:

“verunstaltet” für “tainted” ist etwas unbeholfen; “getrübt” wäre natürlicher
Einige Phrasen wirken leicht steif oder zu wörtlich
Kleine Flussprobleme in bestimmten Sätzen

index.de.mistral-small3.1-24b.md - Bewertung: 8.5/10 Stärken:

Sehr natürlicher deutscher Sprachfluss
Ausgezeichnete Übersetzung technischer Begriffe
Gute Erhaltung des ursprünglichen Sinnes und Tons
Richtiges Grammatik und Satzstruktur
Verwendung von “getrübt” für “tainted”, was natürlicher ist

Schwächen:

Sehr geringfügige Inkonsistenzen in der Terminologie
Gelegentliche leichte Abweichungen von der Struktur der Quelle

index.de.qwen3-8b.md - Bewertung: 6.5/10 Stärken:

Genauere Übersetzung der Hauptkonzepte
Technische Begriffe richtig behandelt
Erhaltung der Artikelstruktur

Schwächen:

Einige unbeholfene Formulierungen (“kann sich auch in alltäglichen Interaktionen breiten”)
Weniger natürlicher deutscher Sprachfluss in mehreren Passagen
Einige grammatikalische Konstruktionen wirken gezwungen
Fehlendes Wort in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (Grammatikfehler)

index.de.qwen3-14b.md - Bewertung: 8/10 Stärken:

Natürlicher deutscher Sprachfluss
Ausgezeichnete Behandlung technischer Terminologie
Gute Erhaltung des ursprünglichen Sinnes
Richtiges Grammatik und Syntax
Konsistenter Stil über das ganze Dokument

Schwächen:

Geringfügige Variationen in der Terminologie-Konsistenz
Einige Sätze könnten prägnanter formuliert werden

index.de.qwen3-30b-a3b.md - Bewertung: 7.5/10 Stärken:

Gute Gesamtübersetzung Qualität
Natürliche deutsche Ausdrucksweise
Technische Begriffe gut übersetzt
Erhaltung der Lesbarkeit und Flüssigkeit
Gute Erhaltung des Sinnes

Schwächen:

Einige geringfügige Inkonsistenzen in der Wortwahl
Gelegentliche leicht unbeholfene Formulierungen
Fehlendes Artikel in der letzten Passage “über das [Terrain der] Argumentation”

Zusammenfassende Bewertungen

Datei	Übersetzung Qualität Bewertung
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Beste Übersetzung: index.de.mistral-small3.1-24b.md - Natürlicher deutscher Sprachfluss mit hervorragender technischer Genauigkeit

Bereiche zur Verbesserung: Die Qwen3-8b-Version benötigt grammatische Korrekturen und natürlichere Formulierungen, während andere hauptsächlich geringfügige Verbesserungen in der Wortwahl und Konsistenz benötigen.

Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.

Basierend auf meiner Analyse der deutschen Übersetzungen im Vergleich zum ursprünglichen englischen Text sind hier die Qualitätseinschätzungen auf einer Skala von 1 bis 10:

Datei	LLM-Modell	Übersetzung Qualität Bewertung	Kommentare
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Ausgezeichnete Gesamtübersetzung mit natürlichem deutschem Sprachfluss, richtiger technischer Terminologie und vollständiger Erhaltung von Hugo-Shortcodes. Geringfügige Abzüge für einige leicht unbeholfene Formulierungen.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Sehr hohe Qualität der Übersetzung mit konsistenter Terminologie, natürlichem deutschem Sprachfluss und perfekter Formatierungserhaltung. Leicht besserer Fluss als Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Gemischte Qualität – enthält Mischung aus englisch-deutscher Sprache im Einleitungsteil (“The [Qwen3 Embedding and Reranker models]” anstelle von vollständigem Deutsch). Der Rest ist gut übersetzt, aber inkonsistent.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Gute deutsche Übersetzung mit richtiger technischer Terminologie und natürlichem Fluss. Gut strukturiert und konsistent über das ganze Dokument.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Ausgezeichnete Übersetzung Qualität mit sehr natürlichem deutschem Sprachfluss, perfekter technischer Terminologie-Konsistenz und hervorragender Lesbarkeit. Beste Gesamtübersetzung.

Hauptbewertungskriterien:

Beobachtete Stärken in den Übersetzungen:

Erhaltung von Hugo-Shortcodes ({ {< ref >}} Syntax)
Genauigkeit technischer Terminologie
Erhaltung von Markdown-Formatierung
Erhaltung von Tabellenstruktur
Konsistenz bei Bildverweisen

Qualitätsunterschiede:

Sprachkonsistenz – Qwen3 8B hatte Probleme mit der Mischung aus englisch-deutscher Sprache
Natürlicher deutscher Sprachfluss – Qwen3 30B erzielte den natürlichsten deutschen Ausdruck
Technische Präzision – Alle Modelle behandelten technische Begriffe gut
Formatierungserhaltung – Alle erhielten die Hugo-Struktur perfekt

Bewertung nach Qualität:

Qwen3 30B (9.0/10) – Bestes Gesamtergebnis
Mistral Small 3.1 24B (8.7/10) – Sehr stark
Devstral 24B (8.5/10) – Ausgezeichnet
Qwen3 14B (8.2/10) – Gut
Qwen3 8B (6.5/10) – Ausreichend mit Problemen

Die größeren Modelle (Qwen3 30B und Mistral Small 3.1 24B) produzierten die höchste Qualität der Übersetzungen, während das kleinere Qwen3 8B-Modell klare Einschränkungen in der Konsistenz zeigte.

Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go

Grundlegend ist es ein vorheriger Beitrag auf dieser Website: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Basierend auf meiner detaillierten Analyse der deutschen Übersetzungen hier ist die vergleichende Bewertung:

Übersetzung Qualität Analyse (1-10 Skala)

Datei	Modell	Punktzahl	Schlüsselbewertung
index.de.devstral-24b.md	DeVistral 24B	9/10	Ausgezeichnet - Am konsistentesten und professionellsten
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Sehr gut - Natürlicher Sprachfluss mit geringfügigen Inkonsistenzen
index.de.qwen3-14b.md	Qwen3 14B	7/10	Gut - Solide mit einigen gemischten Elementen
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Geringfügig - Enthält unübersetzte englische Texte
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Schlecht - Mehrere Übersetzungsschwächen

Detaillierte vergleichende Analyse:

🥇 DeVistral 24B (9/10) - Gewinner Stärken:

Technische Präzision: Verwendet “ollama API-Fehler” (kleinbuchstaben, natürlicher)
Konsistente Übersetzung: “handelt mit parallelen Anfragen” (sophistiziertes Formulieren)
Professionelle Qualität: Vollständige deutsche Übersetzung über das ganze Dokument
Formatierung: Perfekte Erhaltung der Markdown-Struktur

Geringfügige Probleme: Sehr wenige, hauptsächlich stilistische Präferenzen

🥈 Mistral Small 3.1 24B (8.5/10) Stärken:

Natürlicher deutscher Sprachfluss
Gute technische Terminologie: “Ollama-API-Fehler” (gepunktet, formeller Stil)
Konsistente “verarbeitet parallele Anfragen”

Probleme:

Leicht weniger sophistiziertes Formulieren in einigen technischen Kontexten
Geringfügige Formatierungsvariationen

🥉 Qwen3 14B (7/10) Stärken:

Allgemeine genaue Sinserhaltung
Richtiges deutsches Grammatikstruktur

Probleme:

Einige unbeholfene Konstruktionen
Gemischte Qualität in der technischen Terminologie
Enthält “```” am Anfang und Formatierungsprobleme

Qwen3 30B (6.5/10) Kritische Schwäche:

Enthält unübersetzte englische Texte: “This little” erscheint direkt im deutschen Text
Obwohl größeres Modell, zeigt Übersetzungsinkonsistenzen
Technische Genauigkeit vorhanden, aber Auslieferung fehlerhaft

Qwen3 8B (5.5/10) Große Probleme:

Unübersetzte Abschnitte: “This little” bleibt auf Englisch
Inkonsistente Terminologie: Verwendet “RANGORDNUNG” vs. Standard “RANGIERUNG”
Schlechter Fluss: Weniger natürliche deutsche Konstruktionen
Zeigt klare Einschränkungen der kleineren Modellgröße

Gefundene Schlüsselunterschiede:

API-Fehler-Übersetzung:
- DeVistral: ollama API-Fehler (natürlich, kleinbuchstaben)
- Andere: Ollama-API-Fehler (formell, mit Bindestrich)
Parallele Anfragen:
- DeVistral: “handelt mit parallelen Anfragen” (sophistiziert)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (Standard)
- Qwen3-8B: “behandelt parallele Anfragen” (weniger präzise)
Abschnitte Überschriften:
- Meisten: “RANGIERUNG NACH ÄHNLICHKEIT” (Standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (unbeholfen)
Englische Kontamination:
- Qwen3-30B & Qwen3-8B: “This little” bleibt unübersetzt
- Andere: Ordentlich ins Deutsche übersetzt zu “Dieses kleine”

Gewinner: DeVistral 24B – Zeigt die konsistenteste professionelle deutsche Übersetzung mit sophistizierter technischer Terminologie und vollständiger Sprachumwandlung.

Hehe DeVistral :). Aber das ist ein Fehler eines anderen LLMs.

Die einfache Schlussfolgerung: TL;DR

Test 1: Philosophisches Thema

Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.

Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go

Nützliche Links