Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama
qwen3 8b, 14b und 30b, devstral 24b, mistral small 24b
In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten von Englisch ins Deutsche übersetzen: Vergleich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten übersetzen. Drei Seiten, die ich getestet habe, befassen sich mit unterschiedlichen Themen und enthalten einige schöne Markdown-Elemente mit Struktur: Überschriften, Listen, Tabellen, Links usw.
Alle diese Modelle wurden auf einer NVidia-GPU mit 16 GB VRAM ausgeführt. Einige von ihnen passten vollständig in die VRAM, andere (24b und 30b) nicht und wurden auf den CPU ausgelagert.
Trotzdem habe ich auch diese getestet.
Die Ollama-Modelle, die ich getestet habe:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Nachdem ich Übersetzungsaufträge auf all diese Modelle laufen ließ, fragte ich ein intelligentes Anthropic-Modell, um die Qualität der Übersetzungen zu analysieren, zu vergleichen und Metriken für jedes Modell bereitzustellen.
Ich habe auch magistral:24b ausprobiert, aber es war thinking
zu viel, also war es langsam und verbrauchte alle Kontexte.
Also – nicht für meine GPU.
Die einfache Schlussfolgerung: TL;DR
Das beste Modell ist Mistral Small 3.1 24b. Es passt nicht in 16 GB VRAM, also war es auf meiner Hardware etwas langsam.
Die nächsten beiden besten: Qwen 3 14b und Qwen 3 30b. 14b passt gut, aber 30b ist ein MoE-Modell, also ziemlich schnell. Auf meiner Hardware war ihre Geschwindigkeit ähnlich.
Test 1: Philosophisches Thema
Das Markdown der Hugo-basierten Website-Seite zu einem faszinierenden philosophischen Thema – Beschreibung und Beispiele für den Ad Baculum logischen Fehlschluss.
index.de.devstral-24b.md - Bewertung: 7/10 Stärken:
- Gute Übersetzung technischer Begriffe (“argumentum ad baculum Fehlschluss”)
- Erhaltung der richtigen Linkformatierung und Struktur
- Genauere Übersetzung komplexer philosophischer Konzepte
- Richtiges deutsches Grammatik und Syntax
Schwächen:
- “verunstaltet” für “tainted” ist etwas unbeholfen; “getrübt” wäre natürlicher
- Einige Phrasen wirken leicht steif oder zu wörtlich
- Kleine Flussprobleme in bestimmten Sätzen
index.de.mistral-small3.1-24b.md - Bewertung: 8.5/10 Stärken:
- Sehr natürlicher deutscher Sprachfluss
- Ausgezeichnete Übersetzung technischer Begriffe
- Gute Erhaltung des ursprünglichen Sinnes und Tons
- Richtiges Grammatik und Satzstruktur
- Verwendung von “getrübt” für “tainted”, was natürlicher ist
Schwächen:
- Sehr geringfügige Inkonsistenzen in der Terminologie
- Gelegentliche leichte Abweichungen von der Struktur der Quelle
index.de.qwen3-8b.md - Bewertung: 6.5/10 Stärken:
- Genauere Übersetzung der Hauptkonzepte
- Technische Begriffe richtig behandelt
- Erhaltung der Artikelstruktur
Schwächen:
- Einige unbeholfene Formulierungen (“kann sich auch in alltäglichen Interaktionen breiten”)
- Weniger natürlicher deutscher Sprachfluss in mehreren Passagen
- Einige grammatikalische Konstruktionen wirken gezwungen
- Fehlendes Wort in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (Grammatikfehler)
index.de.qwen3-14b.md - Bewertung: 8/10 Stärken:
- Natürlicher deutscher Sprachfluss
- Ausgezeichnete Behandlung technischer Terminologie
- Gute Erhaltung des ursprünglichen Sinnes
- Richtiges Grammatik und Syntax
- Konsistenter Stil über das ganze Dokument
Schwächen:
- Geringfügige Variationen in der Terminologie-Konsistenz
- Einige Sätze könnten prägnanter formuliert werden
index.de.qwen3-30b-a3b.md - Bewertung: 7.5/10 Stärken:
- Gute Gesamtübersetzung Qualität
- Natürliche deutsche Ausdrucksweise
- Technische Begriffe gut übersetzt
- Erhaltung der Lesbarkeit und Flüssigkeit
- Gute Erhaltung des Sinnes
Schwächen:
- Einige geringfügige Inkonsistenzen in der Wortwahl
- Gelegentliche leicht unbeholfene Formulierungen
- Fehlendes Artikel in der letzten Passage “über das [Terrain der] Argumentation”
Zusammenfassende Bewertungen
Datei | Übersetzung Qualität Bewertung |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
Beste Übersetzung: index.de.mistral-small3.1-24b.md
- Natürlicher deutscher Sprachfluss mit hervorragender technischer Genauigkeit
Bereiche zur Verbesserung: Die Qwen3-8b-Version benötigt grammatische Korrekturen und natürlichere Formulierungen, während andere hauptsächlich geringfügige Verbesserungen in der Wortwahl und Konsistenz benötigen.
Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.
Basierend auf meiner Analyse der deutschen Übersetzungen im Vergleich zum ursprünglichen englischen Text sind hier die Qualitätseinschätzungen auf einer Skala von 1 bis 10:
Datei | LLM-Modell | Übersetzung Qualität Bewertung | Kommentare |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Ausgezeichnete Gesamtübersetzung mit natürlichem deutschem Sprachfluss, richtiger technischer Terminologie und vollständiger Erhaltung von Hugo-Shortcodes. Geringfügige Abzüge für einige leicht unbeholfene Formulierungen. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Sehr hohe Qualität der Übersetzung mit konsistenter Terminologie, natürlichem deutschem Sprachfluss und perfekter Formatierungserhaltung. Leicht besserer Fluss als Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Gemischte Qualität – enthält Mischung aus englisch-deutscher Sprache im Einleitungsteil (“The [Qwen3 Embedding and Reranker models]” anstelle von vollständigem Deutsch). Der Rest ist gut übersetzt, aber inkonsistent. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Gute deutsche Übersetzung mit richtiger technischer Terminologie und natürlichem Fluss. Gut strukturiert und konsistent über das ganze Dokument. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Ausgezeichnete Übersetzung Qualität mit sehr natürlichem deutschem Sprachfluss, perfekter technischer Terminologie-Konsistenz und hervorragender Lesbarkeit. Beste Gesamtübersetzung. |
Hauptbewertungskriterien:
Beobachtete Stärken in den Übersetzungen:
- Erhaltung von Hugo-Shortcodes (
{ {< ref >}}
Syntax) - Genauigkeit technischer Terminologie
- Erhaltung von Markdown-Formatierung
- Erhaltung von Tabellenstruktur
- Konsistenz bei Bildverweisen
Qualitätsunterschiede:
- Sprachkonsistenz – Qwen3 8B hatte Probleme mit der Mischung aus englisch-deutscher Sprache
- Natürlicher deutscher Sprachfluss – Qwen3 30B erzielte den natürlichsten deutschen Ausdruck
- Technische Präzision – Alle Modelle behandelten technische Begriffe gut
- Formatierungserhaltung – Alle erhielten die Hugo-Struktur perfekt
Bewertung nach Qualität:
- Qwen3 30B (9.0/10) – Bestes Gesamtergebnis
- Mistral Small 3.1 24B (8.7/10) – Sehr stark
- Devstral 24B (8.5/10) – Ausgezeichnet
- Qwen3 14B (8.2/10) – Gut
- Qwen3 8B (6.5/10) – Ausreichend mit Problemen
Die größeren Modelle (Qwen3 30B und Mistral Small 3.1 24B) produzierten die höchste Qualität der Übersetzungen, während das kleinere Qwen3 8B-Modell klare Einschränkungen in der Konsistenz zeigte.
Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go
Grundlegend ist es ein vorheriger Beitrag auf dieser Website: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
Basierend auf meiner detaillierten Analyse der deutschen Übersetzungen hier ist die vergleichende Bewertung:
Übersetzung Qualität Analyse (1-10 Skala)
Datei | Modell | Punktzahl | Schlüsselbewertung |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | Ausgezeichnet - Am konsistentesten und professionellsten |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Sehr gut - Natürlicher Sprachfluss mit geringfügigen Inkonsistenzen |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Gut - Solide mit einigen gemischten Elementen |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Geringfügig - Enthält unübersetzte englische Texte |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Schlecht - Mehrere Übersetzungsschwächen |
Detaillierte vergleichende Analyse:
🥇 DeVistral 24B (9/10) - Gewinner Stärken:
- Technische Präzision: Verwendet “ollama API-Fehler” (kleinbuchstaben, natürlicher)
- Konsistente Übersetzung: “handelt mit parallelen Anfragen” (sophistiziertes Formulieren)
- Professionelle Qualität: Vollständige deutsche Übersetzung über das ganze Dokument
- Formatierung: Perfekte Erhaltung der Markdown-Struktur
Geringfügige Probleme: Sehr wenige, hauptsächlich stilistische Präferenzen
🥈 Mistral Small 3.1 24B (8.5/10) Stärken:
- Natürlicher deutscher Sprachfluss
- Gute technische Terminologie: “Ollama-API-Fehler” (gepunktet, formeller Stil)
- Konsistente “verarbeitet parallele Anfragen”
Probleme:
- Leicht weniger sophistiziertes Formulieren in einigen technischen Kontexten
- Geringfügige Formatierungsvariationen
🥉 Qwen3 14B (7/10) Stärken:
- Allgemeine genaue Sinserhaltung
- Richtiges deutsches Grammatikstruktur
Probleme:
- Einige unbeholfene Konstruktionen
- Gemischte Qualität in der technischen Terminologie
- Enthält “```” am Anfang und Formatierungsprobleme
Qwen3 30B (6.5/10) Kritische Schwäche:
- Enthält unübersetzte englische Texte: “This little” erscheint direkt im deutschen Text
- Obwohl größeres Modell, zeigt Übersetzungsinkonsistenzen
- Technische Genauigkeit vorhanden, aber Auslieferung fehlerhaft
Qwen3 8B (5.5/10) Große Probleme:
- Unübersetzte Abschnitte: “This little” bleibt auf Englisch
- Inkonsistente Terminologie: Verwendet “RANGORDNUNG” vs. Standard “RANGIERUNG”
- Schlechter Fluss: Weniger natürliche deutsche Konstruktionen
- Zeigt klare Einschränkungen der kleineren Modellgröße
Gefundene Schlüsselunterschiede:
-
API-Fehler-Übersetzung:
- DeVistral:
ollama API-Fehler
(natürlich, kleinbuchstaben) - Andere:
Ollama-API-Fehler
(formell, mit Bindestrich)
- DeVistral:
-
Parallele Anfragen:
- DeVistral: “handelt mit parallelen Anfragen” (sophistiziert)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (Standard)
- Qwen3-8B: “behandelt parallele Anfragen” (weniger präzise)
-
Abschnitte Überschriften:
- Meisten: “RANGIERUNG NACH ÄHNLICHKEIT” (Standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (unbeholfen)
-
Englische Kontamination:
- Qwen3-30B & Qwen3-8B: “This little” bleibt unübersetzt
- Andere: Ordentlich ins Deutsche übersetzt zu “Dieses kleine”
Gewinner: DeVistral 24B – Zeigt die konsistenteste professionelle deutsche Übersetzung mit sophistizierter technischer Terminologie und vollständiger Sprachumwandlung.
Hehe DeVistral :). Aber das ist ein Fehler eines anderen LLMs.
Nützliche Links
- Reranking text documents with Ollama and Qwen3 Embedding model - in Go
- Ollama cheatsheet
- Qwen3 Embedding & Reranker Models on Ollama: State-of-the-Art Performance
- Install and Configure Ollama models location
- How Ollama Handles Parallel Requests
- LLMs comparison: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 and Phi - On Ollama
- Test: How Ollama is using Intel CPU Performance and Efficient Cores
- Comparing LLM Summarising Abilities