Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

qwen3 8b, 14b und 30b, devstral 24b, mistral small 24b

Inhaltsverzeichnis

In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten von Englisch ins Deutsche übersetzen: Vergleich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo-Seiten übersetzen. Drei Seiten, die ich getestet habe, befassen sich mit unterschiedlichen Themen und enthalten einige schöne Markdown-Elemente mit Struktur: Überschriften, Listen, Tabellen, Links usw.

Alle diese Modelle wurden auf einer NVidia-GPU mit 16 GB VRAM ausgeführt. Einige von ihnen passten vollständig in die VRAM, andere (24b und 30b) nicht und wurden auf den CPU ausgelagert.

Trotzdem habe ich auch diese getestet.

zwei Seiten - Übersetzung im Gange

Die Ollama-Modelle, die ich getestet habe:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Nachdem ich Übersetzungsaufträge auf all diese Modelle laufen ließ, fragte ich ein intelligentes Anthropic-Modell, um die Qualität der Übersetzungen zu analysieren, zu vergleichen und Metriken für jedes Modell bereitzustellen.

Ich habe auch magistral:24b ausprobiert, aber es war thinking zu viel, also war es langsam und verbrauchte alle Kontexte. Also – nicht für meine GPU.

Die einfache Schlussfolgerung: TL;DR

Das beste Modell ist Mistral Small 3.1 24b. Es passt nicht in 16 GB VRAM, also war es auf meiner Hardware etwas langsam.

Die nächsten beiden besten: Qwen 3 14b und Qwen 3 30b. 14b passt gut, aber 30b ist ein MoE-Modell, also ziemlich schnell. Auf meiner Hardware war ihre Geschwindigkeit ähnlich.

Test 1: Philosophisches Thema

Das Markdown der Hugo-basierten Website-Seite zu einem faszinierenden philosophischen Thema – Beschreibung und Beispiele für den Ad Baculum logischen Fehlschluss.

index.de.devstral-24b.md - Bewertung: 7/10 Stärken:

  • Gute Übersetzung technischer Begriffe (“argumentum ad baculum Fehlschluss”)
  • Erhaltung der richtigen Linkformatierung und Struktur
  • Genauere Übersetzung komplexer philosophischer Konzepte
  • Richtiges deutsches Grammatik und Syntax

Schwächen:

  • “verunstaltet” für “tainted” ist etwas unbeholfen; “getrübt” wäre natürlicher
  • Einige Phrasen wirken leicht steif oder zu wörtlich
  • Kleine Flussprobleme in bestimmten Sätzen

index.de.mistral-small3.1-24b.md - Bewertung: 8.5/10 Stärken:

  • Sehr natürlicher deutscher Sprachfluss
  • Ausgezeichnete Übersetzung technischer Begriffe
  • Gute Erhaltung des ursprünglichen Sinnes und Tons
  • Richtiges Grammatik und Satzstruktur
  • Verwendung von “getrübt” für “tainted”, was natürlicher ist

Schwächen:

  • Sehr geringfügige Inkonsistenzen in der Terminologie
  • Gelegentliche leichte Abweichungen von der Struktur der Quelle

index.de.qwen3-8b.md - Bewertung: 6.5/10 Stärken:

  • Genauere Übersetzung der Hauptkonzepte
  • Technische Begriffe richtig behandelt
  • Erhaltung der Artikelstruktur

Schwächen:

  • Einige unbeholfene Formulierungen (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Weniger natürlicher deutscher Sprachfluss in mehreren Passagen
  • Einige grammatikalische Konstruktionen wirken gezwungen
  • Fehlendes Wort in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (Grammatikfehler)

index.de.qwen3-14b.md - Bewertung: 8/10 Stärken:

  • Natürlicher deutscher Sprachfluss
  • Ausgezeichnete Behandlung technischer Terminologie
  • Gute Erhaltung des ursprünglichen Sinnes
  • Richtiges Grammatik und Syntax
  • Konsistenter Stil über das ganze Dokument

Schwächen:

  • Geringfügige Variationen in der Terminologie-Konsistenz
  • Einige Sätze könnten prägnanter formuliert werden

index.de.qwen3-30b-a3b.md - Bewertung: 7.5/10 Stärken:

  • Gute Gesamtübersetzung Qualität
  • Natürliche deutsche Ausdrucksweise
  • Technische Begriffe gut übersetzt
  • Erhaltung der Lesbarkeit und Flüssigkeit
  • Gute Erhaltung des Sinnes

Schwächen:

  • Einige geringfügige Inkonsistenzen in der Wortwahl
  • Gelegentliche leicht unbeholfene Formulierungen
  • Fehlendes Artikel in der letzten Passage “über das [Terrain der] Argumentation”

Zusammenfassende Bewertungen

Datei Übersetzung Qualität Bewertung
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Beste Übersetzung: index.de.mistral-small3.1-24b.md - Natürlicher deutscher Sprachfluss mit hervorragender technischer Genauigkeit

Bereiche zur Verbesserung: Die Qwen3-8b-Version benötigt grammatische Korrekturen und natürlichere Formulierungen, während andere hauptsächlich geringfügige Verbesserungen in der Wortwahl und Konsistenz benötigen.

Test 2: Übersetzung der Seite über Qwen3 Embedding & Reranker Modelle auf Ollama.

Basierend auf meiner Analyse der deutschen Übersetzungen im Vergleich zum ursprünglichen englischen Text sind hier die Qualitätseinschätzungen auf einer Skala von 1 bis 10:

Datei LLM-Modell Übersetzung Qualität Bewertung Kommentare
index.de.devstral-24b.md Devstral 24B 8.5/10 Ausgezeichnete Gesamtübersetzung mit natürlichem deutschem Sprachfluss, richtiger technischer Terminologie und vollständiger Erhaltung von Hugo-Shortcodes. Geringfügige Abzüge für einige leicht unbeholfene Formulierungen.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Sehr hohe Qualität der Übersetzung mit konsistenter Terminologie, natürlichem deutschem Sprachfluss und perfekter Formatierungserhaltung. Leicht besserer Fluss als Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Gemischte Qualität – enthält Mischung aus englisch-deutscher Sprache im Einleitungsteil (“The [Qwen3 Embedding and Reranker models]” anstelle von vollständigem Deutsch). Der Rest ist gut übersetzt, aber inkonsistent.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Gute deutsche Übersetzung mit richtiger technischer Terminologie und natürlichem Fluss. Gut strukturiert und konsistent über das ganze Dokument.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Ausgezeichnete Übersetzung Qualität mit sehr natürlichem deutschem Sprachfluss, perfekter technischer Terminologie-Konsistenz und hervorragender Lesbarkeit. Beste Gesamtübersetzung.

Hauptbewertungskriterien:

Beobachtete Stärken in den Übersetzungen:

  • Erhaltung von Hugo-Shortcodes ({ {< ref >}} Syntax)
  • Genauigkeit technischer Terminologie
  • Erhaltung von Markdown-Formatierung
  • Erhaltung von Tabellenstruktur
  • Konsistenz bei Bildverweisen

Qualitätsunterschiede:

  1. Sprachkonsistenz – Qwen3 8B hatte Probleme mit der Mischung aus englisch-deutscher Sprache
  2. Natürlicher deutscher Sprachfluss – Qwen3 30B erzielte den natürlichsten deutschen Ausdruck
  3. Technische Präzision – Alle Modelle behandelten technische Begriffe gut
  4. Formatierungserhaltung – Alle erhielten die Hugo-Struktur perfekt

Bewertung nach Qualität:

  1. Qwen3 30B (9.0/10) – Bestes Gesamtergebnis
  2. Mistral Small 3.1 24B (8.7/10) – Sehr stark
  3. Devstral 24B (8.5/10) – Ausgezeichnet
  4. Qwen3 14B (8.2/10) – Gut
  5. Qwen3 8B (6.5/10) – Ausreichend mit Problemen

Die größeren Modelle (Qwen3 30B und Mistral Small 3.1 24B) produzierten die höchste Qualität der Übersetzungen, während das kleinere Qwen3 8B-Modell klare Einschränkungen in der Konsistenz zeigte.

Test 3: Reranking mit Ollama und Qwen3 Embedding-Modell – in Go

Grundlegend ist es ein vorheriger Beitrag auf dieser Website: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Basierend auf meiner detaillierten Analyse der deutschen Übersetzungen hier ist die vergleichende Bewertung:

Übersetzung Qualität Analyse (1-10 Skala)

Datei Modell Punktzahl Schlüsselbewertung
index.de.devstral-24b.md DeVistral 24B 9/10 Ausgezeichnet - Am konsistentesten und professionellsten
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Sehr gut - Natürlicher Sprachfluss mit geringfügigen Inkonsistenzen
index.de.qwen3-14b.md Qwen3 14B 7/10 Gut - Solide mit einigen gemischten Elementen
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Geringfügig - Enthält unübersetzte englische Texte
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Schlecht - Mehrere Übersetzungsschwächen

Detaillierte vergleichende Analyse:

🥇 DeVistral 24B (9/10) - Gewinner Stärken:

  • Technische Präzision: Verwendet “ollama API-Fehler” (kleinbuchstaben, natürlicher)
  • Konsistente Übersetzung: “handelt mit parallelen Anfragen” (sophistiziertes Formulieren)
  • Professionelle Qualität: Vollständige deutsche Übersetzung über das ganze Dokument
  • Formatierung: Perfekte Erhaltung der Markdown-Struktur

Geringfügige Probleme: Sehr wenige, hauptsächlich stilistische Präferenzen

🥈 Mistral Small 3.1 24B (8.5/10) Stärken:

  • Natürlicher deutscher Sprachfluss
  • Gute technische Terminologie: “Ollama-API-Fehler” (gepunktet, formeller Stil)
  • Konsistente “verarbeitet parallele Anfragen”

Probleme:

  • Leicht weniger sophistiziertes Formulieren in einigen technischen Kontexten
  • Geringfügige Formatierungsvariationen

🥉 Qwen3 14B (7/10) Stärken:

  • Allgemeine genaue Sinserhaltung
  • Richtiges deutsches Grammatikstruktur

Probleme:

  • Einige unbeholfene Konstruktionen
  • Gemischte Qualität in der technischen Terminologie
  • Enthält “```” am Anfang und Formatierungsprobleme

Qwen3 30B (6.5/10) Kritische Schwäche:

  • Enthält unübersetzte englische Texte: “This little” erscheint direkt im deutschen Text
  • Obwohl größeres Modell, zeigt Übersetzungsinkonsistenzen
  • Technische Genauigkeit vorhanden, aber Auslieferung fehlerhaft

Qwen3 8B (5.5/10) Große Probleme:

  • Unübersetzte Abschnitte: “This little” bleibt auf Englisch
  • Inkonsistente Terminologie: Verwendet “RANGORDNUNG” vs. Standard “RANGIERUNG”
  • Schlechter Fluss: Weniger natürliche deutsche Konstruktionen
  • Zeigt klare Einschränkungen der kleineren Modellgröße

Gefundene Schlüsselunterschiede:

  1. API-Fehler-Übersetzung:

    • DeVistral: ollama API-Fehler (natürlich, kleinbuchstaben)
    • Andere: Ollama-API-Fehler (formell, mit Bindestrich)
  2. Parallele Anfragen:

    • DeVistral: “handelt mit parallelen Anfragen” (sophistiziert)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (Standard)
    • Qwen3-8B: “behandelt parallele Anfragen” (weniger präzise)
  3. Abschnitte Überschriften:

    • Meisten: “RANGIERUNG NACH ÄHNLICHKEIT” (Standard)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (unbeholfen)
  4. Englische Kontamination:

    • Qwen3-30B & Qwen3-8B: “This little” bleibt unübersetzt
    • Andere: Ordentlich ins Deutsche übersetzt zu “Dieses kleine”

Gewinner: DeVistral 24B – Zeigt die konsistenteste professionelle deutsche Übersetzung mit sophistizierter technischer Terminologie und vollständiger Sprachumwandlung.


Hehe DeVistral :). Aber das ist ein Fehler eines anderen LLMs.