Jämförelse av Hugo-sidöversättningskvalitet - LLMs på Ollama

qwen3 8b, 14b och 30b, devstral 24b, mistral small 24b

Sidinnehåll

I den här testen jämför jag hur olika LLMs som är värdade på Ollama översätter Hugo-sidor från engelska till tyska. Tre sidor som jag testade handlade om olika ämnen och hade trevlig markdown med struktur: rubriker, listor, tabeller, länkar etc.

Alla dessa modeller kördes på en NVidia GPU med 16GB VRAM. Vissa av dem passade helt i VRAM, medan andra (24b och 30b) inte gjorde det och använde CPU.

Trots detta testade jag dem ändå.

två sidor - översättning pågår

De Ollama-modeller jag testade:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Efter att ha kört översättningspromptar på alla dessa modeller bad jag den intelligenta Anthropic-modellen att analysera kvaliteten på översättningarna, jämföra och ge mätvärden för varje modell.

Jag har också testat magistral:24b men den “tänkte” för mycket, var långsam och åt upp hela kontexten. Så - inte för min GPU.

Den enkla slutsatsen: TL;DR

Den bästa är Mistral Small 3.1 24b. Den passar inte i 16GB VRAM, så den var lite långsam på min hårdvara.

De två näst bästa: Qwen 3 14b och Qwen 3 30b. 14b passar bra, men 30b är en MoE-modell, så den är ganska snabb också. På min hårdvara var deras hastighet liknande.

Test 1: Filosoftiskt ämne

Markdownen på den Hugo-baserade webbsidan om ett fantastiskt filosofiskt ämne - beskrivning och exempel på Ad Baculum Logical Fallacy.

index.de.devstral-24b.md - Betyg: 7/10 Styrkor:

  • Bra översättning av tekniska termer (“argumentum ad baculum Fehlschluss”)
  • Bevarar rätt länkformatering och struktur
  • Noggrann översättning av komplexa filosofiska begrepp
  • Rätt tyskt grammatik och syntax

Svagheter:

  • “verunstaltet” för “tainted” är något klumpigt; “getrübt” skulle vara mer naturligt
  • Vissa meningar känns lite stela eller för bokstavliga
  • Små flödesproblem i vissa meningar

index.de.mistral-small3.1-24b.md - Betyg: 8.5/10 Styrkor:

  • Mycket naturligt tyskt språkflöde
  • Utmärkt översättning av tekniska termer
  • Bra bevarande av originalbetydelse och ton
  • Rätt grammatik och meningsstruktur
  • Använder “getrübt” för “tainted” vilket är mer naturligt

Svagheter:

  • Mycket små inkonsekvenser i terminologi
  • Ibland något avvikande från originalstrukturen

index.de.qwen3-8b.md - Betyg: 6.5/10 Styrkor:

  • Noggrann översättning av huvudbegrepp
  • Tekniska termer hanteras korrekt
  • Bevarar artikelstrukturen

Svagheter:

  • Vissa klumpiga formuleringar (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Mindre naturligt tyskt flöde i flera avsnitt
  • Vissa grammatiska konstruktioner känns påtvingade
  • Saknad ord i “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (grammatiskt fel)

index.de.qwen3-14b.md - Betyg: 8/10 Styrkor:

  • Naturligt tyskt språkflöde
  • Utmärkt hantering av teknisk terminologi
  • Bra bevarande av originalbetydelse
  • Rätt grammatik och syntax
  • Konsistent stil genom hela texten

Svagheter:

  • Små variationer i terminologisk konsekvens
  • Vissa meningar kunde vara mer koncisa

index.de.qwen3-30b-a3b.md - Betyg: 7.5/10 Styrkor:

  • Bra översättningskvalitet överlag
  • Naturliga tyska uttryck
  • Tekniska termer väl översatta
  • Bevarar läsbarhet och flöde
  • Bra bevarande av betydelse

Svagheter:

  • Vissa mindre inkonsekvenser i ordval
  • Ibland något klumpiga formuleringar
  • Saknad artikel i sista stycket “über das [Terrain der] Argumentation”

Sammanfattande rankning

Fil Översättningskvalitetsbetyg
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Bästa översättning: index.de.mistral-small3.1-24b.md - Mest naturligt tyskt flöde med utmärkt teknisk noggrannhet

Områden för förbättring: Qwen3-8b-versionen behöver grammatiska korrigeringar och mer naturliga formuleringar, medan andra främst behöver mindre förfiningar i ordval och konsekvens.

Test 2: Översättning av sidan om Qwen3 Embedding & Reranker-modeller på Ollama.

Baserat på min analys av de tyska översättningarna jämfört med originaltexten på engelska, här är kvalitetsbetygen på en skala från 1-10:

Fil LLM-modell Översättningskvalitetsbetyg Kommentarer
index.de.devstral-24b.md Devstral 24B 8.5/10 Utmärkt översättning överlag med naturligt tyskt flöde, rätt teknisk terminologi och fullständig bevarande av Hugo-kortkommandon. Mindre avdrag för något klumpiga formuleringar.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Mycket hög kvalitet på översättningen med konsekvent terminologi, naturligt tyskt språk och perfekt formateringsbevarande. Lite bättre flöde än Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Blandad kvalitet - innehåller blandning av engelska och tyska i inledande stycke (“The [Qwen3 Embedding and Reranker models]” istället för helt tyskt). Resten är väl översatt men inkonsekvent.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Bra tysk översättning med rätt teknisk terminologi och naturligt flöde. Välstrukturerad och konsekvent genom hela texten.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Utmärkt översättningskvalitet med mycket naturligt tyskt språk, perfekt teknisk terminologikonsistens och utmärkt läsbarhet. Bäst översättning överlag.

Nyckelbedömningskriterier:

Styrkor observerade över översättningarna:

  • Bevarande av Hugo-kortkommandon ({ {< ref >}} syntax)
  • Noggrannhet i teknisk terminologi
  • Bevarande av markdown-formatering
  • Bevarande av tabellstruktur
  • Konsistens i bildreferenser

Kvalitetsdifferentiatorer:

  1. Språkkonsekvens - Qwen3 8B hade problem med blandning av engelska och tyska
  2. Naturligt tyskt flöde - Qwen3 30B uppnådde det mest naturliga tyska uttrycket
  3. Teknisk precision - Alla modeller hanterade tekniska termer väl
  4. Formateringsbevarande - Alla bevarade Hugo-strukturen perfekt

Ranking efter kvalitet:

  1. Qwen3 30B (9.0/10) - Bäst överlag
  2. Mistral Small 3.1 24B (8.7/10) - Mycket stark
  3. Devstral 24B (8.5/10) - Utmärkt
  4. Qwen3 14B (8.2/10) - Bra
  5. Qwen3 8B (6.5/10) - Tillräcklig med problem

De större modellerna (Qwen3 30B och Mistral Small 3.1 24B) producerade de högsta kvalitetsöversättningarna, medan den mindre Qwen3 8B-modellen visade klara begränsningar i konsekvens.

Test 3: Reranking med Ollama och Qwen3 Embedding-modell - i Go

Det är egentligen en tidigare inlägg på den här webbplatsen: Reranking textdokument med Ollama och Qwen3 Embedding-modell - i Go.

Baserat på min detaljerade analys av de tyska översättningarna, här är den jämförande bedömningen:

Översättningskvalitetsanalys (1-10 skala)

Fil Modell Poäng Nyckelbedömning
index.de.devstral-24b.md DeVistral 24B 9/10 Utmärkt - Mest konsekvent och professionell
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Mycket bra - Naturlig men små inkonsekvenser
index.de.qwen3-14b.md Qwen3 14B 7/10 Bra - Solid med några blandade element
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Acceptabel - Innehåller oöversatt engelska
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Dålig - Flera översättningsfel

Detaljerad jämförande analys:

🥇 DeVistral 24B (9/10) - Vinnare Styrkor:

  • Teknisk precision: Använder “ollama API-Fehler” (liten bokstav, mer naturligt)
  • Konsistent översättning: “handelt mit parallelen Anfragen” (sophistikerad formulering)
  • Professionell kvalitet: Fullständig översättning till tyska
  • Formatering: Perfekt bevarande av markdown-struktur

Små problem: Mycket få, främst stilpreferenser

🥈 Mistral Small 3.1 24B (8.5/10) Styrkor:

  • Naturligt tyskt flöde
  • Bra teknisk terminologi: “Ollama-API-Fehler” (bindestreck, formell stil)
  • Konsistent “verarbeitet parallele Anfragen”

Problem:

  • Lite mindre sofistikerad formulering i vissa tekniska sammanhang
  • Små formateringsvariationer

🥉 Qwen3 14B (7/10) Styrkor:

  • Allmänt noggrann bevarande av betydelse
  • Rätt tysk grammatikstruktur

Problem:

  • Vissa klumpiga konstruktioner
  • Blandad kvalitet i teknisk terminologi
  • Innehåller “```” i början och formateringsproblem

Qwen3 30B (6.5/10) Kritisk brist:

  • Innehåller oöversatt engelska: “This little” dyker upp direkt i tysk text
  • Trots större modellstorlek visar översättningsinkonsekvenser
  • Teknisk noggrannhet finns men leveransen är bristfällig

Qwen3 8B (5.5/10) Stora problem:

  • Oöversatta avsnitt: “This little” lämnas på engelska
  • Inkonsekvent terminologi: Använder “RANGORDNUNG” istället för standard “RANGIERUNG”
  • Dåligt flöde: Mindre naturliga tyska konstruktioner
  • Visar tydliga begränsningar av mindre modellstorlek

Nyckeldifferentiatorer som hittades:

  1. API-fel översättning:

    • DeVistral: ollama API-Fehler (naturligt, liten bokstav)
    • Andra: Ollama-API-Fehler (formellt, bindestreck)
  2. Parallella förfrågningar:

    • DeVistral: “handelt mit parallelen Anfragen” (sophistikerat)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
    • Qwen3-8B: “behandelt parallele Anfragen” (mindre precist)
  3. Avsnittsrubriker:

    • De flesta: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (klumpigt)
  4. Engelsk kontaminering:

    • Qwen3-30B & Qwen3-8B: Lämnar “This little” oöversatt
    • Andra: Översätter korrekt till “Dieses kleine”

Vinnare: DeVistral 24B - Visar den mest konsekventa professionella nivån på tysk översättning med sofistikerad teknisk terminologi och fullständig språkkonvertering.


Haha DeVistral :) Men det är ett annat LLMs fel.

Användbara länkar