Jämförelse av Hugo-sidöversättningskvalitet - LLMs på Ollama
qwen3 8b, 14b och 30b, devstral 24b, mistral small 24b
I den här testen jämför jag hur olika LLMs som är värdade på Ollama översätter Hugo-sidor från engelska till tyska. Tre sidor som jag testade handlade om olika ämnen och hade trevlig markdown med struktur: rubriker, listor, tabeller, länkar etc.
Alla dessa modeller kördes på en NVidia GPU med 16GB VRAM. Vissa av dem passade helt i VRAM, medan andra (24b och 30b) inte gjorde det och använde CPU.
Trots detta testade jag dem ändå.

De Ollama-modeller jag testade:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Efter att ha kört översättningspromptar på alla dessa modeller bad jag den intelligenta Anthropic-modellen att analysera kvaliteten på översättningarna, jämföra och ge mätvärden för varje modell.
Jag har också testat magistral:24b men den “tänkte” för mycket, var långsam och åt upp hela kontexten. Så - inte för min GPU.
Den enkla slutsatsen: TL;DR
Den bästa är Mistral Small 3.1 24b. Den passar inte i 16GB VRAM, så den var lite långsam på min hårdvara.
De två näst bästa: Qwen 3 14b och Qwen 3 30b. 14b passar bra, men 30b är en MoE-modell, så den är ganska snabb också. På min hårdvara var deras hastighet liknande.
Test 1: Filosoftiskt ämne
Markdownen på den Hugo-baserade webbsidan om ett fantastiskt filosofiskt ämne - beskrivning och exempel på Ad Baculum Logical Fallacy.
index.de.devstral-24b.md - Betyg: 7/10 Styrkor:
- Bra översättning av tekniska termer (“argumentum ad baculum Fehlschluss”)
- Bevarar rätt länkformatering och struktur
- Noggrann översättning av komplexa filosofiska begrepp
- Rätt tyskt grammatik och syntax
Svagheter:
- “verunstaltet” för “tainted” är något klumpigt; “getrübt” skulle vara mer naturligt
- Vissa meningar känns lite stela eller för bokstavliga
- Små flödesproblem i vissa meningar
index.de.mistral-small3.1-24b.md - Betyg: 8.5/10 Styrkor:
- Mycket naturligt tyskt språkflöde
- Utmärkt översättning av tekniska termer
- Bra bevarande av originalbetydelse och ton
- Rätt grammatik och meningsstruktur
- Använder “getrübt” för “tainted” vilket är mer naturligt
Svagheter:
- Mycket små inkonsekvenser i terminologi
- Ibland något avvikande från originalstrukturen
index.de.qwen3-8b.md - Betyg: 6.5/10 Styrkor:
- Noggrann översättning av huvudbegrepp
- Tekniska termer hanteras korrekt
- Bevarar artikelstrukturen
Svagheter:
- Vissa klumpiga formuleringar (“kann sich auch in alltäglichen Interaktionen breiten”)
- Mindre naturligt tyskt flöde i flera avsnitt
- Vissa grammatiska konstruktioner känns påtvingade
- Saknad ord i “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (grammatiskt fel)
index.de.qwen3-14b.md - Betyg: 8/10 Styrkor:
- Naturligt tyskt språkflöde
- Utmärkt hantering av teknisk terminologi
- Bra bevarande av originalbetydelse
- Rätt grammatik och syntax
- Konsistent stil genom hela texten
Svagheter:
- Små variationer i terminologisk konsekvens
- Vissa meningar kunde vara mer koncisa
index.de.qwen3-30b-a3b.md - Betyg: 7.5/10 Styrkor:
- Bra översättningskvalitet överlag
- Naturliga tyska uttryck
- Tekniska termer väl översatta
- Bevarar läsbarhet och flöde
- Bra bevarande av betydelse
Svagheter:
- Vissa mindre inkonsekvenser i ordval
- Ibland något klumpiga formuleringar
- Saknad artikel i sista stycket “über das [Terrain der] Argumentation”
Sammanfattande rankning
| Fil | Översättningskvalitetsbetyg |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
Bästa översättning: index.de.mistral-small3.1-24b.md - Mest naturligt tyskt flöde med utmärkt teknisk noggrannhet
Områden för förbättring: Qwen3-8b-versionen behöver grammatiska korrigeringar och mer naturliga formuleringar, medan andra främst behöver mindre förfiningar i ordval och konsekvens.
Test 2: Översättning av sidan om Qwen3 Embedding & Reranker-modeller på Ollama.
Baserat på min analys av de tyska översättningarna jämfört med originaltexten på engelska, här är kvalitetsbetygen på en skala från 1-10:
| Fil | LLM-modell | Översättningskvalitetsbetyg | Kommentarer |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Utmärkt översättning överlag med naturligt tyskt flöde, rätt teknisk terminologi och fullständig bevarande av Hugo-kortkommandon. Mindre avdrag för något klumpiga formuleringar. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Mycket hög kvalitet på översättningen med konsekvent terminologi, naturligt tyskt språk och perfekt formateringsbevarande. Lite bättre flöde än Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Blandad kvalitet - innehåller blandning av engelska och tyska i inledande stycke (“The [Qwen3 Embedding and Reranker models]” istället för helt tyskt). Resten är väl översatt men inkonsekvent. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Bra tysk översättning med rätt teknisk terminologi och naturligt flöde. Välstrukturerad och konsekvent genom hela texten. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Utmärkt översättningskvalitet med mycket naturligt tyskt språk, perfekt teknisk terminologikonsistens och utmärkt läsbarhet. Bäst översättning överlag. |
Nyckelbedömningskriterier:
Styrkor observerade över översättningarna:
- Bevarande av Hugo-kortkommandon (
{ {< ref >}}syntax) - Noggrannhet i teknisk terminologi
- Bevarande av markdown-formatering
- Bevarande av tabellstruktur
- Konsistens i bildreferenser
Kvalitetsdifferentiatorer:
- Språkkonsekvens - Qwen3 8B hade problem med blandning av engelska och tyska
- Naturligt tyskt flöde - Qwen3 30B uppnådde det mest naturliga tyska uttrycket
- Teknisk precision - Alla modeller hanterade tekniska termer väl
- Formateringsbevarande - Alla bevarade Hugo-strukturen perfekt
Ranking efter kvalitet:
- Qwen3 30B (9.0/10) - Bäst överlag
- Mistral Small 3.1 24B (8.7/10) - Mycket stark
- Devstral 24B (8.5/10) - Utmärkt
- Qwen3 14B (8.2/10) - Bra
- Qwen3 8B (6.5/10) - Tillräcklig med problem
De större modellerna (Qwen3 30B och Mistral Small 3.1 24B) producerade de högsta kvalitetsöversättningarna, medan den mindre Qwen3 8B-modellen visade klara begränsningar i konsekvens.
Test 3: Reranking med Ollama och Qwen3 Embedding-modell - i Go
Det är egentligen en tidigare inlägg på den här webbplatsen: Reranking textdokument med Ollama och Qwen3 Embedding-modell - i Go.
Baserat på min detaljerade analys av de tyska översättningarna, här är den jämförande bedömningen:
Översättningskvalitetsanalys (1-10 skala)
| Fil | Modell | Poäng | Nyckelbedömning |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Utmärkt - Mest konsekvent och professionell |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Mycket bra - Naturlig men små inkonsekvenser |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Bra - Solid med några blandade element |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Acceptabel - Innehåller oöversatt engelska |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Dålig - Flera översättningsfel |
Detaljerad jämförande analys:
🥇 DeVistral 24B (9/10) - Vinnare Styrkor:
- Teknisk precision: Använder “ollama API-Fehler” (liten bokstav, mer naturligt)
- Konsistent översättning: “handelt mit parallelen Anfragen” (sophistikerad formulering)
- Professionell kvalitet: Fullständig översättning till tyska
- Formatering: Perfekt bevarande av markdown-struktur
Små problem: Mycket få, främst stilpreferenser
🥈 Mistral Small 3.1 24B (8.5/10) Styrkor:
- Naturligt tyskt flöde
- Bra teknisk terminologi: “Ollama-API-Fehler” (bindestreck, formell stil)
- Konsistent “verarbeitet parallele Anfragen”
Problem:
- Lite mindre sofistikerad formulering i vissa tekniska sammanhang
- Små formateringsvariationer
🥉 Qwen3 14B (7/10) Styrkor:
- Allmänt noggrann bevarande av betydelse
- Rätt tysk grammatikstruktur
Problem:
- Vissa klumpiga konstruktioner
- Blandad kvalitet i teknisk terminologi
- Innehåller “```” i början och formateringsproblem
Qwen3 30B (6.5/10) Kritisk brist:
- Innehåller oöversatt engelska: “This little” dyker upp direkt i tysk text
- Trots större modellstorlek visar översättningsinkonsekvenser
- Teknisk noggrannhet finns men leveransen är bristfällig
Qwen3 8B (5.5/10) Stora problem:
- Oöversatta avsnitt: “This little” lämnas på engelska
- Inkonsekvent terminologi: Använder “RANGORDNUNG” istället för standard “RANGIERUNG”
- Dåligt flöde: Mindre naturliga tyska konstruktioner
- Visar tydliga begränsningar av mindre modellstorlek
Nyckeldifferentiatorer som hittades:
-
API-fel översättning:
- DeVistral:
ollama API-Fehler(naturligt, liten bokstav) - Andra:
Ollama-API-Fehler(formellt, bindestreck)
- DeVistral:
-
Parallella förfrågningar:
- DeVistral: “handelt mit parallelen Anfragen” (sophistikerat)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (mindre precist)
-
Avsnittsrubriker:
- De flesta: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (klumpigt)
-
Engelsk kontaminering:
- Qwen3-30B & Qwen3-8B: Lämnar “This little” oöversatt
- Andra: Översätter korrekt till “Dieses kleine”
Vinnare: DeVistral 24B - Visar den mest konsekventa professionella nivån på tysk översättning med sofistikerad teknisk terminologi och fullständig språkkonvertering.
Haha DeVistral :) Men det är ett annat LLMs fel.
Användbara länkar
- Reranking textdokument med Ollama och Qwen3 Embedding-modell - i Go
- Ollama snabbguide
- Qwen3 Embedding & Reranker-modeller på Ollama: State-of-the-Art-prestanda
- Installera och konfigurera Ollama-modellers placering
- LLM-jämförelse: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 och Phi - På Ollama
- Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
- Jämförelse av LLM:s sammanfattningsförmåga