Welk LLM is het beste voor tekstvertaling op OLLAMA?

De beste LLM voor tekstvertaling op OLLAMA is Mistral small 3.1 24b.

Vergelijking van de kwaliteit van Hugo-paginatranslatie - LLMs op Ollama

qwen3 8b, 14b en 30b, devstral 24b, mistral small 24b

Inhoud

In deze test ben ik aan het vergelijken hoe verschillende LLMs die op Ollama zijn gehost Hugo-pagina’s vertalen van Engels naar Duits. Drie pagina’s die ik heb getest, waren over verschillende onderwerpen, hadden wat mooie markdown met enige structuur: koppen, lijsten, tabellen, links, enzovoort.

Allemaal deze modellen zijn gelopen op NVidia GPU met 16GB VRAM, enkele van hen pasten volledig in de VRAM, enkele (24b en 30b) niet en verspreidden zich naar de CPU.

Toch heb ik die ook getest.

twee pagina’s - vertaling is in voortgang

De Ollama-modellen die ik heb getest:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Na het uitvoeren van vertaalprompts op al die modellen heb ik een slimme Anthropic-model gevraagd om de kwaliteit van de vertalingen te analyseren, te vergelijken en metingen te geven voor elk model.

Ik heb ook magistral:24b geprobeerd, maar het was denkend te veel, dus was traag en at alle context op. Dus - niet geschikt voor mijn GPU.

De eenvoudige conclusie: TL;DR

De beste is Mistral Small 3.1 24b. Het past niet in 16GB VRAM, dus was iets traag op mijn hardware.

De twee beste daarna: Qwen 3 14b en Qwen 3 30b. 14b past mooi, maar 30b is een MoE-model, dus vrij snel ook. Op mijn hardware was hun snelheid vergelijkbaar.

Test 1: Filosofisch onderwerp

De markdown van de Hugo-gebaseerde websitepagina over een geweldige filosofische onderwerp - Beschrijving en voorbeelden van de Ad Baculum Logische Fout.

index.de.devstral-24b.md - Cijfer: 7/10 Sterktes:

Goede vertaling van technische termen (“argumentum ad baculum Fehlschluss”)
Behoudt juiste linkformatering en structuur
Accurate vertaling van complexe filosofische concepten
Juiste Duitse grammatica en syntax

Zwaktes:

“verunstaltet” voor “tainted” is wat onnatuurlijk; “getrübt” zou natuurlijker zijn
Sommige zinnen voelen iets stijf of te letterlijk
Kleine stroomproblemen in bepaalde zinnen

index.de.mistral-small3.1-24b.md - Cijfer: 8.5/10 Sterktes:

Zeer natuurlijke Duitse taalstroom
Uitstekende vertaling van technische termen
Goed behoud van oorspronkelijke betekenis en toon
Juiste grammatica en zinsstructuur
Gebruikt “getrübt” voor “tainted” wat natuurlijker is

Zwaktes:

Zeer kleine onconsistenties in terminologie
Af en toe lichte afwijkingen van de bronstructuur

index.de.qwen3-8b.md - Cijfer: 6.5/10 Sterktes:

Accurate vertaling van hoofdconcepten
Technische termen goed verwerkt
Behoudt artikelstructuur

Zwaktes:

Sommige onnatuurlijke formuleringen (“kann sich auch in alltäglichen Interaktionen breiten”)
Minder natuurlijke Duitse stroom in verschillende passages
Sommige grammaticale constructies voelen gedwongen
Ontbrekend woord in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (grammaticafout)

index.de.qwen3-14b.md - Cijfer: 8/10 Sterktes:

Natuurlijke Duitse taalstroom
Uitstekende verwerking van technische terminologie
Goed behoud van oorspronkelijke betekenis
Juiste grammatica en syntax
Consistente stijl doorheen

Zwaktes:

Kleine variaties in terminologische consistentie
Sommige zinnen konden korter zijn

index.de.qwen3-30b-a3b.md - Cijfer: 7.5/10 Sterktes:

Goede overzichtelijke vertaalkwaliteit
Natuurlijke Duitse uitdrukking
Technische termen goed vertaald
Behoudt leesbaarheid en stroom
Goed behoud van betekenis

Zwaktes:

Enkele kleine onconsistenties in woordkeuze
Af en toe iets onnatuurlijke formuleringen
Ontbrekend artikel in laatste paragraaf “über das [Terrain der] Argumentation”

Samenvatting van rangschikkingen

Bestand	Vertaalkwaliteitscijfer
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Beste vertaling: index.de.mistral-small3.1-24b.md - Meest natuurlijke Duitse stroom met uitstekende technische nauwkeurigheid

Voorstellen voor verbetering: De Qwen3-8b-versie heeft grammaticale correcties en meer natuurlijke formuleringen nodig, terwijl de anderen vooral kleine verbeteringen in woordkeuze en consistentie nodig hebben.

Test 2: Vertaling van de pagina over Qwen3 Embedding & Reranker Modellen op Ollama.

Op basis van mijn analyse van de Duitse vertalingen vergeleken met het originele Engelse tekst, zijn hier de kwaliteitscijfers op een schaal van 1-10:

Bestand	LLM Model	Vertaalkwaliteitscijfer	Opmerkingen
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Uitstekende overzichtelijke vertaling met natuurlijke Duitse stroom, juiste technische terminologie en volledige behoud van Hugo shortcode. Kleine aftrekken voor enkele iets onnatuurlijke formuleringen.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Zeer hoge kwaliteit vertaling met consistente terminologie, natuurlijke Duitse taal en perfecte behoud van opmaak. Slight betere stroom dan Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Gemengde kwaliteit - bevat Engels-Duits taalmix in openingsparagraaf (“The [Qwen3 Embedding and Reranker models]” in plaats van volledig Duits). De rest is goed vertaald maar onconsistent.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Goede Duitse vertaling met juiste technische terminologie en natuurlijke stroom. Goed opgebouwd en consistent doorheen.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Uitstekende vertaalkwaliteit met zeer natuurlijke Duitse taal, perfecte technische terminologische consistentie en uitstekende leesbaarheid. Beste overzichtelijke vertaling.

Belangrijke beoordelingscriteria:

Sterktes die over de vertalingen zijn waargenomen:

Behoud van Hugo shortcode ({ {< ref >}} syntaxis)
Technische terminologische nauwkeurigheid
Behoud van markdown opmaak
Behoud van tabelstructuur
Consistentie in afbeeldingsverwijzingen

Kwaliteitsverschillen:

Taalconsistentie - Qwen3 8B had problemen met Engels-Duits taalmix
Natuurlijke Duitse stroom - Qwen3 30B bereikte de meest natuurlijke Duitse uitdrukking
Technische precisie - Alle modellen verwerkte technische termen goed
Opmaakbehoud - Alle behielden de Hugostructuur perfect

Rangschikking op kwaliteit:

Qwen3 30B (9.0/10) - Beste overzichtelijk
Mistral Small 3.1 24B (8.7/10) - Zeer sterk
Devstral 24B (8.5/10) - Uitstekend
Qwen3 14B (8.2/10) - Goed
Qwen3 8B (6.5/10) - Voldoende met problemen

De grotere modellen (Qwen3 30B en Mistral Small 3.1 24B) produceerden de hoogste kwaliteit vertalingen, terwijl de kleinere Qwen3 8B-model duidelijke beperkingen in consistentie toonde.

Test 3: Reranking met Ollama en Qwen3 Embedding model - in Go

Bijna is het een vorige post op deze website: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Op basis van mijn gedetailleerde analyse van de Duitse vertalingen, hier is de comparatieve beoordeling:

Vertaalkwaliteitsanalyse (1-10 schaal)

Bestand	Model	Score	Sleutelbeoordeling
index.de.devstral-24b.md	DeVistral 24B	9/10	Uitstekend - Meest consistente en professionele
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Zeer goed - Natuurlijk maar kleine onconsistenties
index.de.qwen3-14b.md	Qwen3 14B	7/10	Goed - Vast met enkele gemengde elementen
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Voldoende - Bevat onvertaalde Engelse
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Slecht - Meerdere vertaalproblemen

Gedetailleerde comparatieve analyse:

🥇 DeVistral 24B (9/10) - Winnaar Sterktes:

Technische precisie: Gebruikt “ollama API-Fehler” (klein, meer natuurlijk)
Consistente vertaling: “handelt mit parallelen Anfragen” (sophistische formulering)
Professionele kwaliteit: Volledige Duitse vertaling doorheen
Opmaak: Perfect behoud van markdownstructuur

Kleine problemen: Zeer weinig, voornamelijk stijlvoorkeuren

🥈 Mistral Small 3.1 24B (8.5/10) Sterktes:

Natuurlijke Duitse stroom
Goede technische terminologie: “Ollama-API-Fehler” (gehyphen, formeel stijl)
Consistente “verarbeitet parallele Anfragen”

Problemen:

Slight minder sophistische formuleringen in enkele technische contexten
Kleine opmaakvariaties

🥉 Qwen3 14B (7/10) Sterktes:

Algemene nauwkeurigheid in betekenisbehoud
Juiste Duitse grammaticastructuur

Problemen:

Enkele onnatuurlijke constructies
Gemengde kwaliteit in technische terminologie
Bevat “```” aan het begin en opmaakproblemen

Qwen3 30B (6.5/10) Kritische fout:

Bevat onvertaalde Engelse: “This little” verschijnt direct in Duitse tekst
Hoewel groter model, toont vertaalinconsistenties
Technische nauwkeurigheid is aanwezig maar levering is defect

Qwen3 8B (5.5/10) Hoofdproblemen:

Onvertaalde secties: “This little” blijft in Engels
Inconsistente terminologie: Gebruikt “RANGORDNUNG” vs standaard “RANGIERUNG”
Slechte stroom: Minder natuurlijke Duitse constructies
Toont duidelijke beperkingen van kleinere modelgrootte

Belangrijke verschillen gevonden:

API-foutvertaling:
- DeVistral: ollama API-Fehler (natuurlijk, klein)
- Andere: Ollama-API-Fehler (formeel, gehyphen)
Parallelle aanvragen:
- DeVistral: “handelt mit parallelen Anfragen” (sophistisch)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standaard)
- Qwen3-8B: “behandelt parallele Anfragen” (minder precies)
Sectiekoppen:
- Meeste: “RANGIERUNG NACH ÄHNLICHKEIT” (standaard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (onhandig)
Engelse verontreiniging:
- Qwen3-30B & Qwen3-8B: Laat “This little” onvertaald
- Andere: Juist vertalen naar “Dieses kleine”

Winnaar: DeVistral 24B - Toont de meest consistente professionele Duitse vertaling met sophistische technische terminologie en volledige taalconversie.

Hehe DeVistral :). Maar dat is een ander LLM’s fout.

De eenvoudige conclusie: TL;DR

Test 1: Filosofisch onderwerp

Test 2: Vertaling van de pagina over Qwen3 Embedding & Reranker Modellen op Ollama.

Test 3: Reranking met Ollama en Qwen3 Embedding model - in Go

Nuttige links