Vergelijking van de kwaliteit van Hugo-paginatranslatie - LLMs op Ollama
qwen3 8b, 14b en 30b, devstral 24b, mistral small 24b
In deze test ben ik aan het vergelijken hoe verschillende LLMs die op Ollama zijn gehost Hugo-pagina’s vertalen van Engels naar Duits. Drie pagina’s die ik heb getest, waren over verschillende onderwerpen, hadden wat mooie markdown met enige structuur: koppen, lijsten, tabellen, links, enzovoort.
Allemaal deze modellen zijn gelopen op NVidia GPU met 16GB VRAM, enkele van hen pasten volledig in de VRAM, enkele (24b en 30b) niet en verspreidden zich naar de CPU.
Toch heb ik die ook getest.
De Ollama-modellen die ik heb getest:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Na het uitvoeren van vertaalprompts op al die modellen heb ik een slimme Anthropic-model gevraagd om de kwaliteit van de vertalingen te analyseren, te vergelijken en metingen te geven voor elk model.
Ik heb ook magistral:24b geprobeerd, maar het was denkend
te veel, dus was traag en at alle context op.
Dus - niet geschikt voor mijn GPU.
De eenvoudige conclusie: TL;DR
De beste is Mistral Small 3.1 24b. Het past niet in 16GB VRAM, dus was iets traag op mijn hardware.
De twee beste daarna: Qwen 3 14b en Qwen 3 30b. 14b past mooi, maar 30b is een MoE-model, dus vrij snel ook. Op mijn hardware was hun snelheid vergelijkbaar.
Test 1: Filosofisch onderwerp
De markdown van de Hugo-gebaseerde websitepagina over een geweldige filosofische onderwerp - Beschrijving en voorbeelden van de Ad Baculum Logische Fout.
index.de.devstral-24b.md - Cijfer: 7/10 Sterktes:
- Goede vertaling van technische termen (“argumentum ad baculum Fehlschluss”)
- Behoudt juiste linkformatering en structuur
- Accurate vertaling van complexe filosofische concepten
- Juiste Duitse grammatica en syntax
Zwaktes:
- “verunstaltet” voor “tainted” is wat onnatuurlijk; “getrübt” zou natuurlijker zijn
- Sommige zinnen voelen iets stijf of te letterlijk
- Kleine stroomproblemen in bepaalde zinnen
index.de.mistral-small3.1-24b.md - Cijfer: 8.5/10 Sterktes:
- Zeer natuurlijke Duitse taalstroom
- Uitstekende vertaling van technische termen
- Goed behoud van oorspronkelijke betekenis en toon
- Juiste grammatica en zinsstructuur
- Gebruikt “getrübt” voor “tainted” wat natuurlijker is
Zwaktes:
- Zeer kleine onconsistenties in terminologie
- Af en toe lichte afwijkingen van de bronstructuur
index.de.qwen3-8b.md - Cijfer: 6.5/10 Sterktes:
- Accurate vertaling van hoofdconcepten
- Technische termen goed verwerkt
- Behoudt artikelstructuur
Zwaktes:
- Sommige onnatuurlijke formuleringen (“kann sich auch in alltäglichen Interaktionen breiten”)
- Minder natuurlijke Duitse stroom in verschillende passages
- Sommige grammaticale constructies voelen gedwongen
- Ontbrekend woord in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (grammaticafout)
index.de.qwen3-14b.md - Cijfer: 8/10 Sterktes:
- Natuurlijke Duitse taalstroom
- Uitstekende verwerking van technische terminologie
- Goed behoud van oorspronkelijke betekenis
- Juiste grammatica en syntax
- Consistente stijl doorheen
Zwaktes:
- Kleine variaties in terminologische consistentie
- Sommige zinnen konden korter zijn
index.de.qwen3-30b-a3b.md - Cijfer: 7.5/10 Sterktes:
- Goede overzichtelijke vertaalkwaliteit
- Natuurlijke Duitse uitdrukking
- Technische termen goed vertaald
- Behoudt leesbaarheid en stroom
- Goed behoud van betekenis
Zwaktes:
- Enkele kleine onconsistenties in woordkeuze
- Af en toe iets onnatuurlijke formuleringen
- Ontbrekend artikel in laatste paragraaf “über das [Terrain der] Argumentation”
Samenvatting van rangschikkingen
Bestand | Vertaalkwaliteitscijfer |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
Beste vertaling: index.de.mistral-small3.1-24b.md
- Meest natuurlijke Duitse stroom met uitstekende technische nauwkeurigheid
Voorstellen voor verbetering: De Qwen3-8b-versie heeft grammaticale correcties en meer natuurlijke formuleringen nodig, terwijl de anderen vooral kleine verbeteringen in woordkeuze en consistentie nodig hebben.
Test 2: Vertaling van de pagina over Qwen3 Embedding & Reranker Modellen op Ollama.
Op basis van mijn analyse van de Duitse vertalingen vergeleken met het originele Engelse tekst, zijn hier de kwaliteitscijfers op een schaal van 1-10:
Bestand | LLM Model | Vertaalkwaliteitscijfer | Opmerkingen |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Uitstekende overzichtelijke vertaling met natuurlijke Duitse stroom, juiste technische terminologie en volledige behoud van Hugo shortcode. Kleine aftrekken voor enkele iets onnatuurlijke formuleringen. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Zeer hoge kwaliteit vertaling met consistente terminologie, natuurlijke Duitse taal en perfecte behoud van opmaak. Slight betere stroom dan Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Gemengde kwaliteit - bevat Engels-Duits taalmix in openingsparagraaf (“The [Qwen3 Embedding and Reranker models]” in plaats van volledig Duits). De rest is goed vertaald maar onconsistent. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Goede Duitse vertaling met juiste technische terminologie en natuurlijke stroom. Goed opgebouwd en consistent doorheen. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Uitstekende vertaalkwaliteit met zeer natuurlijke Duitse taal, perfecte technische terminologische consistentie en uitstekende leesbaarheid. Beste overzichtelijke vertaling. |
Belangrijke beoordelingscriteria:
Sterktes die over de vertalingen zijn waargenomen:
- Behoud van Hugo shortcode (
{ {< ref >}}
syntaxis) - Technische terminologische nauwkeurigheid
- Behoud van markdown opmaak
- Behoud van tabelstructuur
- Consistentie in afbeeldingsverwijzingen
Kwaliteitsverschillen:
- Taalconsistentie - Qwen3 8B had problemen met Engels-Duits taalmix
- Natuurlijke Duitse stroom - Qwen3 30B bereikte de meest natuurlijke Duitse uitdrukking
- Technische precisie - Alle modellen verwerkte technische termen goed
- Opmaakbehoud - Alle behielden de Hugostructuur perfect
Rangschikking op kwaliteit:
- Qwen3 30B (9.0/10) - Beste overzichtelijk
- Mistral Small 3.1 24B (8.7/10) - Zeer sterk
- Devstral 24B (8.5/10) - Uitstekend
- Qwen3 14B (8.2/10) - Goed
- Qwen3 8B (6.5/10) - Voldoende met problemen
De grotere modellen (Qwen3 30B en Mistral Small 3.1 24B) produceerden de hoogste kwaliteit vertalingen, terwijl de kleinere Qwen3 8B-model duidelijke beperkingen in consistentie toonde.
Test 3: Reranking met Ollama en Qwen3 Embedding model - in Go
Bijna is het een vorige post op deze website: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
Op basis van mijn gedetailleerde analyse van de Duitse vertalingen, hier is de comparatieve beoordeling:
Vertaalkwaliteitsanalyse (1-10 schaal)
Bestand | Model | Score | Sleutelbeoordeling |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | Uitstekend - Meest consistente en professionele |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Zeer goed - Natuurlijk maar kleine onconsistenties |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Goed - Vast met enkele gemengde elementen |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Voldoende - Bevat onvertaalde Engelse |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Slecht - Meerdere vertaalproblemen |
Gedetailleerde comparatieve analyse:
🥇 DeVistral 24B (9/10) - Winnaar Sterktes:
- Technische precisie: Gebruikt “ollama API-Fehler” (klein, meer natuurlijk)
- Consistente vertaling: “handelt mit parallelen Anfragen” (sophistische formulering)
- Professionele kwaliteit: Volledige Duitse vertaling doorheen
- Opmaak: Perfect behoud van markdownstructuur
Kleine problemen: Zeer weinig, voornamelijk stijlvoorkeuren
🥈 Mistral Small 3.1 24B (8.5/10) Sterktes:
- Natuurlijke Duitse stroom
- Goede technische terminologie: “Ollama-API-Fehler” (gehyphen, formeel stijl)
- Consistente “verarbeitet parallele Anfragen”
Problemen:
- Slight minder sophistische formuleringen in enkele technische contexten
- Kleine opmaakvariaties
🥉 Qwen3 14B (7/10) Sterktes:
- Algemene nauwkeurigheid in betekenisbehoud
- Juiste Duitse grammaticastructuur
Problemen:
- Enkele onnatuurlijke constructies
- Gemengde kwaliteit in technische terminologie
- Bevat “```” aan het begin en opmaakproblemen
Qwen3 30B (6.5/10) Kritische fout:
- Bevat onvertaalde Engelse: “This little” verschijnt direct in Duitse tekst
- Hoewel groter model, toont vertaalinconsistenties
- Technische nauwkeurigheid is aanwezig maar levering is defect
Qwen3 8B (5.5/10) Hoofdproblemen:
- Onvertaalde secties: “This little” blijft in Engels
- Inconsistente terminologie: Gebruikt “RANGORDNUNG” vs standaard “RANGIERUNG”
- Slechte stroom: Minder natuurlijke Duitse constructies
- Toont duidelijke beperkingen van kleinere modelgrootte
Belangrijke verschillen gevonden:
-
API-foutvertaling:
- DeVistral:
ollama API-Fehler
(natuurlijk, klein) - Andere:
Ollama-API-Fehler
(formeel, gehyphen)
- DeVistral:
-
Parallelle aanvragen:
- DeVistral: “handelt mit parallelen Anfragen” (sophistisch)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standaard)
- Qwen3-8B: “behandelt parallele Anfragen” (minder precies)
-
Sectiekoppen:
- Meeste: “RANGIERUNG NACH ÄHNLICHKEIT” (standaard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (onhandig)
-
Engelse verontreiniging:
- Qwen3-30B & Qwen3-8B: Laat “This little” onvertaald
- Andere: Juist vertalen naar “Dieses kleine”
Winnaar: DeVistral 24B - Toont de meest consistente professionele Duitse vertaling met sophistische technische terminologie en volledige taalconversie.
Hehe DeVistral :). Maar dat is een ander LLM’s fout.
Nuttige links
- Reranking text documents with Ollama and Qwen3 Embedding model - in Go
- Ollama cheatsheet
- Qwen3 Embedding & Reranker Models on Ollama: State-of-the-Art Performance
- Install and Configure Ollama models location
- How Ollama Handles Parallel Requests
- LLMs comparison: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 and Phi - On Ollama
- Test: How Ollama is using Intel CPU Performance and Efficient Cores
- Comparing LLM Summarising Abilities