Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama

qwen3 8b, 14b i 30b, devstral 24b, mistral small 24b

Page content

W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z angielskiego na niemiecki: porównanie, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo. Trzy strony, które przetestowałem, dotyczyły różnych tematów, miały ładny markdown z pewną strukturą: nagłówki, listy, tabele, linki itp.

Wszystkie te modele działały na GPU NVidia z 16 GB VRAM, niektóre z nich całkowicie mieściły się w VRAM, inne (24b i 30b) nie i przechodziły na CPU.

Nie mimo tego, przetestowałem je również.

dwa strony - tłumaczenie w toku

Modele Ollama, które przetestowałem:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Po uruchomieniu promptów tłumaczeniowych na wszystkich tych modelach zapytałem inteligentny model Anthropic, aby przeanalizował jakość tłumaczeń, porównał je i podał metryki dla każdego modelu.

Również spróbowałem magistral:24b, ale był myślenie zbyt długo, więc był powolny i zużywał cały kontekst. Więc – nie dla mojej GPU.

Prosty wniosek: TL;DR

Najlepszy to Mistral Small 3.1 24b. Nie mieści się w 16 GB VRAM, więc był trochę wolniejszy na moim sprzęcie.

Następne dwa najlepsze: Qwen 3 14b i Qwen 3 30b. 14b dobrze mieści się, ale 30b to model MoE, więc także dość szybki. Na moim sprzęcie ich prędkość była podobna.

Test 1: Temat filozoficzny

Markdown strony opartej na Hugo dotyczącej pewnego wspaniałego tematu filozoficznego – opis i przykłady błędu logicznego Ad Baculum.

index.de.devstral-24b.md - Ocena: 7/10 Zalety:

  • Dobrze przetłumaczone terminy techniczne (“argumentum ad baculum Fehlschluss”)
  • Zachowana poprawna struktura i formatowanie linków
  • Dokładne tłumaczenie złożonych pojęć filozoficznych
  • Poprawna gramatyka i składnia niemiecka

Wady:

  • “verunstaltet” dla “tainted” jest trochę nieprzyjemne; “getrübt” byłoby bardziej naturalne
  • Niektóre frazy wydają się lekko sztywne lub zbyt dosłowne
  • Małe problemy z płynnością w niektórych zdaniach

index.de.mistral-small3.1-24b.md - Ocena: 8.5/10 Zalety:

  • Bardzo naturalny przepływ języka niemieckiego
  • Wspaniałe tłumaczenie terminów technicznych
  • Dobrze zachowana oryginalna znaczenie i ton
  • Poprawna gramatyka i struktura zdań
  • Używa “getrübt” dla “tainted”, co jest bardziej naturalne

Wady:

  • Bardzo drobne niezgodności w terminologii
  • Oczekiwane lekkie odchylenia od struktury źródła

index.de.qwen3-8b.md - Ocena: 6.5/10 Zalety:

  • Dokładne tłumaczenie głównych pojęć
  • Poprawne przetłumaczenie terminów technicznych
  • Zachowana struktura artykułu

Wady:

  • Niektóre nieprzyjemne formułowania (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Mniej naturalny przepływ języka niemieckiego w kilku pasażach
  • Niektóre konstrukcje gramatyczne wydają się naciągane
  • Brak słowa w “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (błąd gramatyczny)

index.de.qwen3-14b.md - Ocena: 8/10 Zalety:

  • Naturalny przepływ języka niemieckiego
  • Wspaniałe przetłumaczenie terminów technicznych
  • Dobrze zachowana oryginalna znaczenie
  • Poprawna gramatyka i składnia
  • Spójny styl przez cały artykuł

Wady:

  • Drobnego rodzaju zmiany w spójności terminologii
  • Niektóre zdania mogłyby być bardziej zwięzłe

index.de.qwen3-30b-a3b.md - Ocena: 7.5/10 Zalety:

  • Dobra ogólna jakość tłumaczenia
  • Naturalne wyrażenie w języku niemieckim
  • Dobrze przetłumaczone terminy techniczne
  • Zachowana czytelność i płynność
  • Dobrze zachowana znaczenie

Wady:

  • Niektóre drobne niezgodności w wyborze słów
  • Oczekiwane lekkie nieprzyjemne formułowania
  • Brak przedimka w ostatnim akapicie “über das [Terrain der] Argumentation”

Ranking jakości tłumaczeń

Plik Wartość oceny jakości tłumaczenia
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Najlepsze tłumaczenie: index.de.mistral-small3.1-24b.md - Najbardziej naturalny przepływ języka niemieckiego z wspaniałą techniczną dokładnością

Obszary do poprawy: Wersja Qwen3-8b wymaga korekty gramatycznej i bardziej naturalnych formułowań, podczas gdy inne wymagają drobnych poprawek w wyborze słów i spójności.

Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.

Na podstawie mojej analizy niemieckich tłumaczeń w porównaniu do oryginalnego tekstu angielskiego, oto oceny jakości na skali od 1 do 10:

Plik Model LLM Wartość oceny jakości tłumaczenia Komentarze
index.de.devstral-24b.md Devstral 24B 8.5/10 Wspaniała ogólna jakość tłumaczenia z naturalnym przepływem języka niemieckiego, poprawnymi terminami technicznymi i pełnym zachowaniem skrótu Hugo. Drobną utratę za niektóre lekko nieprzyjemne formułowania.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Bardzo wysoka jakość tłumaczenia z spójną terminologią, naturalnym językiem niemieckim i idealnym zachowaniem formatowania. Słusznie lepszy przepływ niż Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Zmieszana jakość - zawiera mieszankę języka angielskiego i niemieckiego w wstępnej sekcji (“The [Qwen3 Embedding and Reranker models]” zamiast pełnego niemieckiego). Reszta dobrze przetłumaczona, ale niezgodna.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Dobre tłumaczenie w języku niemieckim z poprawnymi terminami technicznymi i naturalnym przepływem. Dobrze strukturyzowane i spójne przez cały artykuł.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Wspaniała jakość tłumaczenia z bardzo naturalnym językiem niemieckim, idealną spójnością terminologii technicznej i wspaniałą czytelnością. Najlepsze tłumaczenie ogólnie.

Główne kryteria oceny:

Zauważone zalety w tłumaczeniach:

  • Zachowanie skrótów Hugo ({ {< ref >}} składnia)
  • Dokładność terminologii technicznej
  • Zachowanie formatowania markdown
  • Zachowanie struktury tabel
  • Spójność odniesień do obrazów

Różnice jakościowe:

  1. Spójność języka - Qwen3 8B miał problemy z mieszanką języka angielskiego i niemieckiego
  2. Naturalny przepływ języka niemieckiego - Qwen3 30B osiągnął najbardziej naturalny przepływ języka niemieckiego
  3. Dokładność techniczna - Wszystkie modele dobrze radziły sobie z terminologią techniczną
  4. Zachowanie formatowania - Wszystkie zachowały strukturę Hugo idealnie

Ranking według jakości:

  1. Qwen3 30B (9.0/10) - Najlepszy ogólnie
  2. Mistral Small 3.1 24B (8.7/10) - Bardzo dobre
  3. Devstral 24B (8.5/10) - Wspaniałe
  4. Qwen3 14B (8.2/10) - Dobre
  5. Qwen3 8B (6.5/10) - Wystarczające, ale z problemami

Większe modele (Qwen3 30B i Mistral Small 3.1 24B) wygenerowały najlepsze tłumaczenia, podczas gdy mniejszy model Qwen3 8B wykazał wyraźne ograniczenia w spójności.

Test 3: Reranking z Ollama i modelem Qwen3 Embedding w Go

Jest to poprzedni wpis na tym blogu: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Na podstawie mojej szczegółowej analizy niemieckich tłumaczeń, oto porównawcza ocena:

Analiza jakości tłumaczenia (skala 1-10)

Plik Model Wynik Kluczowa ocena
index.de.devstral-24b.md DeVistral 24B 9/10 Wspaniała - Najbardziej spójna i profesjonalna
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Bardzo dobra - Naturalna, ale drobne niezgodności
index.de.qwen3-14b.md Qwen3 14B 7/10 Dobra - Solidna z pewnymi elementami mieszanki
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Średnia - Zawiera nieprzetłumaczone fragmenty angielskie
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Słaba - Wiele błędów tłumaczenia

Szczegółowa analiza porównawcza:

🥇 DeVistral 24B (9/10) - Zwycięzca Zalety:

  • Dokładność techniczna: Używa “ollama API-Fehler” (małe litery, bardziej naturalne)
  • Spójne tłumaczenie: “handelt mit parallelen Anfragen” (szybsze sformułowanie)
  • Profesjonalna jakość: Pełne tłumaczenie na język niemiecki przez cały artykuł
  • Formatowanie: Idealne zachowanie struktury markdown

Drobną wadą: Bardzo niewiele, głównie preferencje stylistyczne

🥈 Mistral Small 3.1 24B (8.5/10) Zalety:

  • Naturalny przepływ języka niemieckiego
  • Dobre tłumaczenie terminów technicznych: “Ollama-API-Fehler” (z myślnikiem, styl formalny)
  • Spójne “verarbeitet parallele Anfragen”

Wady:

  • Słabsze sformułowania w niektórych kontekstach technicznych
  • Drobną zmiany w formacie

🥉 Qwen3 14B (7/10) Zalety:

  • Ogólnie dokładne zachowanie znaczenia
  • Poprawna struktura gramatyczna w języku niemieckim

Wady:

  • Niektóre nieprzyjemne konstrukcje
  • Zmieszana jakość w terminologii technicznej
  • Zawiera “```” na początku i problemy z formatowaniem

Qwen3 30B (6.5/10) Krytyczny wadę:

  • Zawiera nieprzetłumaczone fragmenty angielskie: “This little” pojawia się bezpośrednio w tekście niemieckim
  • Mimo większego rozmiaru modelu, pokazuje niezgodności w tłumaczeniu
  • Dokładność techniczna jest obecna, ale dostarczanie jest wadliwe

Qwen3 8B (5.5/10) Główne problemy:

  • Nieprzetłumaczone sekcje: “This little” pozostaje w języku angielskim
  • Niezgodność terminologii: Używa “RANGORDNUNG” vs standard “RANGIERUNG”
  • Słaby przepływ: Mniej naturalne konstrukcje w języku niemieckim
  • Pokazuje wyraźne ograniczenia mniejszego modelu

Znalezione kluczowe różnice:

  1. Tłumaczenie błędu API:

    • DeVistral: ollama API-Fehler (naturalne, małe litery)
    • Pozostałe: Ollama-API-Fehler (formalne, z myślnikiem)
  2. Procesy równoległe:

    • DeVistral: “handelt mit parallelen Anfragen” (szybsze sformułowanie)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standardowe)
    • Qwen3-8B: “behandelt parallele Anfragen” (mniej precyzyjne)
  3. Nagłówki sekcji:

    • Większość: “RANGIERUNG NACH ÄHNLICHKEIT” (standardowe)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (nieprzyjemne)
  4. Zanieczyszczenie językiem angielskim:

    • Qwen3-30B & Qwen3-8B: Pozostawia “This little” bez tłumaczenia
    • Pozostałe: Poprawnie tłumaczy na “Dieses kleine”

Zwycięzca: DeVistral 24B - Pokazuje najbardziej spójną profesjonalną jakość tłumaczenia na język niemiecki z zaawansowaną terminologią techniczną i pełnym przełożeniem języka.


Hehe DeVistral :). Ale to błąd innego LLM.

Przydatne linki