Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama
qwen3 8b, 14b i 30b, devstral 24b, mistral small 24b
W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z angielskiego na niemiecki: porównanie, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo. Trzy strony, które przetestowałem, dotyczyły różnych tematów, miały ładny markdown z pewną strukturą: nagłówki, listy, tabele, linki itp.
Wszystkie te modele działały na GPU NVidia z 16 GB VRAM, niektóre z nich całkowicie mieściły się w VRAM, inne (24b i 30b) nie i przechodziły na CPU.
Nie mimo tego, przetestowałem je również.
Modele Ollama, które przetestowałem:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Po uruchomieniu promptów tłumaczeniowych na wszystkich tych modelach zapytałem inteligentny model Anthropic, aby przeanalizował jakość tłumaczeń, porównał je i podał metryki dla każdego modelu.
Również spróbowałem magistral:24b, ale był myślenie
zbyt długo, więc był powolny i zużywał cały kontekst.
Więc – nie dla mojej GPU.
Prosty wniosek: TL;DR
Najlepszy to Mistral Small 3.1 24b. Nie mieści się w 16 GB VRAM, więc był trochę wolniejszy na moim sprzęcie.
Następne dwa najlepsze: Qwen 3 14b i Qwen 3 30b. 14b dobrze mieści się, ale 30b to model MoE, więc także dość szybki. Na moim sprzęcie ich prędkość była podobna.
Test 1: Temat filozoficzny
Markdown strony opartej na Hugo dotyczącej pewnego wspaniałego tematu filozoficznego – opis i przykłady błędu logicznego Ad Baculum.
index.de.devstral-24b.md - Ocena: 7/10 Zalety:
- Dobrze przetłumaczone terminy techniczne (“argumentum ad baculum Fehlschluss”)
- Zachowana poprawna struktura i formatowanie linków
- Dokładne tłumaczenie złożonych pojęć filozoficznych
- Poprawna gramatyka i składnia niemiecka
Wady:
- “verunstaltet” dla “tainted” jest trochę nieprzyjemne; “getrübt” byłoby bardziej naturalne
- Niektóre frazy wydają się lekko sztywne lub zbyt dosłowne
- Małe problemy z płynnością w niektórych zdaniach
index.de.mistral-small3.1-24b.md - Ocena: 8.5/10 Zalety:
- Bardzo naturalny przepływ języka niemieckiego
- Wspaniałe tłumaczenie terminów technicznych
- Dobrze zachowana oryginalna znaczenie i ton
- Poprawna gramatyka i struktura zdań
- Używa “getrübt” dla “tainted”, co jest bardziej naturalne
Wady:
- Bardzo drobne niezgodności w terminologii
- Oczekiwane lekkie odchylenia od struktury źródła
index.de.qwen3-8b.md - Ocena: 6.5/10 Zalety:
- Dokładne tłumaczenie głównych pojęć
- Poprawne przetłumaczenie terminów technicznych
- Zachowana struktura artykułu
Wady:
- Niektóre nieprzyjemne formułowania (“kann sich auch in alltäglichen Interaktionen breiten”)
- Mniej naturalny przepływ języka niemieckiego w kilku pasażach
- Niektóre konstrukcje gramatyczne wydają się naciągane
- Brak słowa w “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (błąd gramatyczny)
index.de.qwen3-14b.md - Ocena: 8/10 Zalety:
- Naturalny przepływ języka niemieckiego
- Wspaniałe przetłumaczenie terminów technicznych
- Dobrze zachowana oryginalna znaczenie
- Poprawna gramatyka i składnia
- Spójny styl przez cały artykuł
Wady:
- Drobnego rodzaju zmiany w spójności terminologii
- Niektóre zdania mogłyby być bardziej zwięzłe
index.de.qwen3-30b-a3b.md - Ocena: 7.5/10 Zalety:
- Dobra ogólna jakość tłumaczenia
- Naturalne wyrażenie w języku niemieckim
- Dobrze przetłumaczone terminy techniczne
- Zachowana czytelność i płynność
- Dobrze zachowana znaczenie
Wady:
- Niektóre drobne niezgodności w wyborze słów
- Oczekiwane lekkie nieprzyjemne formułowania
- Brak przedimka w ostatnim akapicie “über das [Terrain der] Argumentation”
Ranking jakości tłumaczeń
Plik | Wartość oceny jakości tłumaczenia |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
Najlepsze tłumaczenie: index.de.mistral-small3.1-24b.md
- Najbardziej naturalny przepływ języka niemieckiego z wspaniałą techniczną dokładnością
Obszary do poprawy: Wersja Qwen3-8b wymaga korekty gramatycznej i bardziej naturalnych formułowań, podczas gdy inne wymagają drobnych poprawek w wyborze słów i spójności.
Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.
Na podstawie mojej analizy niemieckich tłumaczeń w porównaniu do oryginalnego tekstu angielskiego, oto oceny jakości na skali od 1 do 10:
Plik | Model LLM | Wartość oceny jakości tłumaczenia | Komentarze |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Wspaniała ogólna jakość tłumaczenia z naturalnym przepływem języka niemieckiego, poprawnymi terminami technicznymi i pełnym zachowaniem skrótu Hugo. Drobną utratę za niektóre lekko nieprzyjemne formułowania. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Bardzo wysoka jakość tłumaczenia z spójną terminologią, naturalnym językiem niemieckim i idealnym zachowaniem formatowania. Słusznie lepszy przepływ niż Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Zmieszana jakość - zawiera mieszankę języka angielskiego i niemieckiego w wstępnej sekcji (“The [Qwen3 Embedding and Reranker models]” zamiast pełnego niemieckiego). Reszta dobrze przetłumaczona, ale niezgodna. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Dobre tłumaczenie w języku niemieckim z poprawnymi terminami technicznymi i naturalnym przepływem. Dobrze strukturyzowane i spójne przez cały artykuł. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Wspaniała jakość tłumaczenia z bardzo naturalnym językiem niemieckim, idealną spójnością terminologii technicznej i wspaniałą czytelnością. Najlepsze tłumaczenie ogólnie. |
Główne kryteria oceny:
Zauważone zalety w tłumaczeniach:
- Zachowanie skrótów Hugo (
{ {< ref >}}
składnia) - Dokładność terminologii technicznej
- Zachowanie formatowania markdown
- Zachowanie struktury tabel
- Spójność odniesień do obrazów
Różnice jakościowe:
- Spójność języka - Qwen3 8B miał problemy z mieszanką języka angielskiego i niemieckiego
- Naturalny przepływ języka niemieckiego - Qwen3 30B osiągnął najbardziej naturalny przepływ języka niemieckiego
- Dokładność techniczna - Wszystkie modele dobrze radziły sobie z terminologią techniczną
- Zachowanie formatowania - Wszystkie zachowały strukturę Hugo idealnie
Ranking według jakości:
- Qwen3 30B (9.0/10) - Najlepszy ogólnie
- Mistral Small 3.1 24B (8.7/10) - Bardzo dobre
- Devstral 24B (8.5/10) - Wspaniałe
- Qwen3 14B (8.2/10) - Dobre
- Qwen3 8B (6.5/10) - Wystarczające, ale z problemami
Większe modele (Qwen3 30B i Mistral Small 3.1 24B) wygenerowały najlepsze tłumaczenia, podczas gdy mniejszy model Qwen3 8B wykazał wyraźne ograniczenia w spójności.
Test 3: Reranking z Ollama i modelem Qwen3 Embedding w Go
Jest to poprzedni wpis na tym blogu: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
Na podstawie mojej szczegółowej analizy niemieckich tłumaczeń, oto porównawcza ocena:
Analiza jakości tłumaczenia (skala 1-10)
Plik | Model | Wynik | Kluczowa ocena |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | Wspaniała - Najbardziej spójna i profesjonalna |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Bardzo dobra - Naturalna, ale drobne niezgodności |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Dobra - Solidna z pewnymi elementami mieszanki |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Średnia - Zawiera nieprzetłumaczone fragmenty angielskie |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Słaba - Wiele błędów tłumaczenia |
Szczegółowa analiza porównawcza:
🥇 DeVistral 24B (9/10) - Zwycięzca Zalety:
- Dokładność techniczna: Używa “ollama API-Fehler” (małe litery, bardziej naturalne)
- Spójne tłumaczenie: “handelt mit parallelen Anfragen” (szybsze sformułowanie)
- Profesjonalna jakość: Pełne tłumaczenie na język niemiecki przez cały artykuł
- Formatowanie: Idealne zachowanie struktury markdown
Drobną wadą: Bardzo niewiele, głównie preferencje stylistyczne
🥈 Mistral Small 3.1 24B (8.5/10) Zalety:
- Naturalny przepływ języka niemieckiego
- Dobre tłumaczenie terminów technicznych: “Ollama-API-Fehler” (z myślnikiem, styl formalny)
- Spójne “verarbeitet parallele Anfragen”
Wady:
- Słabsze sformułowania w niektórych kontekstach technicznych
- Drobną zmiany w formacie
🥉 Qwen3 14B (7/10) Zalety:
- Ogólnie dokładne zachowanie znaczenia
- Poprawna struktura gramatyczna w języku niemieckim
Wady:
- Niektóre nieprzyjemne konstrukcje
- Zmieszana jakość w terminologii technicznej
- Zawiera “```” na początku i problemy z formatowaniem
Qwen3 30B (6.5/10) Krytyczny wadę:
- Zawiera nieprzetłumaczone fragmenty angielskie: “This little” pojawia się bezpośrednio w tekście niemieckim
- Mimo większego rozmiaru modelu, pokazuje niezgodności w tłumaczeniu
- Dokładność techniczna jest obecna, ale dostarczanie jest wadliwe
Qwen3 8B (5.5/10) Główne problemy:
- Nieprzetłumaczone sekcje: “This little” pozostaje w języku angielskim
- Niezgodność terminologii: Używa “RANGORDNUNG” vs standard “RANGIERUNG”
- Słaby przepływ: Mniej naturalne konstrukcje w języku niemieckim
- Pokazuje wyraźne ograniczenia mniejszego modelu
Znalezione kluczowe różnice:
-
Tłumaczenie błędu API:
- DeVistral:
ollama API-Fehler
(naturalne, małe litery) - Pozostałe:
Ollama-API-Fehler
(formalne, z myślnikiem)
- DeVistral:
-
Procesy równoległe:
- DeVistral: “handelt mit parallelen Anfragen” (szybsze sformułowanie)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standardowe)
- Qwen3-8B: “behandelt parallele Anfragen” (mniej precyzyjne)
-
Nagłówki sekcji:
- Większość: “RANGIERUNG NACH ÄHNLICHKEIT” (standardowe)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (nieprzyjemne)
-
Zanieczyszczenie językiem angielskim:
- Qwen3-30B & Qwen3-8B: Pozostawia “This little” bez tłumaczenia
- Pozostałe: Poprawnie tłumaczy na “Dieses kleine”
Zwycięzca: DeVistral 24B - Pokazuje najbardziej spójną profesjonalną jakość tłumaczenia na język niemiecki z zaawansowaną terminologią techniczną i pełnym przełożeniem języka.
Hehe DeVistral :). Ale to błąd innego LLM.
Przydatne linki
- Reranking text documents with Ollama and Qwen3 Embedding model - in Go
- Ollama cheatsheet
- Qwen3 Embedding & Reranker Models on Ollama: State-of-the-Art Performance
- Install and Configure Ollama models location
- How Ollama Handles Parallel Requests
- LLMs comparison: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 and Phi - On Ollama
- Test: How Ollama is using Intel CPU Performance and Efficient Cores
- Comparing LLM Summarising Abilities