Który jest najlepszym LLM do tłumaczenia tekstu na OLLAMA?

Najlepszym modelem LLM do tłumaczenia tekstu na OLLAMA jest Mistral small 3.1 24b.

Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama

qwen3 8b, 14b i 30b, devstral 24b, mistral small 24b

Page content

W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z angielskiego na niemiecki: porównanie, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo. Trzy strony, które przetestowałem, dotyczyły różnych tematów, miały ładny markdown z pewną strukturą: nagłówki, listy, tabele, linki itp.

Wszystkie te modele działały na GPU NVidia z 16 GB VRAM, niektóre z nich całkowicie mieściły się w VRAM, inne (24b i 30b) nie i przechodziły na CPU.

Nie mimo tego, przetestowałem je również.

dwa strony - tłumaczenie w toku

Modele Ollama, które przetestowałem:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Po uruchomieniu promptów tłumaczeniowych na wszystkich tych modelach zapytałem inteligentny model Anthropic, aby przeanalizował jakość tłumaczeń, porównał je i podał metryki dla każdego modelu.

Również spróbowałem magistral:24b, ale był myślenie zbyt długo, więc był powolny i zużywał cały kontekst. Więc – nie dla mojej GPU.

Prosty wniosek: TL;DR

Najlepszy to Mistral Small 3.1 24b. Nie mieści się w 16 GB VRAM, więc był trochę wolniejszy na moim sprzęcie.

Następne dwa najlepsze: Qwen 3 14b i Qwen 3 30b. 14b dobrze mieści się, ale 30b to model MoE, więc także dość szybki. Na moim sprzęcie ich prędkość była podobna.

Test 1: Temat filozoficzny

Markdown strony opartej na Hugo dotyczącej pewnego wspaniałego tematu filozoficznego – opis i przykłady błędu logicznego Ad Baculum.

index.de.devstral-24b.md - Ocena: 7/10 Zalety:

Dobrze przetłumaczone terminy techniczne (“argumentum ad baculum Fehlschluss”)
Zachowana poprawna struktura i formatowanie linków
Dokładne tłumaczenie złożonych pojęć filozoficznych
Poprawna gramatyka i składnia niemiecka

Wady:

“verunstaltet” dla “tainted” jest trochę nieprzyjemne; “getrübt” byłoby bardziej naturalne
Niektóre frazy wydają się lekko sztywne lub zbyt dosłowne
Małe problemy z płynnością w niektórych zdaniach

index.de.mistral-small3.1-24b.md - Ocena: 8.5/10 Zalety:

Bardzo naturalny przepływ języka niemieckiego
Wspaniałe tłumaczenie terminów technicznych
Dobrze zachowana oryginalna znaczenie i ton
Poprawna gramatyka i struktura zdań
Używa “getrübt” dla “tainted”, co jest bardziej naturalne

Wady:

Bardzo drobne niezgodności w terminologii
Oczekiwane lekkie odchylenia od struktury źródła

index.de.qwen3-8b.md - Ocena: 6.5/10 Zalety:

Dokładne tłumaczenie głównych pojęć
Poprawne przetłumaczenie terminów technicznych
Zachowana struktura artykułu

Wady:

Niektóre nieprzyjemne formułowania (“kann sich auch in alltäglichen Interaktionen breiten”)
Mniej naturalny przepływ języka niemieckiego w kilku pasażach
Niektóre konstrukcje gramatyczne wydają się naciągane
Brak słowa w “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (błąd gramatyczny)

index.de.qwen3-14b.md - Ocena: 8/10 Zalety:

Naturalny przepływ języka niemieckiego
Wspaniałe przetłumaczenie terminów technicznych
Dobrze zachowana oryginalna znaczenie
Poprawna gramatyka i składnia
Spójny styl przez cały artykuł

Wady:

Drobnego rodzaju zmiany w spójności terminologii
Niektóre zdania mogłyby być bardziej zwięzłe

index.de.qwen3-30b-a3b.md - Ocena: 7.5/10 Zalety:

Dobra ogólna jakość tłumaczenia
Naturalne wyrażenie w języku niemieckim
Dobrze przetłumaczone terminy techniczne
Zachowana czytelność i płynność
Dobrze zachowana znaczenie

Wady:

Niektóre drobne niezgodności w wyborze słów
Oczekiwane lekkie nieprzyjemne formułowania
Brak przedimka w ostatnim akapicie “über das [Terrain der] Argumentation”

Ranking jakości tłumaczeń

Plik	Wartość oceny jakości tłumaczenia
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Najlepsze tłumaczenie: index.de.mistral-small3.1-24b.md - Najbardziej naturalny przepływ języka niemieckiego z wspaniałą techniczną dokładnością

Obszary do poprawy: Wersja Qwen3-8b wymaga korekty gramatycznej i bardziej naturalnych formułowań, podczas gdy inne wymagają drobnych poprawek w wyborze słów i spójności.

Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.

Na podstawie mojej analizy niemieckich tłumaczeń w porównaniu do oryginalnego tekstu angielskiego, oto oceny jakości na skali od 1 do 10:

Plik	Model LLM	Wartość oceny jakości tłumaczenia	Komentarze
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Wspaniała ogólna jakość tłumaczenia z naturalnym przepływem języka niemieckiego, poprawnymi terminami technicznymi i pełnym zachowaniem skrótu Hugo. Drobną utratę za niektóre lekko nieprzyjemne formułowania.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Bardzo wysoka jakość tłumaczenia z spójną terminologią, naturalnym językiem niemieckim i idealnym zachowaniem formatowania. Słusznie lepszy przepływ niż Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Zmieszana jakość - zawiera mieszankę języka angielskiego i niemieckiego w wstępnej sekcji (“The [Qwen3 Embedding and Reranker models]” zamiast pełnego niemieckiego). Reszta dobrze przetłumaczona, ale niezgodna.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Dobre tłumaczenie w języku niemieckim z poprawnymi terminami technicznymi i naturalnym przepływem. Dobrze strukturyzowane i spójne przez cały artykuł.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Wspaniała jakość tłumaczenia z bardzo naturalnym językiem niemieckim, idealną spójnością terminologii technicznej i wspaniałą czytelnością. Najlepsze tłumaczenie ogólnie.

Główne kryteria oceny:

Zauważone zalety w tłumaczeniach:

Zachowanie skrótów Hugo ({ {< ref >}} składnia)
Dokładność terminologii technicznej
Zachowanie formatowania markdown
Zachowanie struktury tabel
Spójność odniesień do obrazów

Różnice jakościowe:

Spójność języka - Qwen3 8B miał problemy z mieszanką języka angielskiego i niemieckiego
Naturalny przepływ języka niemieckiego - Qwen3 30B osiągnął najbardziej naturalny przepływ języka niemieckiego
Dokładność techniczna - Wszystkie modele dobrze radziły sobie z terminologią techniczną
Zachowanie formatowania - Wszystkie zachowały strukturę Hugo idealnie

Ranking według jakości:

Qwen3 30B (9.0/10) - Najlepszy ogólnie
Mistral Small 3.1 24B (8.7/10) - Bardzo dobre
Devstral 24B (8.5/10) - Wspaniałe
Qwen3 14B (8.2/10) - Dobre
Qwen3 8B (6.5/10) - Wystarczające, ale z problemami

Większe modele (Qwen3 30B i Mistral Small 3.1 24B) wygenerowały najlepsze tłumaczenia, podczas gdy mniejszy model Qwen3 8B wykazał wyraźne ograniczenia w spójności.

Test 3: Reranking z Ollama i modelem Qwen3 Embedding w Go

Jest to poprzedni wpis na tym blogu: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Na podstawie mojej szczegółowej analizy niemieckich tłumaczeń, oto porównawcza ocena:

Analiza jakości tłumaczenia (skala 1-10)

Plik	Model	Wynik	Kluczowa ocena
index.de.devstral-24b.md	DeVistral 24B	9/10	Wspaniała - Najbardziej spójna i profesjonalna
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Bardzo dobra - Naturalna, ale drobne niezgodności
index.de.qwen3-14b.md	Qwen3 14B	7/10	Dobra - Solidna z pewnymi elementami mieszanki
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Średnia - Zawiera nieprzetłumaczone fragmenty angielskie
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Słaba - Wiele błędów tłumaczenia

Szczegółowa analiza porównawcza:

🥇 DeVistral 24B (9/10) - Zwycięzca Zalety:

Dokładność techniczna: Używa “ollama API-Fehler” (małe litery, bardziej naturalne)
Spójne tłumaczenie: “handelt mit parallelen Anfragen” (szybsze sformułowanie)
Profesjonalna jakość: Pełne tłumaczenie na język niemiecki przez cały artykuł
Formatowanie: Idealne zachowanie struktury markdown

Drobną wadą: Bardzo niewiele, głównie preferencje stylistyczne

🥈 Mistral Small 3.1 24B (8.5/10) Zalety:

Naturalny przepływ języka niemieckiego
Dobre tłumaczenie terminów technicznych: “Ollama-API-Fehler” (z myślnikiem, styl formalny)
Spójne “verarbeitet parallele Anfragen”

Wady:

Słabsze sformułowania w niektórych kontekstach technicznych
Drobną zmiany w formacie

🥉 Qwen3 14B (7/10) Zalety:

Ogólnie dokładne zachowanie znaczenia
Poprawna struktura gramatyczna w języku niemieckim

Wady:

Niektóre nieprzyjemne konstrukcje
Zmieszana jakość w terminologii technicznej
Zawiera “```” na początku i problemy z formatowaniem

Qwen3 30B (6.5/10) Krytyczny wadę:

Zawiera nieprzetłumaczone fragmenty angielskie: “This little” pojawia się bezpośrednio w tekście niemieckim
Mimo większego rozmiaru modelu, pokazuje niezgodności w tłumaczeniu
Dokładność techniczna jest obecna, ale dostarczanie jest wadliwe

Qwen3 8B (5.5/10) Główne problemy:

Nieprzetłumaczone sekcje: “This little” pozostaje w języku angielskim
Niezgodność terminologii: Używa “RANGORDNUNG” vs standard “RANGIERUNG”
Słaby przepływ: Mniej naturalne konstrukcje w języku niemieckim
Pokazuje wyraźne ograniczenia mniejszego modelu

Znalezione kluczowe różnice:

Tłumaczenie błędu API:
- DeVistral: ollama API-Fehler (naturalne, małe litery)
- Pozostałe: Ollama-API-Fehler (formalne, z myślnikiem)
Procesy równoległe:
- DeVistral: “handelt mit parallelen Anfragen” (szybsze sformułowanie)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standardowe)
- Qwen3-8B: “behandelt parallele Anfragen” (mniej precyzyjne)
Nagłówki sekcji:
- Większość: “RANGIERUNG NACH ÄHNLICHKEIT” (standardowe)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (nieprzyjemne)
Zanieczyszczenie językiem angielskim:
- Qwen3-30B & Qwen3-8B: Pozostawia “This little” bez tłumaczenia
- Pozostałe: Poprawnie tłumaczy na “Dieses kleine”

Zwycięzca: DeVistral 24B - Pokazuje najbardziej spójną profesjonalną jakość tłumaczenia na język niemiecki z zaawansowaną terminologią techniczną i pełnym przełożeniem języka.

Hehe DeVistral :). Ale to błąd innego LLM.

Prosty wniosek: TL;DR

Test 1: Temat filozoficzny

Test 2: Tłumaczenie strony o modelach Qwen3 Embedding & Reranker na Ollama.

Test 3: Reranking z Ollama i modelem Qwen3 Embedding w Go

Przydatne linki