Qual è il miglior LLM per la traduzione di testo su OLLAMA?

Il miglior LLM per la traduzione di testo su OLLAMA è Mistral small 3.1 24b.

Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama

qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b

Indice

In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco. Le tre pagine che ho testato erano su argomenti diversi, avevano un bel markdown con una certa struttura: intestazioni, elenchi, tabelle, link, ecc.

Tutti questi modelli hanno funzionato su GPU NVIDIA con 16 GB di VRAM, alcuni di loro si sono adatti completamente alla VRAM, altri (24b e 30b) non lo hanno fatto e si sono spostati sulla CPU.

Tuttavia, ho testato anche questi ultimi.

due pagine - la traduzione è in corso

I modelli Ollama che ho testato:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Dopo aver eseguito i prompt di traduzione su tutti questi modelli, ho chiesto a un modello Anthropic molto intelligente di analizzare la qualità delle traduzioni, confrontarle e fornire metriche per ogni modello.

Ho provato anche magistral:24b, ma era troppo pensieroso, quindi era lento e consumava tutto il contesto. Quindi - non adatto alla mia GPU.

La conclusione semplice: TL;DR

Il migliore è Mistral Small 3.1 24b. Non si adatta ai 16 GB di VRAM, quindi era un po’ lento sul mio hardware.

I due successivi migliori: Qwen 3 14b e Qwen 3 30b. Il 14b si adatta bene, ma il 30b è un modello MoE, quindi è abbastanza veloce. Sul mio hardware le loro velocità erano simili.

Test 1: Argomento filosofico

Il markdown della pagina del sito web basato su Hugo su un fantastico argomento filosofico - descrizione e esempi del Falso Logico Ad Baculum.

index.de.devstral-24b.md - Valutazione: 7/10 Punti di forza:

Buona traduzione dei termini tecnici (“argumentum ad baculum Fehlschluss”)
Mantiene la corretta formattazione e struttura dei link
Traduzione accurata di concetti filosofici complessi
Corretta grammatica e sintassi tedesca

Punti deboli:

“verunstaltet” per “tainted” è un po’ goffo; “getrübt” sarebbe più naturale
Alcune frasi sembrano leggermente rigide o troppo letterali
Problemi minori di flusso in alcune frasi

index.de.mistral-small3.1-24b.md - Valutazione: 8.5/10 Punti di forza:

Flusso naturale della lingua tedesca
Eccellente traduzione dei termini tecnici
Buona conservazione del significato originale e del tono
Corretta grammatica e struttura delle frasi
Utilizzo di “getrübt” per “tainted” che è più naturale

Punti deboli:

Inconsistenze molto minori nel lessico
Deviazioni occasionali dalla struttura originale

index.de.qwen3-8b.md - Valutazione: 6.5/10 Punti di forza:

Traduzione accurata dei concetti principali
Gestione corretta dei termini tecnici
Mantenimento della struttura dell’articolo

Punti deboli:

Alcune formulazioni goffe (“kann sich auch in alltäglichen Interaktionen breiten”)
Flusso tedesco meno naturale in diverse passaggi
Alcune costruzioni grammaticali sembrano forzate
Parola mancante in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (errore grammaticale)

index.de.qwen3-14b.md - Valutazione: 8/10 Punti di forza:

Flusso naturale della lingua tedesca
Eccellente gestione dei termini tecnici
Buona conservazione del significato originale
Corretta grammatica e sintassi
Stile coerente in tutto il testo

Punti deboli:

Variazioni minori nella coerenza lessicale
Alcune frasi potrebbero essere più concise

index.de.qwen3-30b-a3b.md - Valutazione: 7.5/10 Punti di forza:

Buona qualità complessiva della traduzione
Espressione naturale in tedesco
Terminologia tecnica ben tradotta
Mantenimento della leggibilità e del flusso
Buona conservazione del significato

Punti deboli:

Alcune piccole incongruenze nella scelta delle parole
Formulazioni occasionalmente un po’ goffe
Articolo mancante nell’ultimo paragrafo “über das [Terrain der] Argumentation”

Classifica Generale

File	Punteggio Qualità Traduzione
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Migliore Traduzione: index.de.mistral-small3.1-24b.md - Flusso tedesco più naturale con eccellente precisione tecnica

Aree di Miglioramento: La versione Qwen3-8b necessita di correzioni grammaticali e di una formulazione più naturale, mentre gli altri necessitano principalmente di piccole raffinatezze nella scelta delle parole e nella coerenza.

Test 2: Traduzione della pagina sui modelli Qwen3 Embedding & Reranker su Ollama.

In base all’analisi delle traduzioni tedesche rispetto al testo inglese originale, ecco le valutazioni di qualità su una scala da 1 a 10:

File	Modello LLM	Punteggio Qualità Traduzione	Commenti
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Eccellente traduzione complessiva con flusso naturale in tedesco, corretta terminologia tecnica e completa conservazione dei shortcode Hugo. Deduzioni minori per alcune formulazioni leggermente goffe.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Molto alta qualità della traduzione con terminologia coerente, flusso naturale in tedesco e perfetta conservazione della formattazione. Leggermente migliore del Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Qualità mista - contiene mescolanza tra inglese e tedesco nell’introduzione (“The [Qwen3 Embedding and Reranker models]” invece di completo tedesco). Il resto è ben tradotto ma inconsistente.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Buona traduzione in tedesco con corretta terminologia tecnica e flusso naturale. Strutturata e coerente in tutto il testo.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Eccellente qualità della traduzione con linguaggio tedesco molto naturale, perfetta coerenza nella terminologia tecnica e ottima leggibilità. Migliore traduzione complessiva.

Criteri principali di valutazione:

Punti di forza osservati nelle traduzioni:

Conservazione dei shortcode Hugo ({ {< ref >}} syntax)
Precisione dei termini tecnici
Mantenimento della formattazione markdown
Conservazione della struttura delle tabelle
Coerenza nei riferimenti alle immagini

Differenze di qualità:

Coerenza linguistica - Qwen3 8B aveva problemi di mescolanza tra inglese e tedesco
Flusso naturale in tedesco - Qwen3 30B ha raggiunto l’espressione tedesca più naturale
Precisione tecnica - Tutti i modelli hanno gestito bene i termini tecnici
Conservazione della formattazione - Tutti hanno mantenuto perfettamente la struttura Hugo

Classifica per qualità:

Qwen3 30B (9.0/10) - Migliore complessiva
Mistral Small 3.1 24B (8.7/10) - Molto forte
Devstral 24B (8.5/10) - Eccellente
Qwen3 14B (8.2/10) - Buona
Qwen3 8B (6.5/10) - Adeguata con problemi

I modelli più grandi (Qwen3 30B e Mistral Small 3.1 24B) hanno prodotto le traduzioni di migliore qualità, mentre il modello più piccolo Qwen3 8B ha mostrato chiari limiti nella coerenza.

Test 3: Reranking con Ollama e modello Qwen3 Embedding - in Go

In sostanza, è un post precedente su questo sito web: Reranking di documenti testuali con Ollama e modello Qwen3 Embedding - in Go.

In base all’analisi dettagliata delle traduzioni tedesche, ecco l’assessment comparativo:

Analisi Qualità Traduzione (Scala 1-10)

File	Modello	Punteggio	Valutazione Principale
index.de.devstral-24b.md	DeVistral 24B	9/10	Eccezionale - Più coerente e professionale
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Molto Buona - Naturale ma con alcune incoerenze
index.de.qwen3-14b.md	Qwen3 14B	7/10	Buona - Solida con alcuni elementi misti
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Accettabile - Contiene inglese non tradotto
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Scarsa - Multiple fallimenti di traduzione

Analisi Comparativa Dettagliata:

🥇 DeVistral 24B (9/10) - Vincitore Punti di forza:

Precisione Tecnica: Utilizza “ollama API-Fehler” (minuscolo, più naturale)
Traduzione Coerente: “handelt mit parallelen Anfragen” (formulazione sofisticata)
Qualità Professionale: Traduzione completa in tedesco in tutto il testo
Formattazione: Conservazione perfetta della struttura markdown

Problemi minori: Molti pochi, principalmente preferenze stilistiche

🥈 Mistral Small 3.1 24B (8.5/10) Punti di forza:

Flusso naturale in tedesco
Buona terminologia tecnica: “Ollama-API-Fehler” (con trattino, stile formale)
Coerenza in “verarbeitet parallele Anfragen”

Problemi:

Pochi lessico leggermente meno sofisticato in alcuni contesti tecnici
Variazioni minori nella formattazione

🥉 Qwen3 14B (7/10) Punti di forza:

Conservazione generale del significato
Struttura grammaticale corretta in tedesco

Problemi:

Alcune costruzioni goffe
Qualità mista nella terminologia tecnica
Contiene “```” all’inizio e problemi di formattazione

Qwen3 30B (6.5/10) Flaw Critica:

Contiene inglese non tradotto: “This little” compare direttamente nel testo tedesco
Nonostante la dimensione più grande del modello, mostra incoerenze nella traduzione
La precisione tecnica è presente ma la consegna è difettosa

Qwen3 8B (5.5/10) Problemi principali:

Sezioni non tradotte: “This little” lasciato in inglese
Terminologia inconsistente: Utilizza “RANGORDNUNG” vs standard “RANGIERUNG”
Flusso povero: Costruzioni tedesche meno naturali
Mostra chiari limiti della dimensione del modello più piccolo

Differenze chiave rilevate:

Traduzione dell’errore API:
- DeVistral: ollama API-Fehler (naturale, minuscolo)
- Altri: Ollama-API-Fehler (formale, con trattino)
Richieste parallele:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticato)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (meno preciso)
Intestazioni delle sezioni:
- La maggior parte: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (goffo)
Contaminazione inglese:
- Qwen3-30B & Qwen3-8B: Lasciano “This little” non tradotto
- Altri: Traducono correttamente in “Dieses kleine”

Vincitore: DeVistral 24B - Mostra la traduzione tedesca più coerente a livello professionale con terminologia tecnica sofisticata e conversione completa della lingua.

Hehe DeVistral :). Ma è un errore di un altro LLM.

La conclusione semplice: TL;DR

Test 1: Argomento filosofico

Test 2: Traduzione della pagina sui modelli Qwen3 Embedding & Reranker su Ollama.

Test 3: Reranking con Ollama e modello Qwen3 Embedding - in Go

Link utili