Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco. Le tre pagine che ho testato erano su argomenti diversi, avevano un bel markdown con una certa struttura: intestazioni, elenchi, tabelle, link, ecc.
Tutti questi modelli hanno funzionato su GPU NVIDIA con 16 GB di VRAM, alcuni di loro si sono adatti completamente alla VRAM, altri (24b e 30b) non lo hanno fatto e si sono spostati sulla CPU.
Tuttavia, ho testato anche questi ultimi.
I modelli Ollama che ho testato:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Dopo aver eseguito i prompt di traduzione su tutti questi modelli, ho chiesto a un modello Anthropic molto intelligente di analizzare la qualità delle traduzioni, confrontarle e fornire metriche per ogni modello.
Ho provato anche magistral:24b, ma era troppo pensieroso
, quindi era lento e consumava tutto il contesto.
Quindi - non adatto alla mia GPU.
La conclusione semplice: TL;DR
Il migliore è Mistral Small 3.1 24b. Non si adatta ai 16 GB di VRAM, quindi era un po’ lento sul mio hardware.
I due successivi migliori: Qwen 3 14b e Qwen 3 30b. Il 14b si adatta bene, ma il 30b è un modello MoE, quindi è abbastanza veloce. Sul mio hardware le loro velocità erano simili.
Test 1: Argomento filosofico
Il markdown della pagina del sito web basato su Hugo su un fantastico argomento filosofico - descrizione e esempi del Falso Logico Ad Baculum.
index.de.devstral-24b.md - Valutazione: 7/10 Punti di forza:
- Buona traduzione dei termini tecnici (“argumentum ad baculum Fehlschluss”)
- Mantiene la corretta formattazione e struttura dei link
- Traduzione accurata di concetti filosofici complessi
- Corretta grammatica e sintassi tedesca
Punti deboli:
- “verunstaltet” per “tainted” è un po’ goffo; “getrübt” sarebbe più naturale
- Alcune frasi sembrano leggermente rigide o troppo letterali
- Problemi minori di flusso in alcune frasi
index.de.mistral-small3.1-24b.md - Valutazione: 8.5/10 Punti di forza:
- Flusso naturale della lingua tedesca
- Eccellente traduzione dei termini tecnici
- Buona conservazione del significato originale e del tono
- Corretta grammatica e struttura delle frasi
- Utilizzo di “getrübt” per “tainted” che è più naturale
Punti deboli:
- Inconsistenze molto minori nel lessico
- Deviazioni occasionali dalla struttura originale
index.de.qwen3-8b.md - Valutazione: 6.5/10 Punti di forza:
- Traduzione accurata dei concetti principali
- Gestione corretta dei termini tecnici
- Mantenimento della struttura dell’articolo
Punti deboli:
- Alcune formulazioni goffe (“kann sich auch in alltäglichen Interaktionen breiten”)
- Flusso tedesco meno naturale in diverse passaggi
- Alcune costruzioni grammaticali sembrano forzate
- Parola mancante in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (errore grammaticale)
index.de.qwen3-14b.md - Valutazione: 8/10 Punti di forza:
- Flusso naturale della lingua tedesca
- Eccellente gestione dei termini tecnici
- Buona conservazione del significato originale
- Corretta grammatica e sintassi
- Stile coerente in tutto il testo
Punti deboli:
- Variazioni minori nella coerenza lessicale
- Alcune frasi potrebbero essere più concise
index.de.qwen3-30b-a3b.md - Valutazione: 7.5/10 Punti di forza:
- Buona qualità complessiva della traduzione
- Espressione naturale in tedesco
- Terminologia tecnica ben tradotta
- Mantenimento della leggibilità e del flusso
- Buona conservazione del significato
Punti deboli:
- Alcune piccole incongruenze nella scelta delle parole
- Formulazioni occasionalmente un po’ goffe
- Articolo mancante nell’ultimo paragrafo “über das [Terrain der] Argumentation”
Classifica Generale
File | Punteggio Qualità Traduzione |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
Migliore Traduzione: index.de.mistral-small3.1-24b.md
- Flusso tedesco più naturale con eccellente precisione tecnica
Aree di Miglioramento: La versione Qwen3-8b necessita di correzioni grammaticali e di una formulazione più naturale, mentre gli altri necessitano principalmente di piccole raffinatezze nella scelta delle parole e nella coerenza.
Test 2: Traduzione della pagina sui modelli Qwen3 Embedding & Reranker su Ollama.
In base all’analisi delle traduzioni tedesche rispetto al testo inglese originale, ecco le valutazioni di qualità su una scala da 1 a 10:
File | Modello LLM | Punteggio Qualità Traduzione | Commenti |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Eccellente traduzione complessiva con flusso naturale in tedesco, corretta terminologia tecnica e completa conservazione dei shortcode Hugo. Deduzioni minori per alcune formulazioni leggermente goffe. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Molto alta qualità della traduzione con terminologia coerente, flusso naturale in tedesco e perfetta conservazione della formattazione. Leggermente migliore del Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Qualità mista - contiene mescolanza tra inglese e tedesco nell’introduzione (“The [Qwen3 Embedding and Reranker models]” invece di completo tedesco). Il resto è ben tradotto ma inconsistente. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Buona traduzione in tedesco con corretta terminologia tecnica e flusso naturale. Strutturata e coerente in tutto il testo. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Eccellente qualità della traduzione con linguaggio tedesco molto naturale, perfetta coerenza nella terminologia tecnica e ottima leggibilità. Migliore traduzione complessiva. |
Criteri principali di valutazione:
Punti di forza osservati nelle traduzioni:
- Conservazione dei shortcode Hugo (
{ {< ref >}}
syntax) - Precisione dei termini tecnici
- Mantenimento della formattazione markdown
- Conservazione della struttura delle tabelle
- Coerenza nei riferimenti alle immagini
Differenze di qualità:
- Coerenza linguistica - Qwen3 8B aveva problemi di mescolanza tra inglese e tedesco
- Flusso naturale in tedesco - Qwen3 30B ha raggiunto l’espressione tedesca più naturale
- Precisione tecnica - Tutti i modelli hanno gestito bene i termini tecnici
- Conservazione della formattazione - Tutti hanno mantenuto perfettamente la struttura Hugo
Classifica per qualità:
- Qwen3 30B (9.0/10) - Migliore complessiva
- Mistral Small 3.1 24B (8.7/10) - Molto forte
- Devstral 24B (8.5/10) - Eccellente
- Qwen3 14B (8.2/10) - Buona
- Qwen3 8B (6.5/10) - Adeguata con problemi
I modelli più grandi (Qwen3 30B e Mistral Small 3.1 24B) hanno prodotto le traduzioni di migliore qualità, mentre il modello più piccolo Qwen3 8B ha mostrato chiari limiti nella coerenza.
Test 3: Reranking con Ollama e modello Qwen3 Embedding - in Go
In sostanza, è un post precedente su questo sito web: Reranking di documenti testuali con Ollama e modello Qwen3 Embedding - in Go.
In base all’analisi dettagliata delle traduzioni tedesche, ecco l’assessment comparativo:
Analisi Qualità Traduzione (Scala 1-10)
File | Modello | Punteggio | Valutazione Principale |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | Eccezionale - Più coerente e professionale |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Molto Buona - Naturale ma con alcune incoerenze |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Buona - Solida con alcuni elementi misti |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Accettabile - Contiene inglese non tradotto |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Scarsa - Multiple fallimenti di traduzione |
Analisi Comparativa Dettagliata:
🥇 DeVistral 24B (9/10) - Vincitore Punti di forza:
- Precisione Tecnica: Utilizza “ollama API-Fehler” (minuscolo, più naturale)
- Traduzione Coerente: “handelt mit parallelen Anfragen” (formulazione sofisticata)
- Qualità Professionale: Traduzione completa in tedesco in tutto il testo
- Formattazione: Conservazione perfetta della struttura markdown
Problemi minori: Molti pochi, principalmente preferenze stilistiche
🥈 Mistral Small 3.1 24B (8.5/10) Punti di forza:
- Flusso naturale in tedesco
- Buona terminologia tecnica: “Ollama-API-Fehler” (con trattino, stile formale)
- Coerenza in “verarbeitet parallele Anfragen”
Problemi:
- Pochi lessico leggermente meno sofisticato in alcuni contesti tecnici
- Variazioni minori nella formattazione
🥉 Qwen3 14B (7/10) Punti di forza:
- Conservazione generale del significato
- Struttura grammaticale corretta in tedesco
Problemi:
- Alcune costruzioni goffe
- Qualità mista nella terminologia tecnica
- Contiene “```” all’inizio e problemi di formattazione
Qwen3 30B (6.5/10) Flaw Critica:
- Contiene inglese non tradotto: “This little” compare direttamente nel testo tedesco
- Nonostante la dimensione più grande del modello, mostra incoerenze nella traduzione
- La precisione tecnica è presente ma la consegna è difettosa
Qwen3 8B (5.5/10) Problemi principali:
- Sezioni non tradotte: “This little” lasciato in inglese
- Terminologia inconsistente: Utilizza “RANGORDNUNG” vs standard “RANGIERUNG”
- Flusso povero: Costruzioni tedesche meno naturali
- Mostra chiari limiti della dimensione del modello più piccolo
Differenze chiave rilevate:
-
Traduzione dell’errore API:
- DeVistral:
ollama API-Fehler
(naturale, minuscolo) - Altri:
Ollama-API-Fehler
(formale, con trattino)
- DeVistral:
-
Richieste parallele:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticato)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (meno preciso)
-
Intestazioni delle sezioni:
- La maggior parte: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (goffo)
-
Contaminazione inglese:
- Qwen3-30B & Qwen3-8B: Lasciano “This little” non tradotto
- Altri: Traducono correttamente in “Dieses kleine”
Vincitore: DeVistral 24B - Mostra la traduzione tedesca più coerente a livello professionale con terminologia tecnica sofisticata e conversione completa della lingua.
Hehe DeVistral :). Ma è un errore di un altro LLM.
Link utili
- Reranking di documenti testuali con Ollama e modello Qwen3 Embedding - in Go
- Ollama cheatsheet
- Modelli Qwen3 Embedding & Reranker su Ollama: Prestazioni all’avanguardia
- Installazione e configurazione della posizione dei modelli Ollama
- Come Ollama gestisce le richieste parallele
- Confronto LLM: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Su Ollama
- Test: Come Ollama utilizza le prestazioni del processore Intel e i core efficienti
- Confronto delle capacità di sintesi degli LLM