Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama

qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b

Indice

In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco. Le tre pagine che ho testato erano su argomenti diversi, avevano un bel markdown con una certa struttura: intestazioni, elenchi, tabelle, link, ecc.

Tutti questi modelli hanno funzionato su GPU NVIDIA con 16 GB di VRAM, alcuni di loro si sono adatti completamente alla VRAM, altri (24b e 30b) non lo hanno fatto e si sono spostati sulla CPU.

Tuttavia, ho testato anche questi ultimi.

due pagine - la traduzione è in corso

I modelli Ollama che ho testato:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Dopo aver eseguito i prompt di traduzione su tutti questi modelli, ho chiesto a un modello Anthropic molto intelligente di analizzare la qualità delle traduzioni, confrontarle e fornire metriche per ogni modello.

Ho provato anche magistral:24b, ma era troppo pensieroso, quindi era lento e consumava tutto il contesto. Quindi - non adatto alla mia GPU.

La conclusione semplice: TL;DR

Il migliore è Mistral Small 3.1 24b. Non si adatta ai 16 GB di VRAM, quindi era un po’ lento sul mio hardware.

I due successivi migliori: Qwen 3 14b e Qwen 3 30b. Il 14b si adatta bene, ma il 30b è un modello MoE, quindi è abbastanza veloce. Sul mio hardware le loro velocità erano simili.

Test 1: Argomento filosofico

Il markdown della pagina del sito web basato su Hugo su un fantastico argomento filosofico - descrizione e esempi del Falso Logico Ad Baculum.

index.de.devstral-24b.md - Valutazione: 7/10 Punti di forza:

  • Buona traduzione dei termini tecnici (“argumentum ad baculum Fehlschluss”)
  • Mantiene la corretta formattazione e struttura dei link
  • Traduzione accurata di concetti filosofici complessi
  • Corretta grammatica e sintassi tedesca

Punti deboli:

  • “verunstaltet” per “tainted” è un po’ goffo; “getrübt” sarebbe più naturale
  • Alcune frasi sembrano leggermente rigide o troppo letterali
  • Problemi minori di flusso in alcune frasi

index.de.mistral-small3.1-24b.md - Valutazione: 8.5/10 Punti di forza:

  • Flusso naturale della lingua tedesca
  • Eccellente traduzione dei termini tecnici
  • Buona conservazione del significato originale e del tono
  • Corretta grammatica e struttura delle frasi
  • Utilizzo di “getrübt” per “tainted” che è più naturale

Punti deboli:

  • Inconsistenze molto minori nel lessico
  • Deviazioni occasionali dalla struttura originale

index.de.qwen3-8b.md - Valutazione: 6.5/10 Punti di forza:

  • Traduzione accurata dei concetti principali
  • Gestione corretta dei termini tecnici
  • Mantenimento della struttura dell’articolo

Punti deboli:

  • Alcune formulazioni goffe (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Flusso tedesco meno naturale in diverse passaggi
  • Alcune costruzioni grammaticali sembrano forzate
  • Parola mancante in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (errore grammaticale)

index.de.qwen3-14b.md - Valutazione: 8/10 Punti di forza:

  • Flusso naturale della lingua tedesca
  • Eccellente gestione dei termini tecnici
  • Buona conservazione del significato originale
  • Corretta grammatica e sintassi
  • Stile coerente in tutto il testo

Punti deboli:

  • Variazioni minori nella coerenza lessicale
  • Alcune frasi potrebbero essere più concise

index.de.qwen3-30b-a3b.md - Valutazione: 7.5/10 Punti di forza:

  • Buona qualità complessiva della traduzione
  • Espressione naturale in tedesco
  • Terminologia tecnica ben tradotta
  • Mantenimento della leggibilità e del flusso
  • Buona conservazione del significato

Punti deboli:

  • Alcune piccole incongruenze nella scelta delle parole
  • Formulazioni occasionalmente un po’ goffe
  • Articolo mancante nell’ultimo paragrafo “über das [Terrain der] Argumentation”

Classifica Generale

File Punteggio Qualità Traduzione
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Migliore Traduzione: index.de.mistral-small3.1-24b.md - Flusso tedesco più naturale con eccellente precisione tecnica

Aree di Miglioramento: La versione Qwen3-8b necessita di correzioni grammaticali e di una formulazione più naturale, mentre gli altri necessitano principalmente di piccole raffinatezze nella scelta delle parole e nella coerenza.

Test 2: Traduzione della pagina sui modelli Qwen3 Embedding & Reranker su Ollama.

In base all’analisi delle traduzioni tedesche rispetto al testo inglese originale, ecco le valutazioni di qualità su una scala da 1 a 10:

File Modello LLM Punteggio Qualità Traduzione Commenti
index.de.devstral-24b.md Devstral 24B 8.5/10 Eccellente traduzione complessiva con flusso naturale in tedesco, corretta terminologia tecnica e completa conservazione dei shortcode Hugo. Deduzioni minori per alcune formulazioni leggermente goffe.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Molto alta qualità della traduzione con terminologia coerente, flusso naturale in tedesco e perfetta conservazione della formattazione. Leggermente migliore del Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Qualità mista - contiene mescolanza tra inglese e tedesco nell’introduzione (“The [Qwen3 Embedding and Reranker models]” invece di completo tedesco). Il resto è ben tradotto ma inconsistente.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Buona traduzione in tedesco con corretta terminologia tecnica e flusso naturale. Strutturata e coerente in tutto il testo.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Eccellente qualità della traduzione con linguaggio tedesco molto naturale, perfetta coerenza nella terminologia tecnica e ottima leggibilità. Migliore traduzione complessiva.

Criteri principali di valutazione:

Punti di forza osservati nelle traduzioni:

  • Conservazione dei shortcode Hugo ({ {< ref >}} syntax)
  • Precisione dei termini tecnici
  • Mantenimento della formattazione markdown
  • Conservazione della struttura delle tabelle
  • Coerenza nei riferimenti alle immagini

Differenze di qualità:

  1. Coerenza linguistica - Qwen3 8B aveva problemi di mescolanza tra inglese e tedesco
  2. Flusso naturale in tedesco - Qwen3 30B ha raggiunto l’espressione tedesca più naturale
  3. Precisione tecnica - Tutti i modelli hanno gestito bene i termini tecnici
  4. Conservazione della formattazione - Tutti hanno mantenuto perfettamente la struttura Hugo

Classifica per qualità:

  1. Qwen3 30B (9.0/10) - Migliore complessiva
  2. Mistral Small 3.1 24B (8.7/10) - Molto forte
  3. Devstral 24B (8.5/10) - Eccellente
  4. Qwen3 14B (8.2/10) - Buona
  5. Qwen3 8B (6.5/10) - Adeguata con problemi

I modelli più grandi (Qwen3 30B e Mistral Small 3.1 24B) hanno prodotto le traduzioni di migliore qualità, mentre il modello più piccolo Qwen3 8B ha mostrato chiari limiti nella coerenza.

Test 3: Reranking con Ollama e modello Qwen3 Embedding - in Go

In sostanza, è un post precedente su questo sito web: Reranking di documenti testuali con Ollama e modello Qwen3 Embedding - in Go.

In base all’analisi dettagliata delle traduzioni tedesche, ecco l’assessment comparativo:

Analisi Qualità Traduzione (Scala 1-10)

File Modello Punteggio Valutazione Principale
index.de.devstral-24b.md DeVistral 24B 9/10 Eccezionale - Più coerente e professionale
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Molto Buona - Naturale ma con alcune incoerenze
index.de.qwen3-14b.md Qwen3 14B 7/10 Buona - Solida con alcuni elementi misti
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Accettabile - Contiene inglese non tradotto
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Scarsa - Multiple fallimenti di traduzione

Analisi Comparativa Dettagliata:

🥇 DeVistral 24B (9/10) - Vincitore Punti di forza:

  • Precisione Tecnica: Utilizza “ollama API-Fehler” (minuscolo, più naturale)
  • Traduzione Coerente: “handelt mit parallelen Anfragen” (formulazione sofisticata)
  • Qualità Professionale: Traduzione completa in tedesco in tutto il testo
  • Formattazione: Conservazione perfetta della struttura markdown

Problemi minori: Molti pochi, principalmente preferenze stilistiche

🥈 Mistral Small 3.1 24B (8.5/10) Punti di forza:

  • Flusso naturale in tedesco
  • Buona terminologia tecnica: “Ollama-API-Fehler” (con trattino, stile formale)
  • Coerenza in “verarbeitet parallele Anfragen”

Problemi:

  • Pochi lessico leggermente meno sofisticato in alcuni contesti tecnici
  • Variazioni minori nella formattazione

🥉 Qwen3 14B (7/10) Punti di forza:

  • Conservazione generale del significato
  • Struttura grammaticale corretta in tedesco

Problemi:

  • Alcune costruzioni goffe
  • Qualità mista nella terminologia tecnica
  • Contiene “```” all’inizio e problemi di formattazione

Qwen3 30B (6.5/10) Flaw Critica:

  • Contiene inglese non tradotto: “This little” compare direttamente nel testo tedesco
  • Nonostante la dimensione più grande del modello, mostra incoerenze nella traduzione
  • La precisione tecnica è presente ma la consegna è difettosa

Qwen3 8B (5.5/10) Problemi principali:

  • Sezioni non tradotte: “This little” lasciato in inglese
  • Terminologia inconsistente: Utilizza “RANGORDNUNG” vs standard “RANGIERUNG”
  • Flusso povero: Costruzioni tedesche meno naturali
  • Mostra chiari limiti della dimensione del modello più piccolo

Differenze chiave rilevate:

  1. Traduzione dell’errore API:

    • DeVistral: ollama API-Fehler (naturale, minuscolo)
    • Altri: Ollama-API-Fehler (formale, con trattino)
  2. Richieste parallele:

    • DeVistral: “handelt mit parallelen Anfragen” (sofisticato)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
    • Qwen3-8B: “behandelt parallele Anfragen” (meno preciso)
  3. Intestazioni delle sezioni:

    • La maggior parte: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (goffo)
  4. Contaminazione inglese:

    • Qwen3-30B & Qwen3-8B: Lasciano “This little” non tradotto
    • Altri: Traducono correttamente in “Dieses kleine”

Vincitore: DeVistral 24B - Mostra la traduzione tedesca più coerente a livello professionale con terminologia tecnica sofisticata e conversione completa della lingua.


Hehe DeVistral :). Ma è un errore di un altro LLM.