Comparaison de la qualité de la traduction des pages Hugo - LLMs sur Ollama

qwen3 8b, 14b et 30b, devstral 24b, mistral small 24b

Sommaire

Dans ce test, je suis en comparant comment différents LLMs hébergés sur Ollama traduisent une page Hugo en anglais vers l’allemand.
Trois pages que j’ai testées portaient sur des sujets différents, comportaient un joli markdown avec une certaine structure : titres, listes, tableaux, liens, etc.

Tous ces modèles ont fonctionné sur une carte graphique NVidia avec 16 Go de VRAM, certains d’entre eux s’adaptant entièrement à la VRAM, d’autres (24b et 30b) ne s’y adaptant pas et dépassant ainsi vers le CPU.

Néanmoins, j’ai également testé ceux-ci.

deux pages - la traduction est en cours

Les modèles Ollama que j’ai testés :

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Après avoir exécuté les prompts de traduction sur tous ces modèles, j’ai demandé à un modèle Anthropic intelligent d’analyser la qualité des traductions, de les comparer et de fournir des métriques pour chaque modèle.

J’ai également essayé magistral:24b, mais il était trop en train de réfléchir, donc lent et consommant tout le contexte.
Donc – pas adapté à ma carte graphique.

La conclusion simple : TL;DR

Le meilleur est Mistral Small 3.1 24b. Il ne s’adapte pas à 16 Go de VRAM, donc un peu lent sur mon matériel.

Les deux suivants : Qwen 3 14b et Qwen 3 30b. Le 14b s’adapte bien, mais le 30b est un modèle MoE, donc assez rapide également. Sur mon matériel, leur vitesse était similaire.

Test 1 : Thème philosophique

Le markdown de la page du site web Hugo sur un sujet philosophique fascinant – la description et les exemples de la Fausse Faiblesse Ad Baculum.

index.de.devstral-24b.md - Note : 7/10 Points forts :

  • Bonne traduction des termes techniques (“argumentum ad baculum Fehlschluss”)
  • Maintien de la bonne structure et formatage des liens
  • Traduction précise des concepts philosophiques complexes
  • Bonne grammaire et syntaxe allemandes

Points faibles :

  • “verunstaltet” pour “tainted” est un peu maladroit ; “getrübt” serait plus naturel
  • Certaines phrases semblent légèrement rigides ou trop littérales
  • Petits problèmes de fluidité dans certaines phrases

index.de.mistral-small3.1-24b.md - Note : 8,5/10 Points forts :

  • Très naturelle fluidité en allemand
  • Excellente traduction des termes techniques
  • Bonne préservation du sens et du ton d’origine
  • Grammaire et structure de phrases correctes
  • Utilisation de “getrübt” pour “tainted”, ce qui est plus naturel

Points faibles :

  • Petites incohérences terminologiques
  • Déviations occasionnelles de la structure d’origine

index.de.qwen3-8b.md - Note : 6,5/10 Points forts :

  • Traduction précise des concepts principaux
  • Gestion correcte des termes techniques
  • Maintien de la structure de l’article

Points faibles :

  • Certaines formulations maladroites (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Moins naturelle fluidité allemande dans plusieurs passages
  • Certaines constructions grammaticales semblent forcées
  • Mot manquant dans “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erreur grammaticale)

index.de.qwen3-14b.md - Note : 8/10 Points forts :

  • Fluidité naturelle en allemand
  • Excellente gestion des termes techniques
  • Bonne préservation du sens d’origine
  • Grammaire et syntaxe correctes
  • Style cohérent tout au long

Points faibles :

  • Petites variations de cohérence terminologique
  • Certaines phrases pourraient être plus concises

index.de.qwen3-30b-a3b.md - Note : 7,5/10 Points forts :

  • Bonne qualité globale de la traduction
  • Expression naturelle en allemand
  • Termes techniques bien traduits
  • Maintien de la lisibilité et de la fluidité
  • Bonne préservation du sens

Points faibles :

  • Certaines petites incohérences dans le choix des mots
  • Formulations occasionnellement un peu maladroites
  • Article manquant dans le paragraphe final “über das [Terrain der] Argumentation”

Classement des résultats

Fichier Note de qualité de la traduction
index.de.mistral-small3.1-24b.md 8,5/10
index.de.qwen3-14b.md 8,0/10
index.de.qwen3-30b-a3b.md 7,5/10
index.de.devstral-24b.md 7,0/10
index.de.qwen3-8b.md 6,5/10

Meilleure traduction : index.de.mistral-small3.1-24b.md - Fluidité allemande la plus naturelle avec une précision technique excellente

Domaines d’amélioration : La version Qwen3-8b nécessite des corrections grammaticales et une formulation plus naturelle, tandis que les autres ont principalement besoin d’améliorations mineures en termes de choix de mots et de cohérence.

Test 2 : Traduction de la page sur les modèles Qwen3 Embedding & Reranker sur Ollama.

Selon mon analyse des traductions allemandes par rapport au texte anglais original, voici les notes de qualité sur une échelle de 1 à 10 :

Fichier Modèle LLM Note de qualité de la traduction Commentaires
index.de.devstral-24b.md Devstral 24B 8,5/10 Très bonne traduction globale avec une fluidité naturelle en allemand, des termes techniques corrects et une préservation complète des raccourcis Hugo. Petites déductions pour certaines formulations légèrement maladroites.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8,7/10 Très haute qualité de la traduction avec une terminologie cohérente, une fluidité naturelle en allemand et une préservation parfaite du formatage. Légèrement meilleure fluidité que Devstral.
index.de.qwen3-8b.md Qwen3 8B 6,5/10 Qualité mixte – contient un mélange anglais-allemand dans le paragraphe d’introduction (“The [Qwen3 Embedding and Reranker models]” au lieu d’une version complète allemande). Le reste est bien traduit mais incohérent.
index.de.qwen3-14b.md Qwen3 14B 8,2/10 Bonne traduction allemande avec des termes techniques corrects et une fluidité naturelle. Bien structurée et cohérente tout au long.
index.de.qwen3-30b-a3b.md Qwen3 30B 9,0/10 Très bonne qualité de traduction avec une fluidité allemande très naturelle, une cohérence parfaite des termes techniques et une excellente lisibilité. Meilleure traduction globale.

Critères d’évaluation principaux :

Points forts observés dans les traductions :

  • Préservation des raccourcis Hugo ({ {< ref >}} syntax)
  • Précision des termes techniques
  • Maintien du formatage markdown
  • Préservation de la structure des tableaux
  • Cohérence des références d’images

Facteurs de qualité :

  1. Consistance linguistique – Qwen3 8B a eu des problèmes de mélange anglais-allemand
  2. Fluidité allemande naturelle – Qwen3 30B a atteint la plus grande fluidité allemande
  3. Précision technique – Tous les modèles ont bien géré les termes techniques
  4. Préservation du formatage – Tous ont préservé parfaitement la structure Hugo

Classement par qualité :

  1. Qwen3 30B (9,0/10) - Meilleure qualité globale
  2. Mistral Small 3.1 24B (8,7/10) - Très forte
  3. Devstral 24B (8,5/10) - Excellente
  4. Qwen3 14B (8,2/10) - Bonne
  5. Qwen3 8B (6,5/10) - Adequate avec des problèmes

Les modèles plus grands (Qwen3 30B et Mistral Small 3.1 24B) ont produit les traductions de meilleure qualité, tandis que le modèle plus petit Qwen3 8B a montré des limites claires en termes de cohérence.

Test 3 : Reranking avec Ollama et modèle Qwen3 Embedding – en Go

Il s’agit d’un article précédent sur ce site web :
Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Selon mon analyse détaillée des traductions allemandes, voici l’évaluation comparative :

Analyse de la qualité de la traduction (échelle 1-10)

Fichier Modèle Note Évaluation principale
index.de.devstral-24b.md DeVistral 24B 9/10 Excellent - Le plus cohérent et professionnel
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8,5/10 Très bon - Naturel mais quelques incohérences
index.de.qwen3-14b.md Qwen3 14B 7/10 Bon - Solide avec quelques éléments mixtes
index.de.qwen3-30b-a3b.md Qwen3 30B 6,5/10 Moyen - Contient de l’anglais non traduit
index.de.qwen3-8b.md Qwen3 8B 5,5/10 Mauvais - Plusieurs échecs de traduction

Analyse comparative détaillée :

🥇 DeVistral 24B (9/10) - Gagnant Points forts :

  • Précision technique : Utilise “ollama API-Fehler” (minuscule, plus naturel)
  • Traduction cohérente : “handelt mit parallelen Anfragen” (formulation sophistiquée)
  • Qualité professionnelle : Traduction complète en allemand tout au long
  • Formatage : Préservation parfaite de la structure markdown

Petits problèmes : Très peu, principalement des préférences stylistiques

🥈 Mistral Small 3.1 24B (8,5/10) Points forts :

  • Fluidité naturelle en allemand
  • Bonne terminologie technique : “Ollama-API-Fehler” (tiret, style formel)
  • Cohérence de “verarbeitet parallele Anfragen”

Problèmes :

  • Formulation légèrement moins sophistiquée dans certains contextes techniques
  • Petites variations de formatage

🥉 Qwen3 14B (7/10) Points forts :

  • Préservation générale du sens
  • Structure grammaticale allemande correcte

Problèmes :

  • Certaines constructions maladroites
  • Qualité mixte en termes techniques
  • Contient “```” au début et des problèmes de formatage

Qwen3 30B (6,5/10) Défaut critique :

  • Contient de l’anglais non traduit : “This little” apparaît directement dans le texte allemand
  • Malgré la taille du modèle, montre des incohérences de traduction
  • La précision technique est présente mais la livraison est défectueuse

Qwen3 8B (5,5/10) Problèmes majeurs :

  • Sections non traduites : “This little” laissé en anglais
  • Terminologie incohérente : Utilise “RANGORDNUNG” vs standard “RANGIERUNG”
  • Mauvaise fluidité : Constructions allemandes moins naturelles
  • Montre clairement les limites de la taille du modèle plus petit

Différences clés trouvées :

  1. Traduction de l’erreur API :

    • DeVistral : ollama API-Fehler (naturel, minuscule)
    • Autres : Ollama-API-Fehler (formel, avec tiret)
  2. Demandes parallèles :

    • DeVistral : “handelt mit parallelen Anfragen” (sophistiqué)
    • Mistral/Qwen3-14B/30B : “verarbeitet parallele Anfragen” (standard)
    • Qwen3-8B : “behandelt parallele Anfragen” (moins précis)
  3. En-têtes de section :

    • La plupart : “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
    • Qwen3-8B : “RANGORDNUNG DURCH ÄHNLICHKEIT” (maladroit)
  4. Contamination anglaise :

    • Qwen3-30B & Qwen3-8B : Laisse “This little” non traduit
    • Autres : Traduit correctement en “Dieses kleine”

Gagnant : DeVistral 24B - Montre la traduction allemande la plus cohérente au niveau professionnel avec une terminologie technique sophistiquée et une conversion linguistique complète.


Hehe DeVistral :). Mais c’est une erreur d’un autre LLM.

Liens utiles