Comparaison de la qualité de la traduction des pages Hugo - LLMs sur Ollama

qwen3 8b, 14b et 30b, devstral 24b, mistral small 24b

Sommaire

Dans ce test, je suis en train de comparer comment différents LLMs hébergés sur Ollama traduisent une page Hugo en anglais vers l’allemand.

Pour voir comment Ollama se compare à d’autres infrastructures locales et en nuage LLM — vLLM, Docker Model Runner, LocalAI et fournisseurs en nuage — consultez LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Trois pages que j’ai testées portaient sur des sujets différents, avaient un joli markdown avec une certaine structure : titres, listes, tableaux, liens, etc.

Tous ces modèles ont fonctionné sur un GPU NVidia avec 16 Go de VRAM, certains d’entre eux se sont complètement adaptés à la VRAM, d’autres (24b et 30b) ne l’ont pas fait et se sont répartis sur le CPU.

Néanmoins, j’ai également testé ceux-ci.

deux pages - la traduction est en cours

Les modèles Ollama que j’ai testés :

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Après avoir exécuté des prompts de traduction sur tous ces modèles, j’ai demandé à un modèle Anthropic intelligent d’analyser la qualité des traductions, de les comparer et de fournir des métriques pour chaque modèle.

J’ai également essayé magistral:24b mais il était trop en train de « penser », donc lent et consommait tout le contexte. Donc — pas adapté à mon GPU.

La conclusion simple : TL;DR

Le meilleur est Mistral Small 3.1 24b. Il ne tient pas dans 16 Go de VRAM, donc un peu lent sur mon matériel.

Les deux suivants les plus performants : Qwen 3 14b et Qwen 3 30b. Le 14b s’adapte bien, mais le 30b est un modèle MoE, donc assez rapide également. Sur mon matériel, leur vitesse était similaire.

Test 1 : Sujet philosophique

Le markdown de la page du site web Hugo sur un sujet philosophique passionnant — la description et des exemples de la faute logique Ad Baculum.

index.de.devstral-24b.md - Note : 7/10 Points forts :

  • Bonne traduction des termes techniques (“argumentum ad baculum Fehlschluss”)
  • Maintient le formatage et la structure des liens correctement
  • Traduction précise de concepts philosophiques complexes
  • Grammaire et syntaxe allemandes correctes

Points faibles :

  • “verunstaltet” pour “tainted” est quelque peu maladroit ; “getrübt” serait plus naturel
  • Certaines phrases semblent légèrement rigides ou trop littérales
  • Petits problèmes de fluidité dans certaines phrases

index.de.mistral-small3.1-24b.md - Note : 8,5/10 Points forts :

  • Très naturel flux en allemand
  • Excellente traduction des termes techniques
  • Bonne préservation du sens et du ton d’origine
  • Grammaire et structure des phrases correctes
  • Utilise “getrübt” pour “tainted” qui est plus naturel

Points faibles :

  • Petites incohérences terminologiques
  • Déviations occasionnelles de la structure d’origine

index.de.qwen3-8b.md - Note : 6,5/10 Points forts :

  • Traduction précise des concepts principaux
  • Termes techniques correctement gérés
  • Maintient la structure de l’article

Points faibles :

  • Certaines formulations maladroites (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Moins naturel flux allemand dans plusieurs passages
  • Certaines constructions grammaticales semblent forcées
  • Mot manquant dans “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erreur grammaticale)

index.de.qwen3-14b.md - Note : 8/10 Points forts :

  • Flux naturel en allemand
  • Excellente gestion des termes techniques
  • Bonne préservation du sens d’origine
  • Grammaire et syntaxe correctes
  • Style cohérent tout au long

Points faibles :

  • Petites variations de cohérence terminologique
  • Certaines phrases pourraient être plus concises

index.de.qwen3-30b-a3b.md - Note : 7,5/10 Points forts :

  • Bonne qualité globale de la traduction
  • Expression naturelle en allemand
  • Termes techniques bien traduits
  • Maintient la lisibilité et le flux
  • Bonne préservation du sens

Points faibles :

  • Quelques petites incohérences dans le choix des mots
  • Formulations occasionnellement un peu maladroites
  • Article manquant dans le paragraphe final “über das [Terrain der] Argumentation”

Classement des résultats

Fichier Score de qualité de la traduction
index.de.mistral-small3.1-24b.md 8,5/10
index.de.qwen3-14b.md 8,0/10
index.de.qwen3-30b-a3b.md 7,5/10
index.de.devstral-24b.md 7,0/10
index.de.qwen3-8b.md 6,5/10

Meilleure traduction : index.de.mistral-small3.1-24b.md - Flux allemand le plus naturel avec une précision technique excellente

Domaines d’amélioration : La version Qwen3-8b nécessite des corrections grammaticales et une formulation plus naturelle, tandis que les autres nécessitent principalement des améliorations mineures en termes de choix des mots et de cohérence.

Test 2 : Traduction de la page sur les modèles Qwen3 Embedding & Reranker sur Ollama.

D’après mon analyse des traductions allemandes par rapport au texte anglais original, voici les notes de qualité sur une échelle de 1 à 10 :

Fichier Modèle LLM Score de qualité de la traduction Commentaires
index.de.devstral-24b.md Devstral 24B 8,5/10 Très bonne traduction globale avec un flux naturel en allemand, des termes techniques corrects et une préservation complète des codes Hugo. Petites déductions pour certaines formulations légèrement maladroites.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8,7/10 Très haute qualité de la traduction avec une terminologie cohérente, un allemand naturel et une préservation parfaite du formatage. Légèrement meilleur flux que Devstral.
index.de.qwen3-8b.md Qwen3 8B 6,5/10 Qualité mixte — contient un mélange anglais-allemand dans le paragraphe d’ouverture (“The [Qwen3 Embedding and Reranker models]” au lieu de l’allemand complet). Le reste est bien traduit mais incohérent.
index.de.qwen3-14b.md Qwen3 14B 8,2/10 Bonne traduction allemande avec des termes techniques corrects et un flux naturel. Bien structurée et cohérente.
index.de.qwen3-30b-a3b.md Qwen3 30B 9,0/10 Excellente qualité de traduction avec un allemand très naturel, une cohérence parfaite des termes techniques et une excellente lisibilité. Meilleure traduction globale.

Critères d’évaluation clés :

Points forts observés dans les traductions :

  • Préservation des codes Hugo ({ {< ref >}} syntaxe)
  • Précision des termes techniques
  • Maintien du formatage markdown
  • Préservation de la structure des tableaux
  • Cohérence des références d’images

Critères de différenciation de la qualité :

  1. Consistance linguistique - Qwen3 8B avait des problèmes de mélange anglais-allemand
  2. Flux naturel allemand - Qwen3 30B a atteint l’expression allemande la plus naturelle
  3. Précision technique - Tous les modèles ont bien géré les termes techniques
  4. Préservation du formatage - Tous ont préservé parfaitement la structure Hugo

Classement par qualité :

  1. Qwen3 30B (9,0/10) - Meilleure globalement
  2. Mistral Small 3.1 24B (8,7/10) - Très forte
  3. Devstral 24B (8,5/10) - Excellente
  4. Qwen3 14B (8,2/10) - Bonne
  5. Qwen3 8B (6,5/10) - Adequate avec des problèmes

Les modèles plus grands (Qwen3 30B et Mistral Small 3.1 24B) ont produit les traductions de meilleure qualité, tandis que le modèle plus petit Qwen3 8B a montré des limites claires en matière de cohérence.

Test 3 : Reranking avec Ollama et Qwen3 Embedding model - en Go

En fait, c’est un article précédent sur ce site web : Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

D’après mon analyse détaillée des traductions allemandes, voici l’évaluation comparative :

Analyse de la qualité de la traduction (échelle 1-10)

Fichier Modèle Score Évaluation clé
index.de.devstral-24b.md DeVistral 24B 9/10 Excellent - Le plus consistant et professionnel
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8,5/10 Très bon - Naturel mais quelques incohérences
index.de.qwen3-14b.md Qwen3 14B 7/10 Bon - Solide avec certains éléments mixtes
index.de.qwen3-30b-a3b.md Qwen3 30B 6,5/10 Moyen - Contient de l’anglais non traduit
index.de.qwen3-8b.md Qwen3 8B 5,5/10 Mauvais - Plusieurs échecs de traduction

Analyse comparative détaillée :

🥇 DeVistral 24B (9/10) - Gagnant Points forts :

  • Précision technique : Utilise “ollama API-Fehler” (minuscule, plus naturel)
  • Traduction cohérente : “handelt mit parallelen Anfragen” (formulation sophistiquée)
  • Qualité professionnelle : Traduction allemande complète tout au long
  • Formatage : Préservation parfaite de la structure markdown

Petits problèmes : Très peu, principalement des préférences stylistiques

🥈 Mistral Small 3.1 24B (8,5/10) Points forts :

  • Flux naturel en allemand
  • Bonne terminologie technique : “Ollama-API-Fehler” (tireté, style formel)
  • Consistance “verarbeitet parallele Anfragen”

Problèmes :

  • Formulation légèrement moins sophistiquée dans certains contextes techniques
  • Petites variations de formatage

🥉 Qwen3 14B (7/10) Points forts :

  • Signification généralement précise
  • Structure grammaticale allemande correcte

Problèmes :

  • Certaines constructions maladroites
  • Qualité mixte dans la terminologie technique
  • Contient “```” au début et des problèmes de formatage

Qwen3 30B (6,5/10) Défaut critique :

  • Contient de l’anglais non traduit : “This little” apparaît directement dans le texte allemand
  • Malgré la taille du modèle plus grande, montre des incohérences de traduction
  • La précision technique est présente mais l’expression est défectueuse

Qwen3 8B (5,5/10) Problèmes majeurs :

  • Sections non traduites : “This little” laissé en anglais
  • Terminologie incohérente : Utilise “RANGORDNUNG” vs standard “RANGIERUNG”
  • Mauvais flux : Moins naturelles constructions allemandes
  • Montre clairement les limites de la taille du modèle plus petit

Différences clés trouvées :

  1. Traduction de l’erreur API :

    • DeVistral : ollama API-Fehler (naturel, minuscule)
    • Autres : Ollama-API-Fehler (formel, tireté)
  2. Demandes parallèles :

    • DeVistral : “handelt mit parallelen Anfragen” (sophistiqué)
    • Mistral/Qwen3-14B/30B : “verarbeitet parallele Anfragen” (standard)
    • Qwen3-8B : “behandelt parallele Anfragen” (moins précis)
  3. En-têtes de section :

    • La plupart : “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
    • Qwen3-8B : “RANGORDNUNG DURCH ÄHNLICHKEIT” (awkward)
  4. Contamination en anglais :

    • Qwen3-30B & Qwen3-8B : Laisse “This little” non traduit
    • Autres : Traduit correctement à “Dieses kleine”

Gagnant : DeVistral 24B - Montre la traduction allemande la plus cohérente au niveau professionnel avec une terminologie technique sophistiquée et une conversion linguistique complète.


Hehe DeVistral :). Mais c’est une erreur d’un autre LLM.

Pour une comparaison plus large d’Ollama avec vLLM, LocalAI, Docker Model Runner et les options en nuage — y compris quand choisir chacun pour la traduction ou d’autres tâches — consultez notre LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Liens utiles