Comparación de la calidad de la traducción de páginas en Hugo - LLMs en Ollama

qwen3 8b, 14b y 30b, devstral 24b, mistral small 24b

Índice

En este test estoy comparando cómo diferentes LLMs alojados en Ollama traducen una página Hugo en inglés al alemán.

Para ver cómo Ollama se compara con otras infraestructuras locales y en la nube de LLM —vLLM, Docker Model Runner, LocalAI y proveedores en la nube— consulta LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Tres páginas que probé estaban sobre temas diferentes, tenían algunos buenos markdown con cierta estructura: encabezados, listas, tablas, enlaces, etc.

Todos estos modelos se ejecutaron en GPU de NVidia con 16 GB de VRAM, algunos de ellos se ajustaron completamente a la VRAM, otros (24b y 30b) no y se extendieron a la CPU.

No obstante, también los probé.

dos páginas - la traducción está en progreso

Los modelos de Ollama que he probado:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Después de ejecutar los prompts de traducción en todos esos modelos, le pedí a un modelo inteligente de Anthropic que analizara la calidad de las traducciones, las comparara y proporcionara métricas para cada modelo.

También he probado magistral:24b pero estaba pensando demasiado, por lo que era lento y consumía todo el contexto. Así que —no es adecuado para mi GPU.

La conclusión simple: TL;DR

El mejor es Mistral Small 3.1 24b. No se ajusta a 16 GB de VRAM, así que fue un poco lento en mi hardware.

Los dos siguientes mejores: Qwen 3 14b y Qwen 3 30b. El 14b se ajusta bien, pero el 30b es un modelo MoE, así que también es bastante rápido. En mi hardware, su velocidad fue similar.

Prueba 1: Tema filosófico

El markdown de la página del sitio web basado en Hugo sobre algún tema filosófico increíble —Descripción y ejemplos del error lógico Ad Baculum.

index.de.devstral-24b.md - Calificación: 7/10 Fortalezas:

  • Buena traducción de terminología técnica (“argumentum ad baculum Fehlschluss”)
  • Mantiene el formato y estructura adecuados de los enlaces
  • Traducción precisa de conceptos filosóficos complejos
  • Gramática y sintaxis alemanas adecuadas

Debilidades:

  • “verunstaltet” para “tainted” es algo incómodo; “getrübt” sería más natural
  • Algunas frases se sienten ligeramente rígidas o demasiado literales
  • Pequeños problemas de fluidez en ciertas oraciones

index.de.mistral-small3.1-24b.md - Calificación: 8.5/10 Fortalezas:

  • Fluidez natural del idioma alemán
  • Excelente traducción de términos técnicos
  • Buena preservación del significado original y tono
  • Gramática y estructura de oraciones adecuadas
  • Usa “getrübt” para “tainted”, lo cual es más natural

Debilidades:

  • Inconsistencias muy menores en la terminología
  • Desviaciones ocasionales leves de la estructura original

index.de.qwen3-8b.md - Calificación: 6.5/10 Fortalezas:

  • Traducción precisa de los conceptos principales
  • Manejo adecuado de términos técnicos
  • Mantiene la estructura del artículo

Debilidades:

  • Algunas frases incómodas (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Menos fluidez natural del alemán en varios pasajes
  • Algunas construcciones gramaticales se sienten forzadas
  • Palabra faltante en “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (error gramatical)

index.de.qwen3-14b.md - Calificación: 8/10 Fortalezas:

  • Fluidez natural del idioma alemán
  • Excelente manejo de terminología técnica
  • Buena preservación del significado original
  • Gramática y sintaxis adecuadas
  • Estilo coherente a lo largo del texto

Debilidades:

  • Variaciones menores en la consistencia de la terminología
  • Algunas oraciones podrían ser más concisas

index.de.qwen3-30b-a3b.md - Calificación: 7.5/10 Fortalezas:

  • Buena calidad general de la traducción
  • Expresión natural del alemán
  • Términos técnicos bien traducidos
  • Mantiene la legibilidad y el flujo
  • Buena preservación del significado

Debilidades:

  • Algunas inconsistencias menores en la elección de palabras
  • Frases ocasionalmente algo incómodas
  • Falta de artículo en el párrafo final “über das [Terrain der] Argumentation”

Ranking de Calificaciones

Archivo Puntuación de Calidad de Traducción
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Mejor Traducción: index.de.mistral-small3.1-24b.md - Fluidez más natural del alemán con excelente precisión técnica

Áreas de Mejora: La versión Qwen3-8b necesita correcciones gramaticales y una mayor naturalidad en la redacción, mientras que las demás necesitan refinamientos menores en la elección de palabras y consistencia.

Prueba 2: Traducción de la página sobre modelos Qwen3 Embedding & Reranker en Ollama.

Basado en mi análisis de las traducciones alemanas comparadas con el texto original en inglés, aquí están las calificaciones de calidad en una escala de 1 a 10:

Archivo Modelo LLM Puntuación de Calidad de Traducción Comentarios
index.de.devstral-24b.md Devstral 24B 8.5/10 Excelente traducción general con fluidez natural del alemán, terminología técnica adecuada y preservación completa de los códigos cortos de Hugo. Deducciones menores por algunas frases ligeramente incómodas.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Calidad de traducción muy alta con terminología consistente, fluidez natural del alemán y preservación perfecta del formato. Ligeramente mejor fluidez que Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Calidad mixta — contiene mezcla de inglés-alemán en el párrafo de inicio (“The [Qwen3 Embedding and Reranker models]” en lugar de completo alemán). El resto está bien traducido pero inconsistente.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Buena traducción alemana con terminología técnica adecuada y fluidez natural. Bien estructurado y coherente a lo largo del texto.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Excelente calidad de traducción con muy natural fluidez del alemán, consistencia perfecta de terminología técnica y excelente legibilidad. Mejor traducción general.

Criterios Clave de Evaluación:

Fortalezas observadas en las traducciones:

  • Preservación de códigos cortos de Hugo ({ {< ref >}} sintaxis)
  • Precisión en terminología técnica
  • Mantenimiento del formato markdown
  • Preservación de la estructura de tablas
  • Consistencia en referencias de imágenes

Diferenciadores de calidad:

  1. Consistencia del idioma — Qwen3 8B tuvo problemas de mezcla inglés-alemán
  2. Fluidez natural del alemán — Qwen3 30B logró la expresión más natural del alemán
  3. Precisión técnica — Todos los modelos manejan bien los términos técnicos
  4. Preservación del formato — Todos mantuvieron perfectamente la estructura de Hugo

Ranking por Calidad:

  1. Qwen3 30B (9.0/10) - Mejor general
  2. Mistral Small 3.1 24B (8.7/10) - Muy fuerte
  3. Devstral 24B (8.5/10) - Excelente
  4. Qwen3 14B (8.2/10) - Buena
  5. Qwen3 8B (6.5/10) - Adecuado con problemas

Los modelos más grandes (Qwen3 30B y Mistral Small 3.1 24B) produjeron las traducciones de mayor calidad, mientras que el modelo más pequeño Qwen3 8B mostró limitaciones claras en la consistencia.

Prueba 3: Reordenamiento con Ollama y modelo Qwen3 Embedding - en Go

Básicamente, es un post anterior en este sitio web: Reordenamiento de documentos de texto con Ollama y modelo Qwen3 Embedding - en Go.

Basado en mi análisis detallado de las traducciones alemanas, aquí está la evaluación comparativa:

Análisis de Calidad de Traducción (Escala 1-10)

Archivo Modelo Puntuación Evaluación Clave
index.de.devstral-24b.md DeVistral 24B 9/10 Excelente - Más consistente y profesional
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Muy Buena - Natural pero con algunas inconsistencias
index.de.qwen3-14b.md Qwen3 14B 7/10 Buena - Sólida con algunos elementos mezclados
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Aceptable - Contiene inglés no traducido
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Pobre - Varios errores de traducción

Análisis Comparativo Detallado:

🥇 DeVistral 24B (9/10) - Ganador Fortalezas:

  • Precisión Técnica: Usa “ollama API-Fehler” (minúscula, más natural)
  • Traducción Consistente: “handelt mit parallelen Anfragen” (fórmula sofisticada)
  • Calidad Profesional: Traducción completa al alemán a lo largo del texto
  • Formato: Preservación perfecta de la estructura markdown

Problemas Menores: Muy pocos, principalmente preferencias estilísticas

🥈 Mistral Small 3.1 24B (8.5/10) Fortalezas:

  • Fluidez natural del alemán
  • Buena terminología técnica: “Ollama-API-Fehler” (con guion, estilo formal)
  • Consistencia en “verarbeitet parallele Anfragen”

Problemas:

  • Ligeramente menos sofisticada en algunos contextos técnicos
  • Variaciones menores en el formato

🥉 Qwen3 14B (7/10) Fortalezas:

  • Preservación generalmente precisa del significado
  • Estructura gramatical adecuada del alemán

Problemas:

  • Algunas construcciones incómodas
  • Calidad mixta en la terminología técnica
  • Contiene “```” al inicio y problemas de formato

Qwen3 30B (6.5/10) Defecto Crítico:

  • Contiene inglés no traducido: “This little” aparece directamente en el texto alemán
  • A pesar del tamaño del modelo, muestra inconsistencias en la traducción
  • La precisión técnica está presente pero la entrega es defectuosa

Qwen3 8B (5.5/10) Problemas Mayores:

  • Secciones no traducidas: “This little” se deja en inglés
  • Terminología inconsistente: Usa “RANGORDNUNG” vs estándar “RANGIERUNG”
  • Fluidez pobre: Construcciones menos naturales del alemán
  • Muestra claramente las limitaciones del tamaño del modelo más pequeño

Diferenciadores Clave Encontrados:

  1. Traducción del Error de API:

    • DeVistral: ollama API-Fehler (natural, minúscula)
    • Otros: Ollama-API-Fehler (formal, con guion)
  2. Solicitudes Paralelas:

    • DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (estándar)
    • Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
  3. Encabezados de Sección:

    • La mayoría: “RANGIERUNG NACH ÄHNLICHKEIT” (estándar)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incómodo)
  4. Contaminación con Inglés:

    • Qwen3-30B & Qwen3-8B: Dejan “This little” sin traducir
    • Otros: Traducen adecuadamente a “Dieses kleine”

Ganador: DeVistral 24B - Muestra la traducción más consistente a nivel profesional del alemán con terminología técnica sofisticada y conversión completa del idioma.


Jeje DeVistral :). Pero eso es un error de otro LLM.

Para una comparación más amplia de Ollama con vLLM, LocalAI, Docker Model Runner y opciones en la nube —incluyendo cuándo elegir cada uno para traducciones u otras cargas de trabajo— consulta nuestro LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Enlaces útiles