¿Cuál es el mejor LLM para la traducción de textos en OLLAMA?

El mejor LLM para la traducción de texto en OLLAMA es Mistral small 3.1 24b.

¿Puedo ejecutar estos modelos de traducción en otros backends distintos de Ollama?

Sí. La guía de alojamiento de LLM compara Ollama con vLLM, LocalAI, Docker Model Runner y APIs en la nube para que puedas elegir el backend adecuado para tu configuración.

Comparación de la calidad de la traducción de páginas en Hugo - LLMs en Ollama

Q: ¿Dónde puedo comparar Ollama con otras opciones de alojamiento de modelos de lenguaje grande?

Nuestra visión de la alojamiento de LLM compara Ollama con vLLM, Docker Model Runner, LocalAI y proveedores en la nube, incluyendo consideraciones de costo e infraestructura.

qwen3 8b, 14b y 30b, devstral 24b, mistral small 24b

Índice

En este test estoy comparando cómo diferentes LLMs alojados en Ollama traducen una página Hugo en inglés al alemán.

Para ver cómo Ollama se compara con otras infraestructuras locales y en la nube de LLM —vLLM, Docker Model Runner, LocalAI y proveedores en la nube— consulta LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Tres páginas que probé estaban sobre temas diferentes, tenían algunos buenos markdown con cierta estructura: encabezados, listas, tablas, enlaces, etc.

Todos estos modelos se ejecutaron en GPU de NVidia con 16 GB de VRAM, algunos de ellos se ajustaron completamente a la VRAM, otros (24b y 30b) no y se extendieron a la CPU.

No obstante, también los probé.

dos páginas - la traducción está en progreso

Los modelos de Ollama que he probado:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Después de ejecutar los prompts de traducción en todos esos modelos, le pedí a un modelo inteligente de Anthropic que analizara la calidad de las traducciones, las comparara y proporcionara métricas para cada modelo.

También he probado magistral:24b pero estaba pensando demasiado, por lo que era lento y consumía todo el contexto. Así que —no es adecuado para mi GPU.

La conclusión simple: TL;DR

El mejor es Mistral Small 3.1 24b. No se ajusta a 16 GB de VRAM, así que fue un poco lento en mi hardware.

Los dos siguientes mejores: Qwen 3 14b y Qwen 3 30b. El 14b se ajusta bien, pero el 30b es un modelo MoE, así que también es bastante rápido. En mi hardware, su velocidad fue similar.

Prueba 1: Tema filosófico

El markdown de la página del sitio web basado en Hugo sobre algún tema filosófico increíble —Descripción y ejemplos del error lógico Ad Baculum.

index.de.devstral-24b.md - Calificación: 7/10 Fortalezas:

Buena traducción de terminología técnica (“argumentum ad baculum Fehlschluss”)
Mantiene el formato y estructura adecuados de los enlaces
Traducción precisa de conceptos filosóficos complejos
Gramática y sintaxis alemanas adecuadas

Debilidades:

“verunstaltet” para “tainted” es algo incómodo; “getrübt” sería más natural
Algunas frases se sienten ligeramente rígidas o demasiado literales
Pequeños problemas de fluidez en ciertas oraciones

index.de.mistral-small3.1-24b.md - Calificación: 8.5/10 Fortalezas:

Fluidez natural del idioma alemán
Excelente traducción de términos técnicos
Buena preservación del significado original y tono
Gramática y estructura de oraciones adecuadas
Usa “getrübt” para “tainted”, lo cual es más natural

Debilidades:

Inconsistencias muy menores en la terminología
Desviaciones ocasionales leves de la estructura original

index.de.qwen3-8b.md - Calificación: 6.5/10 Fortalezas:

Traducción precisa de los conceptos principales
Manejo adecuado de términos técnicos
Mantiene la estructura del artículo

Debilidades:

Algunas frases incómodas (“kann sich auch in alltäglichen Interaktionen breiten”)
Menos fluidez natural del alemán en varios pasajes
Algunas construcciones gramaticales se sienten forzadas
Palabra faltante en “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (error gramatical)

index.de.qwen3-14b.md - Calificación: 8/10 Fortalezas:

Fluidez natural del idioma alemán
Excelente manejo de terminología técnica
Buena preservación del significado original
Gramática y sintaxis adecuadas
Estilo coherente a lo largo del texto

Debilidades:

Variaciones menores en la consistencia de la terminología
Algunas oraciones podrían ser más concisas

index.de.qwen3-30b-a3b.md - Calificación: 7.5/10 Fortalezas:

Buena calidad general de la traducción
Expresión natural del alemán
Términos técnicos bien traducidos
Mantiene la legibilidad y el flujo
Buena preservación del significado

Debilidades:

Algunas inconsistencias menores en la elección de palabras
Frases ocasionalmente algo incómodas
Falta de artículo en el párrafo final “über das [Terrain der] Argumentation”

Ranking de Calificaciones

Archivo	Puntuación de Calidad de Traducción
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Mejor Traducción: index.de.mistral-small3.1-24b.md - Fluidez más natural del alemán con excelente precisión técnica

Áreas de Mejora: La versión Qwen3-8b necesita correcciones gramaticales y una mayor naturalidad en la redacción, mientras que las demás necesitan refinamientos menores en la elección de palabras y consistencia.

Prueba 2: Traducción de la página sobre modelos Qwen3 Embedding & Reranker en Ollama.

Basado en mi análisis de las traducciones alemanas comparadas con el texto original en inglés, aquí están las calificaciones de calidad en una escala de 1 a 10:

Archivo	Modelo LLM	Puntuación de Calidad de Traducción	Comentarios
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Excelente traducción general con fluidez natural del alemán, terminología técnica adecuada y preservación completa de los códigos cortos de Hugo. Deducciones menores por algunas frases ligeramente incómodas.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Calidad de traducción muy alta con terminología consistente, fluidez natural del alemán y preservación perfecta del formato. Ligeramente mejor fluidez que Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Calidad mixta — contiene mezcla de inglés-alemán en el párrafo de inicio (“The [Qwen3 Embedding and Reranker models]” en lugar de completo alemán). El resto está bien traducido pero inconsistente.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Buena traducción alemana con terminología técnica adecuada y fluidez natural. Bien estructurado y coherente a lo largo del texto.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Excelente calidad de traducción con muy natural fluidez del alemán, consistencia perfecta de terminología técnica y excelente legibilidad. Mejor traducción general.

Criterios Clave de Evaluación:

Fortalezas observadas en las traducciones:

Preservación de códigos cortos de Hugo ({ {< ref >}} sintaxis)
Precisión en terminología técnica
Mantenimiento del formato markdown
Preservación de la estructura de tablas
Consistencia en referencias de imágenes

Diferenciadores de calidad:

Consistencia del idioma — Qwen3 8B tuvo problemas de mezcla inglés-alemán
Fluidez natural del alemán — Qwen3 30B logró la expresión más natural del alemán
Precisión técnica — Todos los modelos manejan bien los términos técnicos
Preservación del formato — Todos mantuvieron perfectamente la estructura de Hugo

Ranking por Calidad:

Qwen3 30B (9.0/10) - Mejor general
Mistral Small 3.1 24B (8.7/10) - Muy fuerte
Devstral 24B (8.5/10) - Excelente
Qwen3 14B (8.2/10) - Buena
Qwen3 8B (6.5/10) - Adecuado con problemas

Los modelos más grandes (Qwen3 30B y Mistral Small 3.1 24B) produjeron las traducciones de mayor calidad, mientras que el modelo más pequeño Qwen3 8B mostró limitaciones claras en la consistencia.

Prueba 3: Reordenamiento con Ollama y modelo Qwen3 Embedding - en Go

Básicamente, es un post anterior en este sitio web: Reordenamiento de documentos de texto con Ollama y modelo Qwen3 Embedding - en Go.

Basado en mi análisis detallado de las traducciones alemanas, aquí está la evaluación comparativa:

Análisis de Calidad de Traducción (Escala 1-10)

Archivo	Modelo	Puntuación	Evaluación Clave
index.de.devstral-24b.md	DeVistral 24B	9/10	Excelente - Más consistente y profesional
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Muy Buena - Natural pero con algunas inconsistencias
index.de.qwen3-14b.md	Qwen3 14B	7/10	Buena - Sólida con algunos elementos mezclados
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Aceptable - Contiene inglés no traducido
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Pobre - Varios errores de traducción

Análisis Comparativo Detallado:

🥇 DeVistral 24B (9/10) - Ganador Fortalezas:

Precisión Técnica: Usa “ollama API-Fehler” (minúscula, más natural)
Traducción Consistente: “handelt mit parallelen Anfragen” (fórmula sofisticada)
Calidad Profesional: Traducción completa al alemán a lo largo del texto
Formato: Preservación perfecta de la estructura markdown

Problemas Menores: Muy pocos, principalmente preferencias estilísticas

🥈 Mistral Small 3.1 24B (8.5/10) Fortalezas:

Fluidez natural del alemán
Buena terminología técnica: “Ollama-API-Fehler” (con guion, estilo formal)
Consistencia en “verarbeitet parallele Anfragen”

Problemas:

Ligeramente menos sofisticada en algunos contextos técnicos
Variaciones menores en el formato

🥉 Qwen3 14B (7/10) Fortalezas:

Preservación generalmente precisa del significado
Estructura gramatical adecuada del alemán

Problemas:

Algunas construcciones incómodas
Calidad mixta en la terminología técnica
Contiene “```” al inicio y problemas de formato

Qwen3 30B (6.5/10) Defecto Crítico:

Contiene inglés no traducido: “This little” aparece directamente en el texto alemán
A pesar del tamaño del modelo, muestra inconsistencias en la traducción
La precisión técnica está presente pero la entrega es defectuosa

Qwen3 8B (5.5/10) Problemas Mayores:

Secciones no traducidas: “This little” se deja en inglés
Terminología inconsistente: Usa “RANGORDNUNG” vs estándar “RANGIERUNG”
Fluidez pobre: Construcciones menos naturales del alemán
Muestra claramente las limitaciones del tamaño del modelo más pequeño

Diferenciadores Clave Encontrados:

Traducción del Error de API:
- DeVistral: ollama API-Fehler (natural, minúscula)
- Otros: Ollama-API-Fehler (formal, con guion)
Solicitudes Paralelas:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (estándar)
- Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
Encabezados de Sección:
- La mayoría: “RANGIERUNG NACH ÄHNLICHKEIT” (estándar)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incómodo)
Contaminación con Inglés:
- Qwen3-30B & Qwen3-8B: Dejan “This little” sin traducir
- Otros: Traducen adecuadamente a “Dieses kleine”

Ganador: DeVistral 24B - Muestra la traducción más consistente a nivel profesional del alemán con terminología técnica sofisticada y conversión completa del idioma.

Jeje DeVistral :). Pero eso es un error de otro LLM.

Para una comparación más amplia de Ollama con vLLM, LocalAI, Docker Model Runner y opciones en la nube —incluyendo cuándo elegir cada uno para traducciones u otras cargas de trabajo— consulta nuestro LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

La conclusión simple: TL;DR

Prueba 1: Tema filosófico

Prueba 2: Traducción de la página sobre modelos Qwen3 Embedding & Reranker en Ollama.

Prueba 3: Reordenamiento con Ollama y modelo Qwen3 Embedding - en Go

Enlaces útiles