Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b

Conteúdo da página

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo em inglês para o alemão.

Para ver como o Ollama se compara com outras infraestruturas locais e em nuvem de LLM — vLLM, Docker Model Runner, LocalAI e provedores em nuvem — consulte LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Três páginas que testei abordavam temas diferentes, tinham uma boa marcação com estrutura: títulos, listas, tabelas, links, etc.

Todos esses modelos rodaram em GPU da NVidia com 16GB de VRAM, alguns deles caberam completamente na VRAM, outros (24b e 30b) não e tiveram que se espalhar para a CPU.

No entanto, testei também esses.

duas páginas - tradução em andamento

Os modelos do Ollama que testei:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Após executar os prompts de tradução em todos esses modelos, perguntei a um modelo inteligente da Anthropic para analisar a qualidade das traduções, comparar e fornecer métricas para cada modelo.

Também tentei magistral:24b, mas ele estava pensando muito, então era lento e consumia todo o contexto. Então — não é adequado para minha GPU.

Conclusão simples: TL;DR

O melhor é o Mistral Small 3.1 24b. Ele não cabe em 16GB de VRAM, então foi um pouco lento no meu hardware.

Os próximos dois melhores: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. No meu hardware, a velocidade deles foi semelhante.

Teste 1: Tópico filosófico

A marcação da página do site baseado em Hugo sobre algum tema filosófico incrível — descrição e exemplos do Falso Lógico Ad Baculum.

index.de.devstral-24b.md - Classificação: 7/10 Pontos fortes:

  • Boa tradução de termos técnicos (“argumentum ad baculum Fehlschluss”)
  • Mantém a formatação e estrutura correta dos links
  • Tradução precisa de conceitos filosóficos complexos
  • Gramática e sintaxe alemãs adequadas

Pontos fracos:

  • “verunstaltet” para “tainted” é um pouco estranho; “getrübt” seria mais natural
  • Algumas frases parecem um pouco rígidas ou literalmente excessivas
  • Problemas menores de fluxo em certas frases

index.de.mistral-small3.1-24b.md - Classificação: 8.5/10 Pontos fortes:

  • Fluxo natural da língua alemã
  • Excelente tradução de termos técnicos
  • Boa preservação do significado original e do tom
  • Gramática e estrutura de frases adequadas
  • Usa “getrübt” para “tainted”, que é mais natural

Pontos fracos:

  • Inconsistências muito leves em termos
  • Desvios ocasionais da estrutura da fonte

index.de.qwen3-8b.md - Classificação: 6.5/10 Pontos fortes:

  • Tradução precisa dos conceitos principais
  • Termos técnicos bem tratados
  • Mantém a estrutura do artigo

Pontos fracos:

  • Algumas frases desconfortáveis (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Fluxo da língua alemã menos natural em vários trechos
  • Algumas construções gramaticais parecem forçadas
  • Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)

index.de.qwen3-14b.md - Classificação: 8/10 Pontos fortes:

  • Fluxo natural da língua alemã
  • Excelente tratamento de termos técnicos
  • Boa preservação do significado original
  • Gramática e sintaxe adequadas
  • Estilo consistente ao longo de todo o texto

Pontos fracos:

  • Variações menores na consistência dos termos
  • Algumas frases poderiam ser mais concisas

index.de.qwen3-30b-a3b.md - Classificação: 7.5/10 Pontos fortes:

  • Qualidade geral da tradução boa
  • Expressão natural em alemão
  • Termos técnicos bem traduzidos
  • Mantém a legibilidade e o fluxo
  • Boa preservação do significado

Pontos fracos:

  • Algumas inconsistências leves na escolha de palavras
  • Frases ocasionalmente um pouco desconfortáveis
  • Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”

Classificações Resumidas

Arquivo Pontuação de Qualidade da Tradução
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Melhor Tradução: index.de.mistral-small3.1-24b.md - Fluxo alemão mais natural com excelente precisão técnica

Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e de uma frase mais natural, enquanto os outros precisam principalmente de pequenas refinanças na escolha de palavras e consistência.

Teste 2: Tradução da página sobre os modelos de Embedding e Reranker Qwen3 no Ollama.

Com base na minha análise das traduções alemãs comparadas ao texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:

| Arquivo | Modelo LLM | Pontuação de Qualidade da Tradução | Comentários | |– —-|———–|– ———– – ————|———-| | index.de.devstral-24b.md | Devstral 24B | 8.5/10 | Tradução excelente com fluxo natural em alemão, terminologia técnica adequada e preservação completa dos shortcodes Hugo. Deduções menores por algumas frases um pouco desconfortáveis. | | index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.7/10 | Qualidade de tradução muito alta com terminologia consistente, linguagem natural alemã e preservação perfeita da formatação. Fluxo ligeiramente melhor que o Devstral. | | index.de.qwen3-8b.md | Qwen3 8B | 6.5/10 | Qualidade mista — contém mistura de língua inglesa-alema no parágrafo inicial (“The [Qwen3 Embedding and Reranker models]” em vez de completo alemão). O resto está bem traduzido, mas inconsistente. | | index.de.qwen3-14b.md | Qwen3 14B | 8.2/10 | Boa tradução em alemão com terminologia técnica adequada e fluxo natural. Estrutura bem organizada e consistente ao longo do texto. | | index.de.qwen3-30b-a3b.md | Qwen3 30B | 9.0/10 | Qualidade de tradução excelente com linguagem alemã muito natural, consistência perfeita em termos técnicos e legibilidade excelente. Melhor tradução geral. |

Critérios Principais de Avaliação:

Pontos fortes observados nas traduções:

  • Preservação dos shortcodes Hugo ({ {< ref >}} sintaxe)
  • Precisão em termos técnicos
  • Manutenção da formatação em markdown
  • Preservação da estrutura das tabelas
  • Consistência nas referências de imagem

Diferenças de qualidade:

  1. Consistência da linguagem — Qwen3 8B teve problemas de mistura entre inglês e alemão
  2. Fluxo natural da língua alemã — Qwen3 30B alcançou a expressão alemã mais natural
  3. Precisão técnica — Todos os modelos trataram bem os termos técnicos
  4. Preservação da formatação — Todos mantiveram a estrutura do Hugo perfeitamente

Classificação por Qualidade:

  1. Qwen3 30B (9.0/10) - Melhor geral
  2. Mistral Small 3.1 24B (8.7/10) - Muito forte
  3. Devstral 24B (8.5/10) - Excelente
  4. Qwen3 14B (8.2/10) - Boa
  5. Qwen3 8B (6.5/10) - Adequada com problemas

Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras em consistência.

Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go

Basicamente, é um post anterior nesse site: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:

Análise de Qualidade da Tradução (Escala de 1 a 10)

Arquivo Modelo Pontuação Avaliação Principal
index.de.devstral-24b.md DeVistral 24B 9/10 Excelente - Mais consistente e profissional
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Muito Bom - Natural, mas algumas inconsistências
index.de.qwen3-14b.md Qwen3 14B 7/10 Bom - Sólido com alguns elementos misturados
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Razoável - Contém inglês não traduzido
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Ruim - Múltiplas falhas de tradução

Análise Comparativa Detalhada:

🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:

  • Precisão Técnica: Usa “ollama API-Fehler” (minúscula, mais natural)
  • Tradução Consistente: “handelt mit parallelen Anfragen” (frase sofisticada)
  • Qualidade Profissional: Tradução completa em alemão ao longo de todo o texto
  • Formatação: Preservação perfeita da estrutura em markdown

Problemas menores: Muito poucos, principalmente preferências estilísticas

🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:

  • Fluxo natural da língua alemã
  • Boa terminologia técnica: “Ollama-API-Fehler” (hifenhado, estilo formal)
  • “verarbeitet parallele Anfragen” consistente

Problemas:

  • Frases ligeiramente menos sofisticadas em alguns contextos técnicos
  • Variações menores na formatação

🥉 Qwen3 14B (7/10) Pontos fortes:

  • Preservação geralmente precisa do significado
  • Estrutura gramatical alemã adequada

Problemas:

  • Algumas construções desconfortáveis
  • Qualidade mista em termos técnicos
  • Contém “```” no início e problemas de formatação

Qwen3 30B (6.5/10) Falha crítica:

  • Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
  • Apesar do tamanho maior do modelo, mostra inconsistências de tradução
  • A precisão técnica está presente, mas a entrega está falha

Qwen3 8B (5.5/10) Problemas maiores:

  • Seções não traduzidas: “This little” deixado em inglês
  • Terminologia inconsistente: Usa “RANGORDNUNG” vs padrão “RANGIERUNG”
  • Fluxo pobre: Construções de língua alemã menos naturais
  • Mostra claramente as limitações do tamanho do modelo menor

Diferenciais Principais Encontrados:

  1. Tradução de Erros da API:

    • DeVistral: ollama API-Fehler (natural, minúscula)
    • Outros: Ollama-API-Fehler (formal, hifenhado)
  2. Pedidos Paralelos:

    • DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
    • Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
  3. Cabeçalhos de Seção:

    • Maioria: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incômodo)
  4. Contaminação em Inglês:

    • Qwen3-30B & Qwen3-8B: Deixam “This little” não traduzido
    • Outros: Traduzem corretamente para “Dieses kleine”

Vencedor: DeVistral 24B - Mostra a tradução mais consistente em nível profissional com terminologia técnica sofisticada e conversão completa da linguagem.


Hehe DeVistral :). Mas isso é um erro de outro LLM.

Para uma comparação mais ampla do Ollama com vLLM, LocalAI, Docker Model Runner e opções em nuvem — incluindo quando escolher cada um para tradução ou outras tarefas — veja nosso LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.