Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b

Conteúdo da página

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo do inglês para o alemão. Três páginas que testei estavam sobre temas diferentes, tinham alguma marcação markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.

Todos esses modelos rodaram em GPU da NVidia com 16 GB de VRAM, alguns deles caberam completamente na VRAM, outros (24b e 30b) não e se espalharam para a CPU.

No entanto, testei esses também.

duas páginas - tradução em andamento

Os modelos do Ollama que testei:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Após executar os prompts de tradução em todos esses modelos, perguntei a um modelo inteligente da Anthropic para analisar a qualidade das traduções, comparar e fornecer métricas para cada modelo.

Também tentei magistral:24b, mas ele estava pensando demais, então foi lento e consumiu todo o contexto. Então - não é adequado para minha GPU.

Conclusão simples: TL;DR

O melhor é o Mistral Small 3.1 24b. Ele não cabe em 16 GB de VRAM, então foi um pouco lento no meu hardware.

Os dois melhores seguintes: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. Na minha hardware, suas velocidades foram semelhantes.

Teste 1: Tema filosófico

A marcação da página do site baseado em Hugo sobre algum tema filosófico incrível - descrição e exemplos do Falso Argumento Ad Baculum.

index.de.devstral-24b.md - Classificação: 7/10 Pontos fortes:

  • Boa tradução de termos técnicos (“argumentum ad baculum Fehlschluss”)
  • Mantém a formatação e estrutura correta dos links
  • Tradução precisa de conceitos filosóficos complexos
  • Gramática e sintaxe alemãs corretas

Pontos fracos:

  • “verunstaltet” para “tainted” é um pouco incômodo; “getrübt” seria mais natural
  • Algumas frases parecem um pouco rígidas ou excessivamente literais
  • Problemas menores de fluxo em certas frases

index.de.mistral-small3.1-24b.md - Classificação: 8.5/10 Pontos fortes:

  • Fluxo natural da língua alemã
  • Excelente tradução de termos técnicos
  • Boa preservação do significado original e tom
  • Gramática e estrutura de frases corretas
  • Usa “getrübt” para “tainted”, que é mais natural

Pontos fracos:

  • Inconsistências muito leves em termos
  • Desvios ocasionais da estrutura da fonte

index.de.qwen3-8b.md - Classificação: 6.5/10 Pontos fortes:

  • Tradução precisa dos conceitos principais
  • Termos técnicos bem tratados
  • Mantém a estrutura do artigo

Pontos fracos:

  • Algumas frases incômodas (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Fluxo menos natural da língua alemã em vários trechos
  • Algumas construções gramaticais parecem forçadas
  • Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)

index.de.qwen3-14b.md - Classificação: 8/10 Pontos fortes:

  • Fluxo natural da língua alemã
  • Excelente tratamento de termos técnicos
  • Boa preservação do significado original
  • Gramática e sintaxe corretas
  • Estilo consistente ao longo de todo o texto

Pontos fracos:

  • Variações menores na consistência dos termos
  • Algumas frases poderiam ser mais concisas

index.de.qwen3-30b-a3b.md - Classificação: 7.5/10 Pontos fortes:

  • Boa qualidade geral da tradução
  • Expressão natural da língua alemã
  • Termos técnicos bem traduzidos
  • Mantém a legibilidade e o fluxo
  • Boa preservação do significado

Pontos fracos:

  • Algumas inconsistências menores na escolha de palavras
  • Frases ocasionalmente um pouco incômodas
  • Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”

Classificação Geral

Arquivo Pontuação da Qualidade da Tradução
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Melhor Tradução: index.de.mistral-small3.1-24b.md - Fluxo mais natural da língua alemã com excelente precisão técnica

Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e de uma frase mais natural, enquanto os outros precisam principalmente de pequenas refinanças na escolha de palavras e consistência.

Teste 2: Tradução da página sobre os modelos Qwen3 Embedding & Reranker no Ollama.

Com base na minha análise das traduções alemãs em comparação com o texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:

Arquivo Modelo LLM Pontuação da Qualidade da Tradução Comentários
index.de.devstral-24b.md Devstral 24B 8.5/10 Excelente tradução geral com fluxo natural da língua alemã, termos técnicos apropriados e preservação completa dos códigos curtos do Hugo. Deduções menores por algumas frases um pouco incômodas.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Qualidade de tradução muito alta com terminologia consistente, fluxo natural da língua alemã e preservação perfeita da formatação. Fluxo ligeiramente melhor do que o Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Qualidade mista - contém mistura de língua inglesa-alema no parágrafo inicial (“The [Qwen3 Embedding and Reranker models]” em vez de completo alemão). O resto está bem traduzido, mas inconsistente.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Boa tradução alemã com terminologia técnica apropriada e fluxo natural. Estruturado e consistente ao longo de todo o texto.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Qualidade excelente da tradução com linguagem alemã muito natural, consistência perfeita de terminologia técnica e legibilidade excepcional. Melhor tradução geral.

Critérios Principais de Avaliação:

Pontos fortes observados nas traduções:

  • Preservação dos códigos curtos do Hugo ({ {< ref >}} sintaxe)
  • Precisão de terminologia técnica
  • Manutenção da formatação markdown
  • Preservação da estrutura de tabelas
  • Consistência nas referências de imagem

Diferenciadores de qualidade:

  1. Consistência linguística - Qwen3 8B teve problemas de mistura de língua inglesa-alema
  2. Fluxo natural da língua alemã - Qwen3 30B alcançou a expressão mais natural da língua alemã
  3. Precisão técnica - Todos os modelos lidaram bem com os termos técnicos
  4. Preservação da formatação - Todos mantiveram a estrutura do Hugo perfeitamente

Classificação por Qualidade:

  1. Qwen3 30B (9.0/10) - Melhor geral
  2. Mistral Small 3.1 24B (8.7/10) - Muito forte
  3. Devstral 24B (8.5/10) - Excelente
  4. Qwen3 14B (8.2/10) - Boa
  5. Qwen3 8B (6.5/10) - Adequado com problemas

Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras na consistência.

Teste 3: Reordenamento com Ollama e modelo Qwen3 Embedding - em Go

Basicamente, é um post anterior neste site: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:

Análise da Qualidade da Tradução (Escala de 1 a 10)

Arquivo Modelo Pontuação Avaliação Principal
index.de.devstral-24b.md DeVistral 24B 9/10 Excelente - Mais consistente e profissional
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Muito Bom - Natural, mas com algumas inconsistências
index.de.qwen3-14b.md Qwen3 14B 7/10 Bom - Sólido com alguns elementos mistos
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Razoável - Contém inglês não traduzido
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Pobre - Múltiplas falhas de tradução

Análise Comparativa Detalhada:

🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:

  • Precisão Técnica: Usa “ollama API-Fehler” (minúscula, mais natural)
  • Tradução Consistente: “handelt mit parallelen Anfragen” (fórmula sofisticada)
  • Qualidade Profissional: Tradução completa em alemão ao longo de todo o texto
  • Formatação: Preservação perfeita da estrutura markdown

Pequenos Problemas: Muito poucos, principalmente preferências estilísticas

🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:

  • Fluxo natural da língua alemã
  • Boa terminologia técnica: “Ollama-API-Fehler” (hifenizado, estilo formal)
  • Consistência em “verarbeitet parallele Anfragen”

Problemas:

  • Fórmula ligeiramente menos sofisticada em alguns contextos técnicos
  • Variações menores na formatação

🥉 Qwen3 14B (7/10) Pontos fortes:

  • Preservação geral do significado
  • Estrutura gramatical alemã correta

Problemas:

  • Algumas construções incômodas
  • Qualidade mista em terminologia técnica
  • Contém “```” no início e problemas de formatação

Qwen3 30B (6.5/10) Falha Crítica:

  • Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
  • Apesar do tamanho maior do modelo, mostra inconsistências na tradução
  • A precisão técnica está presente, mas a entrega está prejudicada

Qwen3 8B (5.5/10) Problemas Principais:

  • Seções não traduzidas: “This little” deixado em inglês
  • Terminologia inconsistente: Usa “RANGORDNUNG” vs padrão “RANGIERUNG”
  • Fluxo pobre: Construções menos naturais da língua alemã
  • Mostra claramente as limitações do tamanho do modelo menor

Diferenciadores Principais Encontrados:

  1. Tradução de Erro da API:

    • DeVistral: ollama API-Fehler (natural, minúscula)
    • Outros: Ollama-API-Fehler (formal, hifenizado)
  2. Pedidos Paralelos:

    • DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
    • Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
  3. Cabeçalhos de Seção:

    • Mais: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incômodo)
  4. Contaminação Inglesa:

    • Qwen3-30B & Qwen3-8B: Deixam “This little” sem tradução
    • Outros: Traduzem corretamente para “Dieses kleine”

Vencedor: DeVistral 24B - Mostra a tradução mais consistente de nível profissional em alemão com terminologia técnica sofisticada e conversão completa da linguagem.


Hehe DeVistral :). Mas isso é outro erro do LLM.