Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo em inglês para o alemão.
Para ver como o Ollama se compara com outras infraestruturas locais e em nuvem de LLM — vLLM, Docker Model Runner, LocalAI e provedores em nuvem — consulte LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Três páginas que testei abordavam temas diferentes, tinham uma boa marcação com estrutura: títulos, listas, tabelas, links, etc.
Todos esses modelos rodaram em GPU da NVidia com 16GB de VRAM, alguns deles caberam completamente na VRAM, outros (24b e 30b) não e tiveram que se espalhar para a CPU.
No entanto, testei também esses.

Os modelos do Ollama que testei:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Após executar os prompts de tradução em todos esses modelos, perguntei a um modelo inteligente da Anthropic para analisar a qualidade das traduções, comparar e fornecer métricas para cada modelo.
Também tentei magistral:24b, mas ele estava pensando muito, então era lento e consumia todo o contexto.
Então — não é adequado para minha GPU.
Conclusão simples: TL;DR
O melhor é o Mistral Small 3.1 24b. Ele não cabe em 16GB de VRAM, então foi um pouco lento no meu hardware.
Os próximos dois melhores: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. No meu hardware, a velocidade deles foi semelhante.
Teste 1: Tópico filosófico
A marcação da página do site baseado em Hugo sobre algum tema filosófico incrível — descrição e exemplos do Falso Lógico Ad Baculum.
index.de.devstral-24b.md - Classificação: 7/10 Pontos fortes:
- Boa tradução de termos técnicos (“argumentum ad baculum Fehlschluss”)
- Mantém a formatação e estrutura correta dos links
- Tradução precisa de conceitos filosóficos complexos
- Gramática e sintaxe alemãs adequadas
Pontos fracos:
- “verunstaltet” para “tainted” é um pouco estranho; “getrübt” seria mais natural
- Algumas frases parecem um pouco rígidas ou literalmente excessivas
- Problemas menores de fluxo em certas frases
index.de.mistral-small3.1-24b.md - Classificação: 8.5/10 Pontos fortes:
- Fluxo natural da língua alemã
- Excelente tradução de termos técnicos
- Boa preservação do significado original e do tom
- Gramática e estrutura de frases adequadas
- Usa “getrübt” para “tainted”, que é mais natural
Pontos fracos:
- Inconsistências muito leves em termos
- Desvios ocasionais da estrutura da fonte
index.de.qwen3-8b.md - Classificação: 6.5/10 Pontos fortes:
- Tradução precisa dos conceitos principais
- Termos técnicos bem tratados
- Mantém a estrutura do artigo
Pontos fracos:
- Algumas frases desconfortáveis (“kann sich auch in alltäglichen Interaktionen breiten”)
- Fluxo da língua alemã menos natural em vários trechos
- Algumas construções gramaticais parecem forçadas
- Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)
index.de.qwen3-14b.md - Classificação: 8/10 Pontos fortes:
- Fluxo natural da língua alemã
- Excelente tratamento de termos técnicos
- Boa preservação do significado original
- Gramática e sintaxe adequadas
- Estilo consistente ao longo de todo o texto
Pontos fracos:
- Variações menores na consistência dos termos
- Algumas frases poderiam ser mais concisas
index.de.qwen3-30b-a3b.md - Classificação: 7.5/10 Pontos fortes:
- Qualidade geral da tradução boa
- Expressão natural em alemão
- Termos técnicos bem traduzidos
- Mantém a legibilidade e o fluxo
- Boa preservação do significado
Pontos fracos:
- Algumas inconsistências leves na escolha de palavras
- Frases ocasionalmente um pouco desconfortáveis
- Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”
Classificações Resumidas
| Arquivo | Pontuação de Qualidade da Tradução |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
Melhor Tradução: index.de.mistral-small3.1-24b.md - Fluxo alemão mais natural com excelente precisão técnica
Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e de uma frase mais natural, enquanto os outros precisam principalmente de pequenas refinanças na escolha de palavras e consistência.
Teste 2: Tradução da página sobre os modelos de Embedding e Reranker Qwen3 no Ollama.
Com base na minha análise das traduções alemãs comparadas ao texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:
| Arquivo | Modelo LLM | Pontuação de Qualidade da Tradução | Comentários |
|– —-|———–|– ———– – ————|———-|
| index.de.devstral-24b.md | Devstral 24B | 8.5/10 | Tradução excelente com fluxo natural em alemão, terminologia técnica adequada e preservação completa dos shortcodes Hugo. Deduções menores por algumas frases um pouco desconfortáveis. |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.7/10 | Qualidade de tradução muito alta com terminologia consistente, linguagem natural alemã e preservação perfeita da formatação. Fluxo ligeiramente melhor que o Devstral. |
| index.de.qwen3-8b.md | Qwen3 8B | 6.5/10 | Qualidade mista — contém mistura de língua inglesa-alema no parágrafo inicial (“The [Qwen3 Embedding and Reranker models]” em vez de completo alemão). O resto está bem traduzido, mas inconsistente. |
| index.de.qwen3-14b.md | Qwen3 14B | 8.2/10 | Boa tradução em alemão com terminologia técnica adequada e fluxo natural. Estrutura bem organizada e consistente ao longo do texto. |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 9.0/10 | Qualidade de tradução excelente com linguagem alemã muito natural, consistência perfeita em termos técnicos e legibilidade excelente. Melhor tradução geral. |
Critérios Principais de Avaliação:
Pontos fortes observados nas traduções:
- Preservação dos shortcodes Hugo (
{ {< ref >}}sintaxe) - Precisão em termos técnicos
- Manutenção da formatação em markdown
- Preservação da estrutura das tabelas
- Consistência nas referências de imagem
Diferenças de qualidade:
- Consistência da linguagem — Qwen3 8B teve problemas de mistura entre inglês e alemão
- Fluxo natural da língua alemã — Qwen3 30B alcançou a expressão alemã mais natural
- Precisão técnica — Todos os modelos trataram bem os termos técnicos
- Preservação da formatação — Todos mantiveram a estrutura do Hugo perfeitamente
Classificação por Qualidade:
- Qwen3 30B (9.0/10) - Melhor geral
- Mistral Small 3.1 24B (8.7/10) - Muito forte
- Devstral 24B (8.5/10) - Excelente
- Qwen3 14B (8.2/10) - Boa
- Qwen3 8B (6.5/10) - Adequada com problemas
Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras em consistência.
Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go
Basicamente, é um post anterior nesse site: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:
Análise de Qualidade da Tradução (Escala de 1 a 10)
| Arquivo | Modelo | Pontuação | Avaliação Principal |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Excelente - Mais consistente e profissional |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Muito Bom - Natural, mas algumas inconsistências |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Bom - Sólido com alguns elementos misturados |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Razoável - Contém inglês não traduzido |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Ruim - Múltiplas falhas de tradução |
Análise Comparativa Detalhada:
🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:
- Precisão Técnica: Usa “ollama API-Fehler” (minúscula, mais natural)
- Tradução Consistente: “handelt mit parallelen Anfragen” (frase sofisticada)
- Qualidade Profissional: Tradução completa em alemão ao longo de todo o texto
- Formatação: Preservação perfeita da estrutura em markdown
Problemas menores: Muito poucos, principalmente preferências estilísticas
🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:
- Fluxo natural da língua alemã
- Boa terminologia técnica: “Ollama-API-Fehler” (hifenhado, estilo formal)
- “verarbeitet parallele Anfragen” consistente
Problemas:
- Frases ligeiramente menos sofisticadas em alguns contextos técnicos
- Variações menores na formatação
🥉 Qwen3 14B (7/10) Pontos fortes:
- Preservação geralmente precisa do significado
- Estrutura gramatical alemã adequada
Problemas:
- Algumas construções desconfortáveis
- Qualidade mista em termos técnicos
- Contém “```” no início e problemas de formatação
Qwen3 30B (6.5/10) Falha crítica:
- Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
- Apesar do tamanho maior do modelo, mostra inconsistências de tradução
- A precisão técnica está presente, mas a entrega está falha
Qwen3 8B (5.5/10) Problemas maiores:
- Seções não traduzidas: “This little” deixado em inglês
- Terminologia inconsistente: Usa “RANGORDNUNG” vs padrão “RANGIERUNG”
- Fluxo pobre: Construções de língua alemã menos naturais
- Mostra claramente as limitações do tamanho do modelo menor
Diferenciais Principais Encontrados:
-
Tradução de Erros da API:
- DeVistral:
ollama API-Fehler(natural, minúscula) - Outros:
Ollama-API-Fehler(formal, hifenhado)
- DeVistral:
-
Pedidos Paralelos:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
- Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
-
Cabeçalhos de Seção:
- Maioria: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incômodo)
-
Contaminação em Inglês:
- Qwen3-30B & Qwen3-8B: Deixam “This little” não traduzido
- Outros: Traduzem corretamente para “Dieses kleine”
Vencedor: DeVistral 24B - Mostra a tradução mais consistente em nível profissional com terminologia técnica sofisticada e conversão completa da linguagem.
Hehe DeVistral :). Mas isso é um erro de outro LLM.
Para uma comparação mais ampla do Ollama com vLLM, LocalAI, Docker Model Runner e opções em nuvem — incluindo quando escolher cada um para tradução ou outras tarefas — veja nosso LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.