Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo do inglês para o alemão. Três páginas que testei estavam sobre temas diferentes, tinham alguma marcação markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.
Todos esses modelos rodaram em GPU da NVidia com 16 GB de VRAM, alguns deles caberam completamente na VRAM, outros (24b e 30b) não e se espalharam para a CPU.
No entanto, testei esses também.
Os modelos do Ollama que testei:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Após executar os prompts de tradução em todos esses modelos, perguntei a um modelo inteligente da Anthropic para analisar a qualidade das traduções, comparar e fornecer métricas para cada modelo.
Também tentei magistral:24b, mas ele estava pensando
demais, então foi lento e consumiu todo o contexto.
Então - não é adequado para minha GPU.
Conclusão simples: TL;DR
O melhor é o Mistral Small 3.1 24b. Ele não cabe em 16 GB de VRAM, então foi um pouco lento no meu hardware.
Os dois melhores seguintes: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. Na minha hardware, suas velocidades foram semelhantes.
Teste 1: Tema filosófico
A marcação da página do site baseado em Hugo sobre algum tema filosófico incrível - descrição e exemplos do Falso Argumento Ad Baculum.
index.de.devstral-24b.md - Classificação: 7/10 Pontos fortes:
- Boa tradução de termos técnicos (“argumentum ad baculum Fehlschluss”)
- Mantém a formatação e estrutura correta dos links
- Tradução precisa de conceitos filosóficos complexos
- Gramática e sintaxe alemãs corretas
Pontos fracos:
- “verunstaltet” para “tainted” é um pouco incômodo; “getrübt” seria mais natural
- Algumas frases parecem um pouco rígidas ou excessivamente literais
- Problemas menores de fluxo em certas frases
index.de.mistral-small3.1-24b.md - Classificação: 8.5/10 Pontos fortes:
- Fluxo natural da língua alemã
- Excelente tradução de termos técnicos
- Boa preservação do significado original e tom
- Gramática e estrutura de frases corretas
- Usa “getrübt” para “tainted”, que é mais natural
Pontos fracos:
- Inconsistências muito leves em termos
- Desvios ocasionais da estrutura da fonte
index.de.qwen3-8b.md - Classificação: 6.5/10 Pontos fortes:
- Tradução precisa dos conceitos principais
- Termos técnicos bem tratados
- Mantém a estrutura do artigo
Pontos fracos:
- Algumas frases incômodas (“kann sich auch in alltäglichen Interaktionen breiten”)
- Fluxo menos natural da língua alemã em vários trechos
- Algumas construções gramaticais parecem forçadas
- Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)
index.de.qwen3-14b.md - Classificação: 8/10 Pontos fortes:
- Fluxo natural da língua alemã
- Excelente tratamento de termos técnicos
- Boa preservação do significado original
- Gramática e sintaxe corretas
- Estilo consistente ao longo de todo o texto
Pontos fracos:
- Variações menores na consistência dos termos
- Algumas frases poderiam ser mais concisas
index.de.qwen3-30b-a3b.md - Classificação: 7.5/10 Pontos fortes:
- Boa qualidade geral da tradução
- Expressão natural da língua alemã
- Termos técnicos bem traduzidos
- Mantém a legibilidade e o fluxo
- Boa preservação do significado
Pontos fracos:
- Algumas inconsistências menores na escolha de palavras
- Frases ocasionalmente um pouco incômodas
- Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”
Classificação Geral
Arquivo | Pontuação da Qualidade da Tradução |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
Melhor Tradução: index.de.mistral-small3.1-24b.md
- Fluxo mais natural da língua alemã com excelente precisão técnica
Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e de uma frase mais natural, enquanto os outros precisam principalmente de pequenas refinanças na escolha de palavras e consistência.
Teste 2: Tradução da página sobre os modelos Qwen3 Embedding & Reranker no Ollama.
Com base na minha análise das traduções alemãs em comparação com o texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:
Arquivo | Modelo LLM | Pontuação da Qualidade da Tradução | Comentários |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Excelente tradução geral com fluxo natural da língua alemã, termos técnicos apropriados e preservação completa dos códigos curtos do Hugo. Deduções menores por algumas frases um pouco incômodas. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Qualidade de tradução muito alta com terminologia consistente, fluxo natural da língua alemã e preservação perfeita da formatação. Fluxo ligeiramente melhor do que o Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Qualidade mista - contém mistura de língua inglesa-alema no parágrafo inicial (“The [Qwen3 Embedding and Reranker models]” em vez de completo alemão). O resto está bem traduzido, mas inconsistente. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Boa tradução alemã com terminologia técnica apropriada e fluxo natural. Estruturado e consistente ao longo de todo o texto. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Qualidade excelente da tradução com linguagem alemã muito natural, consistência perfeita de terminologia técnica e legibilidade excepcional. Melhor tradução geral. |
Critérios Principais de Avaliação:
Pontos fortes observados nas traduções:
- Preservação dos códigos curtos do Hugo (
{ {< ref >}}
sintaxe) - Precisão de terminologia técnica
- Manutenção da formatação markdown
- Preservação da estrutura de tabelas
- Consistência nas referências de imagem
Diferenciadores de qualidade:
- Consistência linguística - Qwen3 8B teve problemas de mistura de língua inglesa-alema
- Fluxo natural da língua alemã - Qwen3 30B alcançou a expressão mais natural da língua alemã
- Precisão técnica - Todos os modelos lidaram bem com os termos técnicos
- Preservação da formatação - Todos mantiveram a estrutura do Hugo perfeitamente
Classificação por Qualidade:
- Qwen3 30B (9.0/10) - Melhor geral
- Mistral Small 3.1 24B (8.7/10) - Muito forte
- Devstral 24B (8.5/10) - Excelente
- Qwen3 14B (8.2/10) - Boa
- Qwen3 8B (6.5/10) - Adequado com problemas
Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras na consistência.
Teste 3: Reordenamento com Ollama e modelo Qwen3 Embedding - em Go
Basicamente, é um post anterior neste site: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:
Análise da Qualidade da Tradução (Escala de 1 a 10)
Arquivo | Modelo | Pontuação | Avaliação Principal |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | Excelente - Mais consistente e profissional |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Muito Bom - Natural, mas com algumas inconsistências |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Bom - Sólido com alguns elementos mistos |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Razoável - Contém inglês não traduzido |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Pobre - Múltiplas falhas de tradução |
Análise Comparativa Detalhada:
🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:
- Precisão Técnica: Usa “ollama API-Fehler” (minúscula, mais natural)
- Tradução Consistente: “handelt mit parallelen Anfragen” (fórmula sofisticada)
- Qualidade Profissional: Tradução completa em alemão ao longo de todo o texto
- Formatação: Preservação perfeita da estrutura markdown
Pequenos Problemas: Muito poucos, principalmente preferências estilísticas
🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:
- Fluxo natural da língua alemã
- Boa terminologia técnica: “Ollama-API-Fehler” (hifenizado, estilo formal)
- Consistência em “verarbeitet parallele Anfragen”
Problemas:
- Fórmula ligeiramente menos sofisticada em alguns contextos técnicos
- Variações menores na formatação
🥉 Qwen3 14B (7/10) Pontos fortes:
- Preservação geral do significado
- Estrutura gramatical alemã correta
Problemas:
- Algumas construções incômodas
- Qualidade mista em terminologia técnica
- Contém “```” no início e problemas de formatação
Qwen3 30B (6.5/10) Falha Crítica:
- Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
- Apesar do tamanho maior do modelo, mostra inconsistências na tradução
- A precisão técnica está presente, mas a entrega está prejudicada
Qwen3 8B (5.5/10) Problemas Principais:
- Seções não traduzidas: “This little” deixado em inglês
- Terminologia inconsistente: Usa “RANGORDNUNG” vs padrão “RANGIERUNG”
- Fluxo pobre: Construções menos naturais da língua alemã
- Mostra claramente as limitações do tamanho do modelo menor
Diferenciadores Principais Encontrados:
-
Tradução de Erro da API:
- DeVistral:
ollama API-Fehler
(natural, minúscula) - Outros:
Ollama-API-Fehler
(formal, hifenizado)
- DeVistral:
-
Pedidos Paralelos:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
- Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
-
Cabeçalhos de Seção:
- Mais: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incômodo)
-
Contaminação Inglesa:
- Qwen3-30B & Qwen3-8B: Deixam “This little” sem tradução
- Outros: Traduzem corretamente para “Dieses kleine”
Vencedor: DeVistral 24B - Mostra a tradução mais consistente de nível profissional em alemão com terminologia técnica sofisticada e conversão completa da linguagem.
Hehe DeVistral :). Mas isso é outro erro do LLM.
Links Úteis
- Reranking text documents with Ollama and Qwen3 Embedding model - in Go
- Ollama cheatsheet
- Qwen3 Embedding & Reranker Models on Ollama: State-of-the-Art Performance
- Install and Configure Ollama models location
- How Ollama Handles Parallel Requests
- LLMs comparison: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 and Phi - On Ollama
- Test: How Ollama is using Intel CPU Performance and Efficient Cores
- Comparing LLM Summarising Abilities