Qual é o melhor LLM para tradução de texto no OLLAMA?

O melhor LLM para tradução de texto no OLLAMA é o Mistral small 3.1 24b.

Em qual lugar posso comparar o Ollama com outras opções de hospedagem de LLM?

Nosso visão geral de hospedagem de LLM compara o Ollama com o vLLM, Docker Model Runner, LocalAI e provedores de nuvem, incluindo trade-offs de custo e infraestrutura.

Posso executar esses modelos de tradução em outros backends além do Ollama?

Sim. O guia de Hospedagem de LLM compara o Ollama com o vLLM, LocalAI, Docker Model Runner e APIs em nuvem, para que você possa escolher o backend adequado para sua configuração.

Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b

Conteúdo da página

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo em inglês para o alemão.

Para ver como o Ollama se compara com outras infraestruturas locais e em nuvem de LLM — vLLM, Docker Model Runner, LocalAI e provedores em nuvem — consulte LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Três páginas que testei abordavam temas diferentes, tinham uma boa marcação com estrutura: títulos, listas, tabelas, links, etc.

Todos esses modelos rodaram em GPU da NVidia com 16GB de VRAM, alguns deles caberam completamente na VRAM, outros (24b e 30b) não e tiveram que se espalhar para a CPU.

No entanto, testei também esses.

duas páginas - tradução em andamento

Os modelos do Ollama que testei:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Após executar os prompts de tradução em todos esses modelos, perguntei a um modelo inteligente da Anthropic para analisar a qualidade das traduções, comparar e fornecer métricas para cada modelo.

Também tentei magistral:24b, mas ele estava pensando muito, então era lento e consumia todo o contexto. Então — não é adequado para minha GPU.

Conclusão simples: TL;DR

O melhor é o Mistral Small 3.1 24b. Ele não cabe em 16GB de VRAM, então foi um pouco lento no meu hardware.

Os próximos dois melhores: Qwen 3 14b e Qwen 3 30b. O 14b se encaixa bem, mas o 30b é um modelo MoE, então também é bastante rápido. No meu hardware, a velocidade deles foi semelhante.

Teste 1: Tópico filosófico

A marcação da página do site baseado em Hugo sobre algum tema filosófico incrível — descrição e exemplos do Falso Lógico Ad Baculum.

index.de.devstral-24b.md - Classificação: 7/10 Pontos fortes:

Boa tradução de termos técnicos (“argumentum ad baculum Fehlschluss”)
Mantém a formatação e estrutura correta dos links
Tradução precisa de conceitos filosóficos complexos
Gramática e sintaxe alemãs adequadas

Pontos fracos:

“verunstaltet” para “tainted” é um pouco estranho; “getrübt” seria mais natural
Algumas frases parecem um pouco rígidas ou literalmente excessivas
Problemas menores de fluxo em certas frases

index.de.mistral-small3.1-24b.md - Classificação: 8.5/10 Pontos fortes:

Fluxo natural da língua alemã
Excelente tradução de termos técnicos
Boa preservação do significado original e do tom
Gramática e estrutura de frases adequadas
Usa “getrübt” para “tainted”, que é mais natural

Pontos fracos:

Inconsistências muito leves em termos
Desvios ocasionais da estrutura da fonte

index.de.qwen3-8b.md - Classificação: 6.5/10 Pontos fortes:

Tradução precisa dos conceitos principais
Termos técnicos bem tratados
Mantém a estrutura do artigo

Pontos fracos:

Algumas frases desconfortáveis (“kann sich auch in alltäglichen Interaktionen breiten”)
Fluxo da língua alemã menos natural em vários trechos
Algumas construções gramaticais parecem forçadas
Palavra faltando em “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (erro gramatical)

index.de.qwen3-14b.md - Classificação: 8/10 Pontos fortes:

Fluxo natural da língua alemã
Excelente tratamento de termos técnicos
Boa preservação do significado original
Gramática e sintaxe adequadas
Estilo consistente ao longo de todo o texto

Pontos fracos:

Variações menores na consistência dos termos
Algumas frases poderiam ser mais concisas

index.de.qwen3-30b-a3b.md - Classificação: 7.5/10 Pontos fortes:

Qualidade geral da tradução boa
Expressão natural em alemão
Termos técnicos bem traduzidos
Mantém a legibilidade e o fluxo
Boa preservação do significado

Pontos fracos:

Algumas inconsistências leves na escolha de palavras
Frases ocasionalmente um pouco desconfortáveis
Artigo faltando no parágrafo final “über das [Terrain der] Argumentation”

Classificações Resumidas

Arquivo	Pontuação de Qualidade da Tradução
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Melhor Tradução: index.de.mistral-small3.1-24b.md - Fluxo alemão mais natural com excelente precisão técnica

Áreas para Melhoria: A versão Qwen3-8b precisa de correções gramaticais e de uma frase mais natural, enquanto os outros precisam principalmente de pequenas refinanças na escolha de palavras e consistência.

Teste 2: Tradução da página sobre os modelos de Embedding e Reranker Qwen3 no Ollama.

Com base na minha análise das traduções alemãs comparadas ao texto original em inglês, aqui estão as classificações de qualidade em uma escala de 1 a 10:

| Arquivo | Modelo LLM | Pontuação de Qualidade da Tradução | Comentários | |– —-|———–|– ———– – ————|———-| | index.de.devstral-24b.md | Devstral 24B | 8.5/10 | Tradução excelente com fluxo natural em alemão, terminologia técnica adequada e preservação completa dos shortcodes Hugo. Deduções menores por algumas frases um pouco desconfortáveis. | | index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.7/10 | Qualidade de tradução muito alta com terminologia consistente, linguagem natural alemã e preservação perfeita da formatação. Fluxo ligeiramente melhor que o Devstral. | | index.de.qwen3-8b.md | Qwen3 8B | 6.5/10 | Qualidade mista — contém mistura de língua inglesa-alema no parágrafo inicial (“The [Qwen3 Embedding and Reranker models]” em vez de completo alemão). O resto está bem traduzido, mas inconsistente. | | index.de.qwen3-14b.md | Qwen3 14B | 8.2/10 | Boa tradução em alemão com terminologia técnica adequada e fluxo natural. Estrutura bem organizada e consistente ao longo do texto. | | index.de.qwen3-30b-a3b.md | Qwen3 30B | 9.0/10 | Qualidade de tradução excelente com linguagem alemã muito natural, consistência perfeita em termos técnicos e legibilidade excelente. Melhor tradução geral. |

Critérios Principais de Avaliação:

Pontos fortes observados nas traduções:

Preservação dos shortcodes Hugo ({ {< ref >}} sintaxe)
Precisão em termos técnicos
Manutenção da formatação em markdown
Preservação da estrutura das tabelas
Consistência nas referências de imagem

Diferenças de qualidade:

Consistência da linguagem — Qwen3 8B teve problemas de mistura entre inglês e alemão
Fluxo natural da língua alemã — Qwen3 30B alcançou a expressão alemã mais natural
Precisão técnica — Todos os modelos trataram bem os termos técnicos
Preservação da formatação — Todos mantiveram a estrutura do Hugo perfeitamente

Classificação por Qualidade:

Qwen3 30B (9.0/10) - Melhor geral
Mistral Small 3.1 24B (8.7/10) - Muito forte
Devstral 24B (8.5/10) - Excelente
Qwen3 14B (8.2/10) - Boa
Qwen3 8B (6.5/10) - Adequada com problemas

Os modelos maiores (Qwen3 30B e Mistral Small 3.1 24B) produziram as traduções de maior qualidade, enquanto o modelo menor Qwen3 8B mostrou limitações claras em consistência.

Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go

Basicamente, é um post anterior nesse site: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Com base na minha análise detalhada das traduções alemãs, aqui está a avaliação comparativa:

Análise de Qualidade da Tradução (Escala de 1 a 10)

Arquivo	Modelo	Pontuação	Avaliação Principal
index.de.devstral-24b.md	DeVistral 24B	9/10	Excelente - Mais consistente e profissional
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Muito Bom - Natural, mas algumas inconsistências
index.de.qwen3-14b.md	Qwen3 14B	7/10	Bom - Sólido com alguns elementos misturados
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Razoável - Contém inglês não traduzido
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Ruim - Múltiplas falhas de tradução

Análise Comparativa Detalhada:

🥇 DeVistral 24B (9/10) - Vencedor Pontos fortes:

Precisão Técnica: Usa “ollama API-Fehler” (minúscula, mais natural)
Tradução Consistente: “handelt mit parallelen Anfragen” (frase sofisticada)
Qualidade Profissional: Tradução completa em alemão ao longo de todo o texto
Formatação: Preservação perfeita da estrutura em markdown

Problemas menores: Muito poucos, principalmente preferências estilísticas

🥈 Mistral Small 3.1 24B (8.5/10) Pontos fortes:

Fluxo natural da língua alemã
Boa terminologia técnica: “Ollama-API-Fehler” (hifenhado, estilo formal)
“verarbeitet parallele Anfragen” consistente

Problemas:

Frases ligeiramente menos sofisticadas em alguns contextos técnicos
Variações menores na formatação

🥉 Qwen3 14B (7/10) Pontos fortes:

Preservação geralmente precisa do significado
Estrutura gramatical alemã adequada

Problemas:

Algumas construções desconfortáveis
Qualidade mista em termos técnicos
Contém “```” no início e problemas de formatação

Qwen3 30B (6.5/10) Falha crítica:

Contém inglês não traduzido: “This little” aparece diretamente no texto alemão
Apesar do tamanho maior do modelo, mostra inconsistências de tradução
A precisão técnica está presente, mas a entrega está falha

Qwen3 8B (5.5/10) Problemas maiores:

Seções não traduzidas: “This little” deixado em inglês
Terminologia inconsistente: Usa “RANGORDNUNG” vs padrão “RANGIERUNG”
Fluxo pobre: Construções de língua alemã menos naturais
Mostra claramente as limitações do tamanho do modelo menor

Diferenciais Principais Encontrados:

Tradução de Erros da API:
- DeVistral: ollama API-Fehler (natural, minúscula)
- Outros: Ollama-API-Fehler (formal, hifenhado)
Pedidos Paralelos:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (padrão)
- Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
Cabeçalhos de Seção:
- Maioria: “RANGIERUNG NACH ÄHNLICHKEIT” (padrão)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incômodo)
Contaminação em Inglês:
- Qwen3-30B & Qwen3-8B: Deixam “This little” não traduzido
- Outros: Traduzem corretamente para “Dieses kleine”

Vencedor: DeVistral 24B - Mostra a tradução mais consistente em nível profissional com terminologia técnica sofisticada e conversão completa da linguagem.

Hehe DeVistral :). Mas isso é um erro de outro LLM.

Para uma comparação mais ampla do Ollama com vLLM, LocalAI, Docker Model Runner e opções em nuvem — incluindo quando escolher cada um para tradução ou outras tarefas — veja nosso LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Conclusão simples: TL;DR

Teste 1: Tópico filosófico

Teste 2: Tradução da página sobre os modelos de Embedding e Reranker Qwen3 no Ollama.

Teste 3: Reranking com Ollama e modelo de Embedding Qwen3 - em Go

Links Úteis