Quais parâmetros de inferência são mais importantes para a qualidade da saída de LLMs?

Temperatura, top_p e top_k são os parâmetros mais impactantes. A temperatura controla a aleatoriedade, o top_p limita a massa de probabilidade e o top_k restringe a seleção de tokens. Juntos, eles definem a diversidade e a estabilidade da saída.

Por que alguns modelos têm um desempenho melhor com temperatura mais alta?

Alguns modelos, especialmente arquiteturas mais recentes como a Gemma 4, se beneficiam de temperaturas mais altas, pois seu treinamento favorece a exploração. Isso pode melhorar o desempenho em raciocínio e codificação, apesar das expectativas tradicionais.

Como os LLMs devem ser configurados para agentes de codificação?

Agentes de codificação se beneficiam de temperaturas mais baixas para saídas determinísticas, valores estáveis de top_p e penalidades mínimas. A consistência é mais importante do que a criatividade no uso de ferramentas e na geração de código.

Qual é a diferença entre modelos densos e MoE para ajuste de inferência?

Modelos densos usam todos os parâmetros por token e tendem a ser estáveis com penalidades menores. Modelos MoE roteiam tokens entre especialistas e podem se beneficiar de penalidades de presença para reduzir repetições e melhorar a diversidade.

Os padrões dos fornecedores são confiáveis para sistemas de produção?

Os valores padrão do fornecedor são um bom ponto de partida, mas frequentemente necessitam de ajustes. Benchmarks da comunidade e testes em cenários reais costumam gerar configurações mais adequadas para cargas de trabalho específicas.

Referência de Parâmetros de Inferência de LLMs Agentes para Qwen e Gemma

Referência para ajuste de LLMs agênticos

Conteúdo da página

Esta página é uma referência prática para ajuste de inferência de LLMs agênicos (temperatura, top_p, top_k, penalidades e como elas interagem em fluxos de trabalho multi-step e com uso intenso de ferramentas).

Ela complementa o mais amplo hub de engenharia de desempenho de LLMs e se alinha bem com uma história de hospedagem e serviço de LLMs—throughput e agendamento ainda dominam quando o modelo está limitado, mas amostragem instável consome retries e tokens de saída antes que a GPU o faça.

Esta página consolida:

parâmetros recomendados pelos fabricantes
padrões embutidos de GGUF e APIs
descobertas reais da comunidade
otimizações para fluxos de trabalho agênicos

No momento, está focada em:

Qwen 3.6 (dense e MoE)
Gemma 4 (dense e MoE)

Se você executa agentes de terminal como OpenCode, combine esta referência com comportamento de LLMs locais no OpenCode para que os resultados em nível de workload e padrões do sampler permaneçam alinhados.

O objetivo é simples:

Fornecer um único lugar para configurar modelos para loops de agentes, codificação e raciocínio multi-step.

Tabela de Referência TLDR - Todos os modelos (padrões agênicos)

Modelo	Modo	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	raciocínio geral	1.0	0.95	20	0.0
Qwen 3.5 27B	codificação	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	raciocínio	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	codificação	0.6	0.95	20	0.0
Gemma 4 31B	geral	1.0	0.95	64	0.0
Gemma 4 31B	codificação	1.2	0.95	65	0.0
Gemma 4 26B MoE	geral	1.0	0.95	64	0.0
Gemma 4 26B MoE	codificação	1.2	0.95	65	0.0

O Que “Inferência Agênica” Significa Realmente

A maioria dos guias de parâmetros assume:

chat
conclusão single-shot
interação humana

Sistemas agênicos são diferentes.

Eles exigem:

raciocínio multi-step
chamada de ferramentas
saídas consistentes
baixa propagação de erros

Isso muda as prioridades de ajuste.

Mudança central

Caso de uso	Prioridade
Chat	qualidade do idioma natural
Criativo	diversidade
Agênico	consistência + estabilidade do raciocínio

Ajuste do Qwen 3.6

Dense vs MoE importa

O Qwen é uma das poucas famílias onde:

MoE requer penalidades diferentes

Dense (27B)

estável
previsível
sem complexidade de roteamento

Recomendado:

presence_penalty = 0.0

MoE (35B-A3B)

roteamento de especialistas por token
risco de loops de repetição

Recomendado:

presence_penalty = 1.5 (geral)
0.0 para codificação

Por que isso importa

Modelos MoE podem ficar presos reutilizando os mesmos especialistas.

A penalidade de presença ajuda a:

diversificar os caminhos dos tokens
melhorar a exploração do raciocínio

Configuração Agênica de Codificação do Qwen

É aqui que a maioria das pessoas erra.

Configuração correta

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Por que baixa temperatura funciona

Agentes de codificação precisam de:

saídas determinísticas
chamadas de ferramentas repetíveis
formatação estável

Temperatura mais alta:

quebra JSON
introduz APIs alucinadas
aumenta retries

Ajuste do Gemma 4

O Gemma se comporta de forma diferente.

Sem padrões oficiais

cartões de modelo estão vazios
configurações são implícitas
ajuste real vem de:
- Google AI Studio
- padrões GGUF
- benchmarks da comunidade

A Descoberta Contra-Intuitiva

O Gemma 4 performa melhor com temperatura mais alta.

Comportamento observado

Temp	Resultado
0.5	raciocínio ruim
1.0	baseline estável
1.2 a 1.5	melhor desempenho de codificação

Isso contradiz o conselho padrão.

Por que alta temperatura funciona aqui

Hipótese:

distribuição de treinamento favorece exploração
modo de raciocínio depende de diversidade
modelo compensa a falta de controle explícito de chain-of-thought

Resultado:

temperatura mais alta melhora o espaço de busca de soluções

Configuração Agênica de Codificação do Gemma

Recomendado:

temperature = 1.2
top_p = 0.95
top_k = 65
penalties = 0.0

Importante

Não aplique a regra tradicional de “baixa temp para código” cegamente.

O Gemma é uma exceção.

Modo de Raciocínio e Sistemas de Agentes

Tanto Qwen quanto Gemma suportam modos de raciocínio.

Por que isso importa

Loops de agentes exigem:

raciocínio intermediário
recuperação de erros
planejamento multi-step

Regra prática

Sempre habilite o modo de raciocínio para:

agentes de codificação
uso de ferramentas
tarefas multi-step

Estratégia de Parâmetros por Caso de Uso

Agentes de codificação

priorize determinismo
minimize penalidades
amostragem estável

Agentes de raciocínio

temperatura moderada
permita exploração
preserve estrutura

Chamada de ferramentas

formatação estrita
baixa aleatoriedade
padrões de tokens consistentes

Schema e ferramentas de JSON são ortogonais aos logits; combine estas regras de amostragem com padrões de saída estruturada para Ollama e Qwen3 para que validadores vejam menos retries.

Padrões dos Fabricantes vs Realidade

Os padrões dos fabricantes são:

seguros
genéricos
não otimizados

Descobertas da comunidade frequentemente mostram:

melhor desempenho
ajuste específico para tarefas
ajustes conscientes da arquitetura

Exemplo

Gemma:

oficial: sem orientação
comunidade: alta temperatura melhora codificação

Qwen:

oficial: seções inconsistentes
comunidade: valores padronizados convergem

Notas Práticas de Implantação

Sob concorrência, filas e divisões de memória interagem com retries tanto quanto a amostragem—leia como o Ollama lida com requisições paralelas junto com os presets acima.

Ollama

funciona bem para ambas as famílias
verifique compatibilidade de GPU
padrões podem diferir da referência

vLLM

suporta amostragem avançada
estável para produção
use parâmetros explícitos

llama.cpp

requer ordenação de sampler
sempre habilite jinja para modelos modernos
cadeia de sampler incorreta reduz qualidade de saída

Principais Lições

não existe um conjunto universal de parâmetros
arquitetura importa mais do que tamanho do modelo
sistemas agênicos exigem ajuste diferente do chat
benchmarks da comunidade frequentemente estão à frente dos fabricantes

Opinião Final

A maioria dos guias de parâmetros está desatualizada.

Eles assumem:

uso de chat
baixa temperatura para código
configurações estáticas

Modelos modernos quebram essas suposições.

Se você está construindo sistemas agênicos:

trate o ajuste de inferência como um problema de design de sistema de primeira classe

Não um arquivo de configuração.

Direção Futura

Esta referência evoluirá para:

análises detalhadas por modelo
configurações específicas para agentes
ajuste baseado em benchmarks

Porque:

inferência é onde a capacidade do modelo se torna desempenho do sistema

Tabela de Referência TLDR - Todos os modelos (padrões agênicos)

O Que “Inferência Agênica” Significa Realmente

Mudança central

Ajuste do Qwen 3.6

Dense vs MoE importa

Dense (27B)

MoE (35B-A3B)

Por que isso importa

Configuração Agênica de Codificação do Qwen

Configuração correta

Por que baixa temperatura funciona

Ajuste do Gemma 4

Sem padrões oficiais

A Descoberta Contra-Intuitiva

Comportamento observado

Por que alta temperatura funciona aqui

Configuração Agênica de Codificação do Gemma

Importante

Modo de Raciocínio e Sistemas de Agentes

Por que isso importa

Regra prática

Estratégia de Parâmetros por Caso de Uso

Agentes de codificação

Agentes de raciocínio

Chamada de ferramentas

Padrões dos Fabricantes vs Realidade

Exemplo

Notas Práticas de Implantação

Ollama

vLLM

llama.cpp

Principais Lições

Opinião Final

Direção Futura

Assinar