Referência de Parâmetros de Inferência de LLMs Agentes para Qwen e Gemma
Referência para ajuste de LLMs agênticos
Esta página é uma referência prática para ajuste de inferência de LLMs agênicos (temperatura, top_p, top_k, penalidades e como elas interagem em fluxos de trabalho multi-step e com uso intenso de ferramentas).
Ela complementa o mais amplo hub de engenharia de desempenho de LLMs e se alinha bem com uma história de hospedagem e serviço de LLMs—throughput e agendamento ainda dominam quando o modelo está limitado, mas amostragem instável consome retries e tokens de saída antes que a GPU o faça.
Esta página consolida:
- parâmetros recomendados pelos fabricantes
- padrões embutidos de GGUF e APIs
- descobertas reais da comunidade
- otimizações para fluxos de trabalho agênicos
No momento, está focada em:
- Qwen 3.6 (dense e MoE)
- Gemma 4 (dense e MoE)
Se você executa agentes de terminal como OpenCode, combine esta referência com comportamento de LLMs locais no OpenCode para que os resultados em nível de workload e padrões do sampler permaneçam alinhados.
O objetivo é simples:
Fornecer um único lugar para configurar modelos para loops de agentes, codificação e raciocínio multi-step.
Tabela de Referência TLDR - Todos os modelos (padrões agênicos)
| Modelo | Modo | temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | raciocínio geral | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | codificação | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | raciocínio | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | codificação | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | geral | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | codificação | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | geral | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | codificação | 1.2 | 0.95 | 65 | 0.0 |
O Que “Inferência Agênica” Significa Realmente
A maioria dos guias de parâmetros assume:
- chat
- conclusão single-shot
- interação humana
Sistemas agênicos são diferentes.
Eles exigem:
- raciocínio multi-step
- chamada de ferramentas
- saídas consistentes
- baixa propagação de erros
Isso muda as prioridades de ajuste.
Mudança central
| Caso de uso | Prioridade |
|---|---|
| Chat | qualidade do idioma natural |
| Criativo | diversidade |
| Agênico | consistência + estabilidade do raciocínio |
Ajuste do Qwen 3.6
Dense vs MoE importa
O Qwen é uma das poucas famílias onde:
MoE requer penalidades diferentes
Dense (27B)
- estável
- previsível
- sem complexidade de roteamento
Recomendado:
- presence_penalty = 0.0
MoE (35B-A3B)
- roteamento de especialistas por token
- risco de loops de repetição
Recomendado:
- presence_penalty = 1.5 (geral)
- 0.0 para codificação
Por que isso importa
Modelos MoE podem ficar presos reutilizando os mesmos especialistas.
A penalidade de presença ajuda a:
- diversificar os caminhos dos tokens
- melhorar a exploração do raciocínio
Configuração Agênica de Codificação do Qwen
É aqui que a maioria das pessoas erra.
Configuração correta
- temperature = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Por que baixa temperatura funciona
Agentes de codificação precisam de:
- saídas determinísticas
- chamadas de ferramentas repetíveis
- formatação estável
Temperatura mais alta:
- quebra JSON
- introduz APIs alucinadas
- aumenta retries
Ajuste do Gemma 4
O Gemma se comporta de forma diferente.
Sem padrões oficiais
- cartões de modelo estão vazios
- configurações são implícitas
- ajuste real vem de:
- Google AI Studio
- padrões GGUF
- benchmarks da comunidade
A Descoberta Contra-Intuitiva
O Gemma 4 performa melhor com temperatura mais alta.
Comportamento observado
| Temp | Resultado |
|---|---|
| 0.5 | raciocínio ruim |
| 1.0 | baseline estável |
| 1.2 a 1.5 | melhor desempenho de codificação |
Isso contradiz o conselho padrão.
Por que alta temperatura funciona aqui
Hipótese:
- distribuição de treinamento favorece exploração
- modo de raciocínio depende de diversidade
- modelo compensa a falta de controle explícito de chain-of-thought
Resultado:
temperatura mais alta melhora o espaço de busca de soluções
Configuração Agênica de Codificação do Gemma
Recomendado:
- temperature = 1.2
- top_p = 0.95
- top_k = 65
- penalties = 0.0
Importante
Não aplique a regra tradicional de “baixa temp para código” cegamente.
O Gemma é uma exceção.
Modo de Raciocínio e Sistemas de Agentes
Tanto Qwen quanto Gemma suportam modos de raciocínio.
Por que isso importa
Loops de agentes exigem:
- raciocínio intermediário
- recuperação de erros
- planejamento multi-step
Regra prática
Sempre habilite o modo de raciocínio para:
- agentes de codificação
- uso de ferramentas
- tarefas multi-step
Estratégia de Parâmetros por Caso de Uso
Agentes de codificação
- priorize determinismo
- minimize penalidades
- amostragem estável
Agentes de raciocínio
- temperatura moderada
- permita exploração
- preserve estrutura
Chamada de ferramentas
- formatação estrita
- baixa aleatoriedade
- padrões de tokens consistentes
Schema e ferramentas de JSON são ortogonais aos logits; combine estas regras de amostragem com padrões de saída estruturada para Ollama e Qwen3 para que validadores vejam menos retries.
Padrões dos Fabricantes vs Realidade
Os padrões dos fabricantes são:
- seguros
- genéricos
- não otimizados
Descobertas da comunidade frequentemente mostram:
- melhor desempenho
- ajuste específico para tarefas
- ajustes conscientes da arquitetura
Exemplo
Gemma:
- oficial: sem orientação
- comunidade: alta temperatura melhora codificação
Qwen:
- oficial: seções inconsistentes
- comunidade: valores padronizados convergem
Notas Práticas de Implantação
Sob concorrência, filas e divisões de memória interagem com retries tanto quanto a amostragem—leia como o Ollama lida com requisições paralelas junto com os presets acima.
Ollama
- funciona bem para ambas as famílias
- verifique compatibilidade de GPU
- padrões podem diferir da referência
vLLM
- suporta amostragem avançada
- estável para produção
- use parâmetros explícitos
llama.cpp
- requer ordenação de sampler
- sempre habilite jinja para modelos modernos
- cadeia de sampler incorreta reduz qualidade de saída
Principais Lições
- não existe um conjunto universal de parâmetros
- arquitetura importa mais do que tamanho do modelo
- sistemas agênicos exigem ajuste diferente do chat
- benchmarks da comunidade frequentemente estão à frente dos fabricantes
Opinião Final
A maioria dos guias de parâmetros está desatualizada.
Eles assumem:
- uso de chat
- baixa temperatura para código
- configurações estáticas
Modelos modernos quebram essas suposições.
Se você está construindo sistemas agênicos:
trate o ajuste de inferência como um problema de design de sistema de primeira classe
Não um arquivo de configuração.
Direção Futura
Esta referência evoluirá para:
- análises detalhadas por modelo
- configurações específicas para agentes
- ajuste baseado em benchmarks
Porque:
inferência é onde a capacidade do modelo se torna desempenho do sistema