Referência de Parâmetros de Inferência de LLMs Agentes para Qwen e Gemma

Referência para ajuste de LLMs agênticos

Conteúdo da página

Esta página é uma referência prática para ajuste de inferência de LLMs agênicos (temperatura, top_p, top_k, penalidades e como elas interagem em fluxos de trabalho multi-step e com uso intenso de ferramentas).

Ela complementa o mais amplo hub de engenharia de desempenho de LLMs e se alinha bem com uma história de hospedagem e serviço de LLMs—throughput e agendamento ainda dominam quando o modelo está limitado, mas amostragem instável consome retries e tokens de saída antes que a GPU o faça.

Esta página consolida:

  • parâmetros recomendados pelos fabricantes
  • padrões embutidos de GGUF e APIs
  • descobertas reais da comunidade
  • otimizações para fluxos de trabalho agênicos

No momento, está focada em:

  • Qwen 3.6 (dense e MoE)
  • Gemma 4 (dense e MoE)

Se você executa agentes de terminal como OpenCode, combine esta referência com comportamento de LLMs locais no OpenCode para que os resultados em nível de workload e padrões do sampler permaneçam alinhados.

O objetivo é simples:

Fornecer um único lugar para configurar modelos para loops de agentes, codificação e raciocínio multi-step.


Tabela de Referência TLDR - Todos os modelos (padrões agênicos)

Modelo Modo temp top_p top_k presence_penalty
Qwen 3.5 27B raciocínio geral 1.0 0.95 20 0.0
Qwen 3.5 27B codificação 0.6 0.95 20 0.0
Qwen 3.5 35B MoE raciocínio 1.0 0.95 20 1.5
Qwen 3.5 35B MoE codificação 0.6 0.95 20 0.0
Gemma 4 31B geral 1.0 0.95 64 0.0
Gemma 4 31B codificação 1.2 0.95 65 0.0
Gemma 4 26B MoE geral 1.0 0.95 64 0.0
Gemma 4 26B MoE codificação 1.2 0.95 65 0.0

O Que “Inferência Agênica” Significa Realmente

A maioria dos guias de parâmetros assume:

  • chat
  • conclusão single-shot
  • interação humana

Sistemas agênicos são diferentes.

Eles exigem:

  • raciocínio multi-step
  • chamada de ferramentas
  • saídas consistentes
  • baixa propagação de erros

Isso muda as prioridades de ajuste.

Mudança central

Caso de uso Prioridade
Chat qualidade do idioma natural
Criativo diversidade
Agênico consistência + estabilidade do raciocínio

Ajuste do Qwen 3.6

Dense vs MoE importa

O Qwen é uma das poucas famílias onde:

MoE requer penalidades diferentes

Dense (27B)

  • estável
  • previsível
  • sem complexidade de roteamento

Recomendado:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • roteamento de especialistas por token
  • risco de loops de repetição

Recomendado:

  • presence_penalty = 1.5 (geral)
  • 0.0 para codificação

Por que isso importa

Modelos MoE podem ficar presos reutilizando os mesmos especialistas.

A penalidade de presença ajuda a:

  • diversificar os caminhos dos tokens
  • melhorar a exploração do raciocínio

Configuração Agênica de Codificação do Qwen

É aqui que a maioria das pessoas erra.

Configuração correta

  • temperature = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Por que baixa temperatura funciona

Agentes de codificação precisam de:

  • saídas determinísticas
  • chamadas de ferramentas repetíveis
  • formatação estável

Temperatura mais alta:

  • quebra JSON
  • introduz APIs alucinadas
  • aumenta retries

Ajuste do Gemma 4

O Gemma se comporta de forma diferente.

Sem padrões oficiais

  • cartões de modelo estão vazios
  • configurações são implícitas
  • ajuste real vem de:
    • Google AI Studio
    • padrões GGUF
    • benchmarks da comunidade

A Descoberta Contra-Intuitiva

O Gemma 4 performa melhor com temperatura mais alta.

Comportamento observado

Temp Resultado
0.5 raciocínio ruim
1.0 baseline estável
1.2 a 1.5 melhor desempenho de codificação

Isso contradiz o conselho padrão.


Por que alta temperatura funciona aqui

Hipótese:

  • distribuição de treinamento favorece exploração
  • modo de raciocínio depende de diversidade
  • modelo compensa a falta de controle explícito de chain-of-thought

Resultado:

temperatura mais alta melhora o espaço de busca de soluções


Configuração Agênica de Codificação do Gemma

Recomendado:

  • temperature = 1.2
  • top_p = 0.95
  • top_k = 65
  • penalties = 0.0

Importante

Não aplique a regra tradicional de “baixa temp para código” cegamente.

O Gemma é uma exceção.


Modo de Raciocínio e Sistemas de Agentes

Tanto Qwen quanto Gemma suportam modos de raciocínio.

Por que isso importa

Loops de agentes exigem:

  • raciocínio intermediário
  • recuperação de erros
  • planejamento multi-step

Regra prática

Sempre habilite o modo de raciocínio para:

  • agentes de codificação
  • uso de ferramentas
  • tarefas multi-step

Estratégia de Parâmetros por Caso de Uso

Agentes de codificação

  • priorize determinismo
  • minimize penalidades
  • amostragem estável

Agentes de raciocínio

  • temperatura moderada
  • permita exploração
  • preserve estrutura

Chamada de ferramentas

  • formatação estrita
  • baixa aleatoriedade
  • padrões de tokens consistentes

Schema e ferramentas de JSON são ortogonais aos logits; combine estas regras de amostragem com padrões de saída estruturada para Ollama e Qwen3 para que validadores vejam menos retries.


Padrões dos Fabricantes vs Realidade

Os padrões dos fabricantes são:

  • seguros
  • genéricos
  • não otimizados

Descobertas da comunidade frequentemente mostram:

  • melhor desempenho
  • ajuste específico para tarefas
  • ajustes conscientes da arquitetura

Exemplo

Gemma:

  • oficial: sem orientação
  • comunidade: alta temperatura melhora codificação

Qwen:

  • oficial: seções inconsistentes
  • comunidade: valores padronizados convergem

Notas Práticas de Implantação

Sob concorrência, filas e divisões de memória interagem com retries tanto quanto a amostragem—leia como o Ollama lida com requisições paralelas junto com os presets acima.

Ollama

  • funciona bem para ambas as famílias
  • verifique compatibilidade de GPU
  • padrões podem diferir da referência

vLLM

  • suporta amostragem avançada
  • estável para produção
  • use parâmetros explícitos

llama.cpp

  • requer ordenação de sampler
  • sempre habilite jinja para modelos modernos
  • cadeia de sampler incorreta reduz qualidade de saída

Principais Lições

  • não existe um conjunto universal de parâmetros
  • arquitetura importa mais do que tamanho do modelo
  • sistemas agênicos exigem ajuste diferente do chat
  • benchmarks da comunidade frequentemente estão à frente dos fabricantes

Opinião Final

A maioria dos guias de parâmetros está desatualizada.

Eles assumem:

  • uso de chat
  • baixa temperatura para código
  • configurações estáticas

Modelos modernos quebram essas suposições.

Se você está construindo sistemas agênicos:

trate o ajuste de inferência como um problema de design de sistema de primeira classe

Não um arquivo de configuração.


Direção Futura

Esta referência evoluirá para:

  • análises detalhadas por modelo
  • configurações específicas para agentes
  • ajuste baseado em benchmarks

Porque:

inferência é onde a capacidade do modelo se torna desempenho do sistema

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.