Riferimento ai parametri di inferenza per LLM agentic per Qwen e Gemma

Riferimento per l'ottimizzazione di LLM agentic

Indice

Questa pagina è un riferimento pratico per la regolazione dell’inferenza di LLM agentic (temperatura, top_p, top_k, penalità e come interagiscono in flussi di lavoro multi-step e intensivi nell’uso di strumenti).

Si affianca al più ampio hub sull’ingegneria delle prestazioni LLM ed è ideale da abbinare a una chiara guida sull’hosting e il serving degli LLM—il throughput e la pianificazione dominano ancora quando il modello è in carenza di risorse, ma un campionamento instabile consuma tentativi e token di output prima ancora che la GPU si saturi.

Questa pagina consolida:

  • parametri consigliati dai produttori
  • valori predefiniti incorporati nei GGUF e nelle API
  • risultati reali della comunità
  • ottimizzazioni per flussi di lavoro agentic

Al momento è focalizzata su:

  • Qwen 3.6 (dense e MoE)
  • Gemma 4 (dense e MoE)

Se utilizzi agenti terminali come OpenCode, abbina questo riferimento a comportamento degli LLM locali in OpenCode in modo che i risultati a livello di carico di lavoro e i valori predefiniti del sampler rimangano allineati.

L’obiettivo è semplice:

Fornire un unico punto di configurazione per i modelli per loop agentici, coding e ragionamento multi-step.


Tabella di riferimento TLDR - Tutti i modelli (valori predefiniti agentic)

Modello Modalità temp top_p top_k presence_penalty
Qwen 3.5 27B thinking general 1.0 0.95 20 0.0
Qwen 3.5 27B coding 0.6 0.95 20 0.0
Qwen 3.5 35B MoE thinking 1.0 0.95 20 1.5
Qwen 3.5 35B MoE coding 0.6 0.95 20 0.0
Gemma 4 31B general 1.0 0.95 64 0.0
Gemma 4 31B coding 1.2 0.95 65 0.0
Gemma 4 26B MoE general 1.0 0.95 64 0.0
Gemma 4 26B MoE coding 1.2 0.95 65 0.0

Cosa significa realmente “Inferenza Agentic”

La maggior parte delle guide sui parametri presuppone:

  • chat
  • completamento singolo (single-shot)
  • interazione umana

I sistemi agentic sono diversi.

Richiedono:

  • ragionamento multi-step
  • chiamata di strumenti (tool calling)
  • output coerenti
  • bassa propagazione degli errori

Ciò cambia le priorità di regolazione.

Spostamento del focus

Caso d’uso Priorità
Chat qualità del linguaggio naturale
Creativo diversità
Agentic coerenza + stabilità del ragionamento

Regolazione di Qwen 3.6

La differenza tra Dense e MoE è importante

Qwen è una delle poche famiglie in cui:

MoE richiede penalità diverse

Dense (27B)

  • stabile
  • prevedibile
  • nessuna complessità di routing

Consigliato:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • routing degli esperti per token
  • rischio di loop di ripetizione

Consigliato:

  • presence_penalty = 1.5 (generale)
  • 0.0 per il coding

Perché è importante

I modelli MoE possono rimanere bloccati riutilizzando gli stessi esperti.

La penalità di presenza aiuta a:

  • diversificare i percorsi dei token
  • migliorare l’esplorazione del ragionamento

Configurazione Qwen per Coding Agentic

Qui è dove la maggior parte delle persone sbaglia.

Configurazione corretta

  • temperature = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Perché una temperatura bassa funziona

Gli agenti di coding hanno bisogno di:

  • output deterministici
  • chiamate di strumenti ripetibili
  • formattazione stabile

Una temperatura più alta:

  • rompe il JSON
  • introduce API allucinate
  • aumenta i tentativi (retries)

Regolazione di Gemma 4

Gemma si comporta in modo diverso.

Nessun valore predefinito ufficiale

  • le schede del modello sono vuote
  • le configurazioni sono implicite
  • la regolazione reale proviene da:
    • Google AI Studio
    • valori predefiniti GGUF
    • benchmark della comunità

La Scoperta Controintuitiva

Gemma 4 performa meglio con una temperatura più alta.

Comportamento osservato

Temp Risultato
0.5 ragionamento scarso
1.0 baseline stabile
1.2 to 1.5 migliori prestazioni di coding

Ciò contraddice i consigli standard.


Perché un’alta temperatura funziona qui

Ipotesi:

  • la distribuzione di allenamento favorisce l’esplorazione
  • la modalità di ragionamento dipende dalla diversità
  • il modello compensa la mancanza di controllo esplicito sul chain-of-thought

Risultato:

una temperatura più alta migliora lo spazio di ricerca delle soluzioni


Configurazione Gemma per Coding Agentic

Consigliato:

  • temperature = 1.2
  • top_p = 0.95
  • top_k = 65
  • penalties = 0.0

Importante

Non applicare ciecamente la regola tradizionale “bassa temperatura per il codice”.

Gemma è un’eccezione.


Modalità Thinking e Sistemi Agentici

Sia Qwen che Gemma supportano modalità di ragionamento.

Perché è importante

I loop agentici richiedono:

  • ragionamento intermedio
  • recupero dagli errori
  • pianificazione multi-step

Regola pratica

Abilita sempre la modalità thinking per:

  • agenti di coding
  • uso di strumenti
  • task multi-step

Strategia dei Parametri per Caso d’Uso

Agenti di coding

  • dare priorità al determinismo
  • minimizzare le penalità
  • campionamento stabile

Agenti di ragionamento

  • temperatura moderata
  • permettere l’esplorazione
  • preservare la struttura

Chiamata di strumenti

  • formattazione rigorosa
  • bassa casualità
  • pattern di token coerenti

Schema e strumenti JSON sono ortogonali ai logits; combina queste regole di campionamento con pattern di output strutturato per Ollama e Qwen3 in modo che i validatori rilevino meno tentativi.


Valori Predefiniti Vendor vs Realtà

I valori predefiniti dei produttori sono:

  • sicuri
  • generici
  • non ottimizzati

Le scoperte della comunità mostrano spesso:

  • migliori prestazioni
  • regolazione specifica per il task
  • aggiustamenti consapevoli dell’architettura

Esempio

Gemma:

  • ufficiale: nessuna guida
  • comunità: un’alta temperatura migliora il coding

Qwen:

  • ufficiale: sezioni incoerenti
  • comunità: i valori standardizzati convergono

Note Pratiche per il Deployment

Sotto concorrenza, code e suddivisioni della memoria interagiscono con i tentativi (retries) tanto quanto il campionamento—leggi come Ollama gestisce le richieste parallele insieme ai preset sopra.

Ollama

  • funziona bene per entrambe le famiglie
  • verificare la compatibilità GPU
  • i valori predefiniti possono differire dal riferimento

vLLM

  • supporta campionamento avanzato
  • stabile per la produzione
  • usa parametri espliciti

llama.cpp

  • richiede l’ordinamento del sampler
  • abilita sempre jinja per i modelli moderni
  • una catena di sampler errata riduce la qualità dell’output

Punti Chiave

  • non esiste un set di parametri universale
  • l’architettura conta più della dimensione del modello
  • i sistemi agentic richiedono una regolazione diversa dalla chat
  • i benchmark della comunità sono spesso avanti rispetto ai produttori

Opinione Finale

La maggior parte delle guide sui parametri è obsoleta.

Presuppongono:

  • uso in chat
  • bassa temperatura per il codice
  • configurazioni statiche

I modelli moderni violano queste assunzioni.

Se stai costruendo sistemi agentic:

trattare la regolazione dell’inferenza come un problema di design del sistema di prima classe

Non come un semplice file di configurazione.


Direzione Futura

Questo riferimento evolverà in:

  • approfondimenti per singolo modello
  • configurazioni specifiche per agenti
  • tuning supportato da benchmark

Perché:

l’inferenza è dove la capacità del modello diventa prestazioni del sistema

Iscriviti

Ricevi nuovi articoli su sistemi, infrastruttura e ingegneria AI.