Riferimento ai parametri di inferenza per LLM agentic per Qwen e Gemma
Riferimento per l'ottimizzazione di LLM agentic
Questa pagina è un riferimento pratico per la regolazione dell’inferenza di LLM agentic (temperatura, top_p, top_k, penalità e come interagiscono in flussi di lavoro multi-step e intensivi nell’uso di strumenti).
Si affianca al più ampio hub sull’ingegneria delle prestazioni LLM ed è ideale da abbinare a una chiara guida sull’hosting e il serving degli LLM—il throughput e la pianificazione dominano ancora quando il modello è in carenza di risorse, ma un campionamento instabile consuma tentativi e token di output prima ancora che la GPU si saturi.
Questa pagina consolida:
- parametri consigliati dai produttori
- valori predefiniti incorporati nei GGUF e nelle API
- risultati reali della comunità
- ottimizzazioni per flussi di lavoro agentic
Al momento è focalizzata su:
- Qwen 3.6 (dense e MoE)
- Gemma 4 (dense e MoE)
Se utilizzi agenti terminali come OpenCode, abbina questo riferimento a comportamento degli LLM locali in OpenCode in modo che i risultati a livello di carico di lavoro e i valori predefiniti del sampler rimangano allineati.
L’obiettivo è semplice:
Fornire un unico punto di configurazione per i modelli per loop agentici, coding e ragionamento multi-step.
Tabella di riferimento TLDR - Tutti i modelli (valori predefiniti agentic)
| Modello | Modalità | temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | thinking general | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | coding | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | thinking | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | coding | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | general | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | coding | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | general | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | coding | 1.2 | 0.95 | 65 | 0.0 |
Cosa significa realmente “Inferenza Agentic”
La maggior parte delle guide sui parametri presuppone:
- chat
- completamento singolo (single-shot)
- interazione umana
I sistemi agentic sono diversi.
Richiedono:
- ragionamento multi-step
- chiamata di strumenti (tool calling)
- output coerenti
- bassa propagazione degli errori
Ciò cambia le priorità di regolazione.
Spostamento del focus
| Caso d’uso | Priorità |
|---|---|
| Chat | qualità del linguaggio naturale |
| Creativo | diversità |
| Agentic | coerenza + stabilità del ragionamento |
Regolazione di Qwen 3.6
La differenza tra Dense e MoE è importante
Qwen è una delle poche famiglie in cui:
MoE richiede penalità diverse
Dense (27B)
- stabile
- prevedibile
- nessuna complessità di routing
Consigliato:
- presence_penalty = 0.0
MoE (35B-A3B)
- routing degli esperti per token
- rischio di loop di ripetizione
Consigliato:
- presence_penalty = 1.5 (generale)
- 0.0 per il coding
Perché è importante
I modelli MoE possono rimanere bloccati riutilizzando gli stessi esperti.
La penalità di presenza aiuta a:
- diversificare i percorsi dei token
- migliorare l’esplorazione del ragionamento
Configurazione Qwen per Coding Agentic
Qui è dove la maggior parte delle persone sbaglia.
Configurazione corretta
- temperature = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Perché una temperatura bassa funziona
Gli agenti di coding hanno bisogno di:
- output deterministici
- chiamate di strumenti ripetibili
- formattazione stabile
Una temperatura più alta:
- rompe il JSON
- introduce API allucinate
- aumenta i tentativi (retries)
Regolazione di Gemma 4
Gemma si comporta in modo diverso.
Nessun valore predefinito ufficiale
- le schede del modello sono vuote
- le configurazioni sono implicite
- la regolazione reale proviene da:
- Google AI Studio
- valori predefiniti GGUF
- benchmark della comunità
La Scoperta Controintuitiva
Gemma 4 performa meglio con una temperatura più alta.
Comportamento osservato
| Temp | Risultato |
|---|---|
| 0.5 | ragionamento scarso |
| 1.0 | baseline stabile |
| 1.2 to 1.5 | migliori prestazioni di coding |
Ciò contraddice i consigli standard.
Perché un’alta temperatura funziona qui
Ipotesi:
- la distribuzione di allenamento favorisce l’esplorazione
- la modalità di ragionamento dipende dalla diversità
- il modello compensa la mancanza di controllo esplicito sul chain-of-thought
Risultato:
una temperatura più alta migliora lo spazio di ricerca delle soluzioni
Configurazione Gemma per Coding Agentic
Consigliato:
- temperature = 1.2
- top_p = 0.95
- top_k = 65
- penalties = 0.0
Importante
Non applicare ciecamente la regola tradizionale “bassa temperatura per il codice”.
Gemma è un’eccezione.
Modalità Thinking e Sistemi Agentici
Sia Qwen che Gemma supportano modalità di ragionamento.
Perché è importante
I loop agentici richiedono:
- ragionamento intermedio
- recupero dagli errori
- pianificazione multi-step
Regola pratica
Abilita sempre la modalità thinking per:
- agenti di coding
- uso di strumenti
- task multi-step
Strategia dei Parametri per Caso d’Uso
Agenti di coding
- dare priorità al determinismo
- minimizzare le penalità
- campionamento stabile
Agenti di ragionamento
- temperatura moderata
- permettere l’esplorazione
- preservare la struttura
Chiamata di strumenti
- formattazione rigorosa
- bassa casualità
- pattern di token coerenti
Schema e strumenti JSON sono ortogonali ai logits; combina queste regole di campionamento con pattern di output strutturato per Ollama e Qwen3 in modo che i validatori rilevino meno tentativi.
Valori Predefiniti Vendor vs Realtà
I valori predefiniti dei produttori sono:
- sicuri
- generici
- non ottimizzati
Le scoperte della comunità mostrano spesso:
- migliori prestazioni
- regolazione specifica per il task
- aggiustamenti consapevoli dell’architettura
Esempio
Gemma:
- ufficiale: nessuna guida
- comunità: un’alta temperatura migliora il coding
Qwen:
- ufficiale: sezioni incoerenti
- comunità: i valori standardizzati convergono
Note Pratiche per il Deployment
Sotto concorrenza, code e suddivisioni della memoria interagiscono con i tentativi (retries) tanto quanto il campionamento—leggi come Ollama gestisce le richieste parallele insieme ai preset sopra.
Ollama
- funziona bene per entrambe le famiglie
- verificare la compatibilità GPU
- i valori predefiniti possono differire dal riferimento
vLLM
- supporta campionamento avanzato
- stabile per la produzione
- usa parametri espliciti
llama.cpp
- richiede l’ordinamento del sampler
- abilita sempre jinja per i modelli moderni
- una catena di sampler errata riduce la qualità dell’output
Punti Chiave
- non esiste un set di parametri universale
- l’architettura conta più della dimensione del modello
- i sistemi agentic richiedono una regolazione diversa dalla chat
- i benchmark della comunità sono spesso avanti rispetto ai produttori
Opinione Finale
La maggior parte delle guide sui parametri è obsoleta.
Presuppongono:
- uso in chat
- bassa temperatura per il codice
- configurazioni statiche
I modelli moderni violano queste assunzioni.
Se stai costruendo sistemi agentic:
trattare la regolazione dell’inferenza come un problema di design del sistema di prima classe
Non come un semplice file di configurazione.
Direzione Futura
Questo riferimento evolverà in:
- approfondimenti per singolo modello
- configurazioni specifiche per agenti
- tuning supportato da benchmark
Perché:
l’inferenza è dove la capacità del modello diventa prestazioni del sistema