Quali parametri di inferenza incidono maggiormente sulla qualità dell’output degli LLM?

Temperature, top_p e top_k sono i parametri più influenti. Temperature controlla la casualità, top_p limita la massa di probabilità e top_k restringe la selezione dei token. Insieme definiscono la diversità e la stabilità dell’output.

Perché alcuni modelli funzionano meglio con un valore di temperatura più elevato?

Alcuni modelli, in particolare le architetture più recenti come Gemma 4, traggono vantaggio da temperature più elevate poiché il loro addestramento favorisce l’esplorazione. Ciò può migliorare le prestazioni nel ragionamento e nella generazione di codice, nonostante le aspettative tradizionali.

Come dovrebbero essere configurati gli LLM per gli agenti di coding?

Gli agenti di codifica beneficiano di una temperatura più bassa per un output deterministico, valori top_p stabili e penalità minime. La coerenza è più importante della creatività nell’utilizzo degli strumenti e nella generazione del codice.

Qual è la differenza tra i modelli densi e MoE per l’ottimizzazione dell’inferenza?

I modelli densi utilizzano tutti i parametri per ogni token e tendono a essere stabili con penalità più basse. I modelli MoE instradano i token tra diversi esperti e possono beneficiare di penalità di presenza per ridurre le ripetizioni e migliorare la diversità.

I valori predefiniti del fornitore sono affidabili per i sistemi di produzione?

I valori predefiniti del fornitore costituiscono un buon punto di partenza, ma spesso necessitano di regolazione. Benchmark della comunità e test sul campo producono frequentemente configurazioni migliori per carichi di lavoro specifici.

Riferimento ai parametri di inferenza per LLM agentic per Qwen e Gemma

Riferimento per l'ottimizzazione di LLM agentic

Indice

Questa pagina è un riferimento pratico per la regolazione dell’inferenza di LLM agentic (temperatura, top_p, top_k, penalità e come interagiscono in flussi di lavoro multi-step e intensivi nell’uso di strumenti).

Si affianca al più ampio hub sull’ingegneria delle prestazioni LLM ed è ideale da abbinare a una chiara guida sull’hosting e il serving degli LLM—il throughput e la pianificazione dominano ancora quando il modello è in carenza di risorse, ma un campionamento instabile consuma tentativi e token di output prima ancora che la GPU si saturi.

Questa pagina consolida:

parametri consigliati dai produttori
valori predefiniti incorporati nei GGUF e nelle API
risultati reali della comunità
ottimizzazioni per flussi di lavoro agentic

Al momento è focalizzata su:

Qwen 3.6 (dense e MoE)
Gemma 4 (dense e MoE)

Se utilizzi agenti terminali come OpenCode, abbina questo riferimento a comportamento degli LLM locali in OpenCode in modo che i risultati a livello di carico di lavoro e i valori predefiniti del sampler rimangano allineati.

L’obiettivo è semplice:

Fornire un unico punto di configurazione per i modelli per loop agentici, coding e ragionamento multi-step.

Tabella di riferimento TLDR - Tutti i modelli (valori predefiniti agentic)

Modello	Modalità	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	thinking general	1.0	0.95	20	0.0
Qwen 3.5 27B	coding	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	thinking	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	coding	0.6	0.95	20	0.0
Gemma 4 31B	general	1.0	0.95	64	0.0
Gemma 4 31B	coding	1.2	0.95	65	0.0
Gemma 4 26B MoE	general	1.0	0.95	64	0.0
Gemma 4 26B MoE	coding	1.2	0.95	65	0.0

Cosa significa realmente “Inferenza Agentic”

La maggior parte delle guide sui parametri presuppone:

chat
completamento singolo (single-shot)
interazione umana

I sistemi agentic sono diversi.

Richiedono:

ragionamento multi-step
chiamata di strumenti (tool calling)
output coerenti
bassa propagazione degli errori

Ciò cambia le priorità di regolazione.

Spostamento del focus

Caso d’uso	Priorità
Chat	qualità del linguaggio naturale
Creativo	diversità
Agentic	coerenza + stabilità del ragionamento

Regolazione di Qwen 3.6

La differenza tra Dense e MoE è importante

Qwen è una delle poche famiglie in cui:

MoE richiede penalità diverse

Dense (27B)

stabile
prevedibile
nessuna complessità di routing

Consigliato:

presence_penalty = 0.0

MoE (35B-A3B)

routing degli esperti per token
rischio di loop di ripetizione

Consigliato:

presence_penalty = 1.5 (generale)
0.0 per il coding

Perché è importante

I modelli MoE possono rimanere bloccati riutilizzando gli stessi esperti.

La penalità di presenza aiuta a:

diversificare i percorsi dei token
migliorare l’esplorazione del ragionamento

Configurazione Qwen per Coding Agentic

Qui è dove la maggior parte delle persone sbaglia.

Configurazione corretta

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Perché una temperatura bassa funziona

Gli agenti di coding hanno bisogno di:

output deterministici
chiamate di strumenti ripetibili
formattazione stabile

Una temperatura più alta:

rompe il JSON
introduce API allucinate
aumenta i tentativi (retries)

Regolazione di Gemma 4

Gemma si comporta in modo diverso.

Nessun valore predefinito ufficiale

le schede del modello sono vuote
le configurazioni sono implicite
la regolazione reale proviene da:
- Google AI Studio
- valori predefiniti GGUF
- benchmark della comunità

La Scoperta Controintuitiva

Gemma 4 performa meglio con una temperatura più alta.

Comportamento osservato

Temp	Risultato
0.5	ragionamento scarso
1.0	baseline stabile
1.2 to 1.5	migliori prestazioni di coding

Ciò contraddice i consigli standard.

Perché un’alta temperatura funziona qui

Ipotesi:

la distribuzione di allenamento favorisce l’esplorazione
la modalità di ragionamento dipende dalla diversità
il modello compensa la mancanza di controllo esplicito sul chain-of-thought

Risultato:

una temperatura più alta migliora lo spazio di ricerca delle soluzioni

Configurazione Gemma per Coding Agentic

Consigliato:

temperature = 1.2
top_p = 0.95
top_k = 65
penalties = 0.0

Importante

Non applicare ciecamente la regola tradizionale “bassa temperatura per il codice”.

Gemma è un’eccezione.

Modalità Thinking e Sistemi Agentici

Sia Qwen che Gemma supportano modalità di ragionamento.

Perché è importante

I loop agentici richiedono:

ragionamento intermedio
recupero dagli errori
pianificazione multi-step

Regola pratica

Abilita sempre la modalità thinking per:

agenti di coding
uso di strumenti
task multi-step

Strategia dei Parametri per Caso d’Uso

Agenti di coding

dare priorità al determinismo
minimizzare le penalità
campionamento stabile

Agenti di ragionamento

temperatura moderata
permettere l’esplorazione
preservare la struttura

Chiamata di strumenti

formattazione rigorosa
bassa casualità
pattern di token coerenti

Schema e strumenti JSON sono ortogonali ai logits; combina queste regole di campionamento con pattern di output strutturato per Ollama e Qwen3 in modo che i validatori rilevino meno tentativi.

Valori Predefiniti Vendor vs Realtà

I valori predefiniti dei produttori sono:

sicuri
generici
non ottimizzati

Le scoperte della comunità mostrano spesso:

migliori prestazioni
regolazione specifica per il task
aggiustamenti consapevoli dell’architettura

Esempio

Gemma:

ufficiale: nessuna guida
comunità: un’alta temperatura migliora il coding

Qwen:

ufficiale: sezioni incoerenti
comunità: i valori standardizzati convergono

Note Pratiche per il Deployment

Sotto concorrenza, code e suddivisioni della memoria interagiscono con i tentativi (retries) tanto quanto il campionamento—leggi come Ollama gestisce le richieste parallele insieme ai preset sopra.

Ollama

funziona bene per entrambe le famiglie
verificare la compatibilità GPU
i valori predefiniti possono differire dal riferimento

vLLM

supporta campionamento avanzato
stabile per la produzione
usa parametri espliciti

llama.cpp

richiede l’ordinamento del sampler
abilita sempre jinja per i modelli moderni
una catena di sampler errata riduce la qualità dell’output

Punti Chiave

non esiste un set di parametri universale
l’architettura conta più della dimensione del modello
i sistemi agentic richiedono una regolazione diversa dalla chat
i benchmark della comunità sono spesso avanti rispetto ai produttori

Opinione Finale

La maggior parte delle guide sui parametri è obsoleta.

Presuppongono:

uso in chat
bassa temperatura per il codice
configurazioni statiche

I modelli moderni violano queste assunzioni.

Se stai costruendo sistemi agentic:

trattare la regolazione dell’inferenza come un problema di design del sistema di prima classe

Non come un semplice file di configurazione.

Direzione Futura

Questo riferimento evolverà in:

approfondimenti per singolo modello
configurazioni specifiche per agenti
tuning supportato da benchmark

Perché:

l’inferenza è dove la capacità del modello diventa prestazioni del sistema

Tabella di riferimento TLDR - Tutti i modelli (valori predefiniti agentic)

Cosa significa realmente “Inferenza Agentic”

Spostamento del focus

Regolazione di Qwen 3.6

La differenza tra Dense e MoE è importante

Dense (27B)

MoE (35B-A3B)

Perché è importante

Configurazione Qwen per Coding Agentic

Configurazione corretta

Perché una temperatura bassa funziona

Regolazione di Gemma 4

Nessun valore predefinito ufficiale

La Scoperta Controintuitiva

Comportamento osservato

Perché un’alta temperatura funziona qui

Configurazione Gemma per Coding Agentic

Importante

Modalità Thinking e Sistemi Agentici

Perché è importante

Regola pratica

Strategia dei Parametri per Caso d’Uso

Agenti di coding

Agenti di ragionamento

Chiamata di strumenti

Valori Predefiniti Vendor vs Realtà

Esempio

Note Pratiche per il Deployment

Ollama

vLLM

llama.cpp

Punti Chiave

Opinione Finale

Direzione Futura

Iscriviti