Vilka inferensparametrar påverkar LLM:ns utmatningskvalitet mest?

Temperature, top_p och top_k är de mest påverkande parametrarna. Temperature styr slumpmässigheten, top_p begränsar sannoliketsmassan och top_k begränsar tokenvalen. Tillsammans definierar de utdataens mångfald och stabilitet.

Varför presterar vissa modeller bättre med högre temperatur?

Vissa modeller, särskilt nyare arkitekturer som Gemma 4, drar nytta av högre temperatur eftersom deras träning gynnar utforskning. Detta kan förbättra prestandan vid resonemang och kodning trots traditionella förväntningar.

Hur ska LLM:er konfigureras för kodningsagenter?

Kodningsagenter drar nytta av lägre temperatur för deterministisk output, stabila top_p-värden och minimala straff. Konsistens är viktigare än kreativitet vid användning av verktyg och kodgenerering.

Vilken är skillnaden mellan dense- och MoE-modeller för anpassning av inferens?

Täta modeller använder alla parametrar per token och tenderar att vara stabila med lägre straff. MoE-modeller dirigerar token över experter och kan dra nytta av närvarostraff för att minska repetition och öka mångfalden.

Är leverantörens standardinställningar tillförlitliga för produktionssystem?

Tillverkarens standardinställningar är en bra startpunkt, men behöver ofta justeras. Branschstandarder och testning i praktiken ger ofta bättre konfigurationer för specifika arbetsbelastningar.

Referens för agenta LLM-inferensparametrar för Qwen och Gemma

Referens för agensbaserad LLM-tuning

Sidinnehåll

Denna sida är en praktisk referens för justering av agentic LLM-inferens (temperatur, top_p, top_k, strafftermer och hur de samverkar i flerstegs- och verktygstäta arbetsflöden).

Den kompletterar den bredare LLM-prestandaingenjörs-hubben och passar bäst ihop med en tydlig berättelse om LLM-värdskap och servering—genomströmning och schemaläggning dominerar fortfarande när modellen svälter, men instabil sampling förbrukar omstartar och utdata-tokens innan GPU:n hinner med.

Denna sida sammanställer:

leverantörsrekommenderade parametrar
inbyggda standardvärden från GGUF och API:er
faktiska resultat från communityn
optimeringar för agentic arbetsflöden

Just nu är fokus på:

Qwen 3.6 (dense och MoE)
Gemma 4 (dense och MoE)

Om du kör terminalagenter som OpenCode, kombinera denna referens med lokalt LLM-beteende i OpenCode så att resultat på arbetsbelastningsnivå och standardvärden för samplern stämmer överens.

Målet är enkelt:

Erbjuda en enda plats för att konfigurera modeller för agentloopar, kodning och flerstegsresonemang.

TLDR-referenstabell - Alla modeller (standardvärden för agentic)

Modell	Läge	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	tänkande generellt	1.0	0.95	20	0.0
Qwen 3.5 27B	kodning	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	tänkande	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	kodning	0.6	0.95	20	0.0
Gemma 4 31B	generellt	1.0	0.95	64	0.0
Gemma 4 31B	kodning	1.2	0.95	65	0.0
Gemma 4 26B MoE	generellt	1.0	0.95	64	0.0
Gemma 4 26B MoE	kodning	1.2	0.95	65	0.0

Vad “Agentic Inferens” faktiskt betyder

De flesta parametrar guider utgår från:

chatt
engångskomplettering
mänsklig interaktion

Agentic system är annorlunda.

De kräver:

flerstegsresonemang
verktygsanrop
konsekventa utdata
låg felpropagering

Detta ändrar prioriteringarna för justering.

Grundläggande förändring

Användningsscenari	Prioritet
Chatt	naturligt språk, kvalitet
Kreativt	mångfald
Agentic	konsistens + stabilitet i resonemang

Justering av Qwen 3.6

Dense vs MoE spelar roll

Qwen är en av de få familjer där:

MoE kräver andra strafftermer

Dense (27B)

stabil
förutsägbar
ingen komplexitet i routning

Rekommenderas:

presence_penalty = 0.0

MoE (35B-A3B)

expert-routning per token
risk för upprepningsslingor

Rekommenderas:

presence_penalty = 1.5 (generellt)
0.0 för kodning

Varför detta spelar roll

MoE-modeller kan fastna i att återanvända samma experter.

Presence penalty hjälper till att:

diversifiera token-vägar
förbättra utforskning av resonemang

Qwen Agentic Kodningsuppsättning

Här är det de flesta gör fel.

Korrekt uppsättning

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Varför låg temperatur fungerar

Kodningsagenter behöver:

deterministiska utdata
upprepbara verktygsanrop
stabil formatering

Högre temperatur:

krossar JSON
introducerar hallucinerade API:er
ökar antalet omstartar

Justering av Gemma 4

Gemma beter sig annorlunda.

Inga officiella standardvärden

modellkort är tomma
konfigurationer är implicita
verklig justering kommer från:
- Google AI Studio
- GGUF-standardvärden
- community-benchmarkar

Den motintuitiva upptäckten

Gemma 4 presterar bättre med högre temperatur.

Observerat beteende

Temp	Resultat
0.5	dåligt resonemang
1.0	stabil baslinje
1.2 to 1.5	bäst kodningsprestanda

Detta motsäger standardråden.

Varför hög temperatur fungerar här

Hypotes:

träningsfördelningen gynnar utforskning
resonemangsmoden beror på mångfald
modellen kompenserar för brist på explicit kontroll av tankekedjor

Resultat:

högre temperatur förbättrar sökrymden för lösningar

Gemma Agentic Kodningsuppsättning

Rekommenderas:

temperature = 1.2
top_p = 0.95
top_k = 65
strafftermer = 0.0

Viktigt

Tillämpa inte den traditionella regeln “låg temp för kod” blindt.

Gemma är ett undantag.

Tänkande läge och agentsystem

Både Qwen och Gemma stöder resonemangsmoder.

Varför det spelar roll

Agentloopar kräver:

mellanliggande resonemang
felåterhämtning
flerstegsplanering

Praktisk regel

Aktivera alltid tänkande läge för:

kodningsagenter
verktygsanvändning
flerstegsuppgifter

Parametstrategi efter användningsscenari

Kodningsagenter

prioritera determinism
minimera strafftermer
stabil sampling

Resonemangsagenter

måttlig temperatur
tillåt utforskning
bevara struktur

Verktygsanrop

strikt formatering
låg slumpmässighet
konsekventa tokenmönster

Schema och JSON-verktyg är ortogonala mot logits; kombinera dessa samplingregler med strukturerade utdata-mönster för Ollama och Qwen3 så att validerare ser färre omstartar.

Leverantörsstandardvärden vs verkligheten

Leverantörsstandardvärden är:

säkra
generiska
inte optimerade

Communityns resultat visar ofta:

bättre prestanda
uppgiftsspecifik justering
justeringar med hänsyn till arkitektur

Exempel

Gemma:

officiellt: ingen vägledning
community: hög temperatur förbättrar kodning

Qwen:

officiellt: inkonsekventa sektioner
community: standardiserade värden konvergerar

Praktiska anteckningar för driftsättning

Vid konkurrens samverkar köhantering och minnesfördelning med omstartar lika mycket som sampling gör—läs hur Ollama hanterar parallella begäran tillsammans med ovanstående förinställningar.

Ollama

fungerar bra för båda familjerna
verifiera GPU-kompatibilitet
standardvärden kan skilja sig från referensen

vLLM

stödjer avancerad sampling
stabil för produktion
använd explicita parametrar

llama.cpp

kräver samplerordning
aktivera alltid jinja för moderna modeller
felaktig samplerkedja minskar utdatakvaliteten

Viktiga slutsatser

det finns inget universellt parametrarset
arkitektur spelar större roll än modellstorlek
agentic system kräver annan justering än chatt
community-benchmarkar är ofta före leverantörerna

Slutlig åsikt

De flesta parametrar guider är föråldrade.

De antar:

chattanvändning
låg temperatur för kod
statiska konfigurationer

Moderna modeller bryter dessa antaganden.

Om du bygger agentic system:

behandla inferensjustering som ett förstaklasssystemdesignproblem

Inte bara en konfigurationsfil.

Framtida riktning

Denna referens kommer att utvecklas till:

djupdykningar per modell
agentspecifika konfigurationer
justering baserad på benchmarkar

Eftersom:

inferens är där modellkapacitet blir systemprestanda

TLDR-referenstabell - Alla modeller (standardvärden för agentic)

Vad “Agentic Inferens” faktiskt betyder

Grundläggande förändring

Justering av Qwen 3.6

Dense vs MoE spelar roll

Dense (27B)

MoE (35B-A3B)

Varför detta spelar roll

Qwen Agentic Kodningsuppsättning

Korrekt uppsättning

Varför låg temperatur fungerar

Justering av Gemma 4

Inga officiella standardvärden

Den motintuitiva upptäckten

Observerat beteende

Varför hög temperatur fungerar här

Gemma Agentic Kodningsuppsättning

Viktigt

Tänkande läge och agentsystem

Varför det spelar roll

Praktisk regel

Parametstrategi efter användningsscenari

Kodningsagenter

Resonemangsagenter

Verktygsanrop

Leverantörsstandardvärden vs verkligheten

Exempel

Praktiska anteckningar för driftsättning

Ollama

vLLM

llama.cpp

Viktiga slutsatser

Slutlig åsikt

Framtida riktning

Prenumerera