Welke inferentieparameters zijn het meest belangrijk voor de kwaliteit van LLM-uitvoer?

Temperatuur, top_p en top_k zijn de meest bepalende parameters. Temperatuur regelt de willekeurigheid, top_p beperkt de waarschijnlijkheidsmassa en top_k beperkt de tokenselectie. Samen definiëren ze de diversiteit en stabiliteit van de output.

Waarom presteren sommige modellen beter met een hogere temperatuur?

Sommige modellen, met name nieuwere architecturen zoals Gemma 4, profiteren van een hogere temperatuur omdat hun training verkennen bevordert. Dit kan de prestaties op het gebied van redeneren en coderen verbeteren, in tegenstelling tot traditionele verwachtingen.

Hoe moeten LLM’s worden geconfigureerd voor coding agents?

Coding agents profiteren van een lagere temperatuur voor deterministische output, stabiele top_p-waarden en minimale penalties. Consistentie is belangrijker dan creativiteit bij het gebruik van tools en het genereren van code.

Wat is het verschil tussen dichte en MoE-modellen voor het afstellen van inferentie?

Dichte modellen gebruiken alle parameters per token en zijn over het algemeen stabiel bij lagere penalties. MoE-modellen routeren tokens naar experts en kunnen baat hebben bij presence penalties om herhaling te verminderen en diversiteit te verbeteren.

Zijn vendor-defaults betrouwbaar voor productiesystemen?

Standaardinstellingen van de leverancier vormen een goed uitgangspunt, maar vereisen vaak aanpassing. Community-standaarden en praktijktests leiden regelmatig tot betere configuraties voor specifieke workloads.

Referentie voor parameters voor agentic LLM-inferentie voor Qwen en Gemma

Referentie voor het afstellen van agentische LLM’s

Inhoud

Deze pagina is een praktische referentie voor het afstemmen van agentische LLM-inferentie (temperatuur, top_p, top_k, penalties en hoe deze interacteren in meervoudige stappen en workflows met veel hulpmiddelen).

Hij staat naast de bredere LLM performance engineering hub en past het beste bij een duidelijk verhaal over LLM-hosting en -serving—doorvoer en planning domineren nog steeds wanneer het model gebrek ervaart, maar instabiele sampling verbruikt herhalingen en outputtokens voordat de GPU het doet.

Deze pagina consolideert:

door leveranciers aanbevolen parameters
ingebouwde standaardwaarden uit GGUF en API’s
praktijkvinden van de community
optimalisaties voor agentische workflows

Momenteel is het gericht op:

Qwen 3.6 (dense en MoE)
Gemma 4 (dense en MoE)

Als je terminalagenten zoals OpenCode gebruikt, combineer dan deze referentie met Lokale LLM-gedrag in OpenCode zodat resultaten op werklastniveau en samplerstandaarden op elkaar zijn afgestemd.

Het doel is eenvoudig:

Een enkele plek bieden om modellen te configureren voor agentloops, coderen en meervoudig redeneren.

TLDR Referentietabel - Alle modellen (agentische standaardwaarden)

Model	Modus	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	denken algemeen	1.0	0.95	20	0.0
Qwen 3.5 27B	coderen	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	denken	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	coderen	0.6	0.95	20	0.0
Gemma 4 31B	algemeen	1.0	0.95	64	0.0
Gemma 4 31B	coderen	1.2	0.95	65	0.0
Gemma 4 26B MoE	algemeen	1.0	0.95	64	0.0
Gemma 4 26B MoE	coderen	1.2	0.95	65	0.0

Wat “Agentische Inferentie” eigenlijk betekent

De meeste parameterhandleidingen gaan uit van:

chat
eenmalige voltooiing
menselijke interactie

Agentische systemen zijn anders.

Ze vereisen:

meervoudig redeneren
hulpmiddeloproepen
consistente outputs
lage foutpropagatie

Dit verandert de prioriteiten bij het afstemmen.

Kernverschuiving

Gebruiksgeval	Prioriteit
Chat	natuurlijke taal kwaliteit
Creatief	diversiteit
Agentisch	consistentie + stabiliteit van redeneren

Qwen 3.6 Afstemmen

Dense versus MoE maakt uit

Qwen is een van de weinige families waarbij:

MoE andere penalties vereist

Dense (27B)

stabiel
voorspelbaar
geen routeringscomplexiteit

Aanbevolen:

presence_penalty = 0.0

MoE (35B-A3B)

expert routing per token
risico op herhalingslussen

Aanbevolen:

presence_penalty = 1.5 (algemeen)
0.0 voor coderen

Waarom dit belangrijk is

MoE-modellen kunnen vastlopen in het hergebruik van dezelfde experts.

Presence penalty helpt:

tokenpaden diversifiëren
redeneringsverkenning verbeteren

Qwen Agentische Codeerconfiguratie

Hier gaan de meeste mensen fout.

Correcte configuratie

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Waarom lage temperatuur werkt

Codeeragenten hebben nodig:

deterministische outputs
herhaalbare hulpmiddeloproepen
stabiele opmaak

Hogere temperatuur:

breekt JSON
introduceert gefantaseerde API’s
verhoogt herhalingen

Gemma 4 Afstemmen

Gemma gedraagt zich anders.

Geen officiële standaardwaarden

modelkaarten zijn leeg
configuraties zijn impliciet
echte afstemming komt van:
- Google AI Studio
- GGUF-standaardwaarden
- community benchmarks

Het Tegenintuïtieve Vindst

Gemma 4 presteert beter met hogere temperatuur.

Waargenomen gedrag

Temp	Resultaat
0.5	slecht redeneren
1.0	stabiele baseline
1.2 tot 1.5	beste codeerprestatie

Dit tegenstrijdig standaardadvies.

Waarom hoge temperatuur hier werkt

Hypothese:

trainingsdistributie favoriseert verkenning
redeneringsmodus hangt af van diversiteit
model compenseert voor gebrek aan expliciete chain-of-thought controle

Resultaat:

hogere temperatuur verbetert de zoekruimte voor oplossingen

Gemma Agentische Codeerconfiguratie

Aanbevolen:

temperature = 1.2
top_p = 0.95
top_k = 65
penalties = 0.0

Belangrijk

Pas de traditionele regel “lage temp voor code” niet blindeling toe.

Gemma is een uitzondering.

Denkmodus en Agentsystemen

Zowel Qwen als Gemma ondersteunen redeneringsmodi.

Waarom dit belangrijk is

Agentloops vereisen:

tussenredeneren
foutherstel
meervoudig plannen

Praktische regel

Schakel altijd de denkmodus in voor:

codeeragenten
hulpmiddelgebruik
meervoudige taken

Parametereenheid per Gebruiksgeval

Codeeragenten

prioriteer determinisme
minimaliseer penalties
stabiele sampling

Redeneringsagenten

matige temperatuur
sta verkenning toe
behoud structuur

Hulpmiddeloproepen

strikte opmaak
lage willekeur
consistente tokenpatronen

Schema- en JSON-hulpmiddelen zijn loodrecht op logits; combineer deze samplingregels met gestructureerde outputpatronen voor Ollama en Qwen3 zodat validators minder herhalingen zien.

Leveranciersstandaarden versus Realiteit

Leveranciersstandaarden zijn:

veilig
generiek
niet geoptimaliseerd

Communityvindsten tonen vaak:

betere prestaties
taak-specifieke afstemming
architectuur-bewuste aanpassingen

Voorbeeld

Gemma:

officieel: geen richtlijnen
community: hoge temperatuur verbetert coderen

Qwen:

officieel: inconsistentie secties
community: gestandaardiseerde waarden convergeren

Praktische Implementatienotes

Bij concurrentie wisselen wachtrijen en gehevensplitsen net zo veel met herhalingen als sampling—lees hoe Ollama parallelle verzoeken afhandelt naast de bovenstaande presets.

Ollama

werkt goed voor beide families
verifieer GPU-compatibiliteit
standaardwaarden kunnen afwijken van de referentie

vLLM

ondersteunt geavanceerde sampling
stabiel voor productie
gebruik expliciete parameters

llama.cpp

vereist samplerorde
schakel altijd jinja in voor moderne modellen
incorrecte samplerketen vermindert outputkwaliteit

Belangrijkste Aantekeningen

er is geen universele parameterset
architectuur is belangrijker dan modelgrootte
agentische systemen vereisen andere afstemming dan chat
community benchmarks lopen vaak voor op leveranciers

Eindoordeel

De meeste parameterhandleidingen zijn verouderd.

Ze gaan uit van:

chatgebruik
lage temperatuur voor code
statische configuraties

Moderne modellen breken die aannames.

Als je agentische systemen bouwt:

behandel inferentie-afstemming als een eerste-klasse systeemontwerp probleem

Niet als een configuratiebestand.

Toekomstige Richting

Deze referentie zal evolueren naar:

diepgaande analyses per model
agent-specifieke configuraties
door benchmarks ondersteunde afstemming

Omdat:

inferentie is waar modelcapaciteit systeemprestatie wordt

TLDR Referentietabel - Alle modellen (agentische standaardwaarden)

Wat “Agentische Inferentie” eigenlijk betekent

Kernverschuiving

Qwen 3.6 Afstemmen

Dense versus MoE maakt uit

Dense (27B)

MoE (35B-A3B)

Waarom dit belangrijk is

Qwen Agentische Codeerconfiguratie

Correcte configuratie

Waarom lage temperatuur werkt

Gemma 4 Afstemmen

Geen officiële standaardwaarden

Het Tegenintuïtieve Vindst

Waargenomen gedrag

Waarom hoge temperatuur hier werkt

Gemma Agentische Codeerconfiguratie

Belangrijk

Denkmodus en Agentsystemen

Waarom dit belangrijk is

Praktische regel

Parametereenheid per Gebruiksgeval

Codeeragenten

Redeneringsagenten

Hulpmiddeloproepen

Leveranciersstandaarden versus Realiteit

Voorbeeld

Praktische Implementatienotes

Ollama

vLLM

llama.cpp

Belangrijkste Aantekeningen

Eindoordeel

Toekomstige Richting

Abonneren