Referentie voor parameters voor agentic LLM-inferentie voor Qwen en Gemma
Referentie voor het afstellen van agentische LLM’s
Deze pagina is een praktische referentie voor het afstemmen van agentische LLM-inferentie (temperatuur, top_p, top_k, penalties en hoe deze interacteren in meervoudige stappen en workflows met veel hulpmiddelen).
Hij staat naast de bredere LLM performance engineering hub en past het beste bij een duidelijk verhaal over LLM-hosting en -serving—doorvoer en planning domineren nog steeds wanneer het model gebrek ervaart, maar instabiele sampling verbruikt herhalingen en outputtokens voordat de GPU het doet.
Deze pagina consolideert:
- door leveranciers aanbevolen parameters
- ingebouwde standaardwaarden uit GGUF en API’s
- praktijkvinden van de community
- optimalisaties voor agentische workflows
Momenteel is het gericht op:
- Qwen 3.6 (dense en MoE)
- Gemma 4 (dense en MoE)
Als je terminalagenten zoals OpenCode gebruikt, combineer dan deze referentie met Lokale LLM-gedrag in OpenCode zodat resultaten op werklastniveau en samplerstandaarden op elkaar zijn afgestemd.
Het doel is eenvoudig:
Een enkele plek bieden om modellen te configureren voor agentloops, coderen en meervoudig redeneren.
TLDR Referentietabel - Alle modellen (agentische standaardwaarden)
| Model | Modus | temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | denken algemeen | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | coderen | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | denken | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | coderen | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | algemeen | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | coderen | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | algemeen | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | coderen | 1.2 | 0.95 | 65 | 0.0 |
Wat “Agentische Inferentie” eigenlijk betekent
De meeste parameterhandleidingen gaan uit van:
- chat
- eenmalige voltooiing
- menselijke interactie
Agentische systemen zijn anders.
Ze vereisen:
- meervoudig redeneren
- hulpmiddeloproepen
- consistente outputs
- lage foutpropagatie
Dit verandert de prioriteiten bij het afstemmen.
Kernverschuiving
| Gebruiksgeval | Prioriteit |
|---|---|
| Chat | natuurlijke taal kwaliteit |
| Creatief | diversiteit |
| Agentisch | consistentie + stabiliteit van redeneren |
Qwen 3.6 Afstemmen
Dense versus MoE maakt uit
Qwen is een van de weinige families waarbij:
MoE andere penalties vereist
Dense (27B)
- stabiel
- voorspelbaar
- geen routeringscomplexiteit
Aanbevolen:
- presence_penalty = 0.0
MoE (35B-A3B)
- expert routing per token
- risico op herhalingslussen
Aanbevolen:
- presence_penalty = 1.5 (algemeen)
- 0.0 voor coderen
Waarom dit belangrijk is
MoE-modellen kunnen vastlopen in het hergebruik van dezelfde experts.
Presence penalty helpt:
- tokenpaden diversifiëren
- redeneringsverkenning verbeteren
Qwen Agentische Codeerconfiguratie
Hier gaan de meeste mensen fout.
Correcte configuratie
- temperature = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Waarom lage temperatuur werkt
Codeeragenten hebben nodig:
- deterministische outputs
- herhaalbare hulpmiddeloproepen
- stabiele opmaak
Hogere temperatuur:
- breekt JSON
- introduceert gefantaseerde API’s
- verhoogt herhalingen
Gemma 4 Afstemmen
Gemma gedraagt zich anders.
Geen officiële standaardwaarden
- modelkaarten zijn leeg
- configuraties zijn impliciet
- echte afstemming komt van:
- Google AI Studio
- GGUF-standaardwaarden
- community benchmarks
Het Tegenintuïtieve Vindst
Gemma 4 presteert beter met hogere temperatuur.
Waargenomen gedrag
| Temp | Resultaat |
|---|---|
| 0.5 | slecht redeneren |
| 1.0 | stabiele baseline |
| 1.2 tot 1.5 | beste codeerprestatie |
Dit tegenstrijdig standaardadvies.
Waarom hoge temperatuur hier werkt
Hypothese:
- trainingsdistributie favoriseert verkenning
- redeneringsmodus hangt af van diversiteit
- model compenseert voor gebrek aan expliciete chain-of-thought controle
Resultaat:
hogere temperatuur verbetert de zoekruimte voor oplossingen
Gemma Agentische Codeerconfiguratie
Aanbevolen:
- temperature = 1.2
- top_p = 0.95
- top_k = 65
- penalties = 0.0
Belangrijk
Pas de traditionele regel “lage temp voor code” niet blindeling toe.
Gemma is een uitzondering.
Denkmodus en Agentsystemen
Zowel Qwen als Gemma ondersteunen redeneringsmodi.
Waarom dit belangrijk is
Agentloops vereisen:
- tussenredeneren
- foutherstel
- meervoudig plannen
Praktische regel
Schakel altijd de denkmodus in voor:
- codeeragenten
- hulpmiddelgebruik
- meervoudige taken
Parametereenheid per Gebruiksgeval
Codeeragenten
- prioriteer determinisme
- minimaliseer penalties
- stabiele sampling
Redeneringsagenten
- matige temperatuur
- sta verkenning toe
- behoud structuur
Hulpmiddeloproepen
- strikte opmaak
- lage willekeur
- consistente tokenpatronen
Schema- en JSON-hulpmiddelen zijn loodrecht op logits; combineer deze samplingregels met gestructureerde outputpatronen voor Ollama en Qwen3 zodat validators minder herhalingen zien.
Leveranciersstandaarden versus Realiteit
Leveranciersstandaarden zijn:
- veilig
- generiek
- niet geoptimaliseerd
Communityvindsten tonen vaak:
- betere prestaties
- taak-specifieke afstemming
- architectuur-bewuste aanpassingen
Voorbeeld
Gemma:
- officieel: geen richtlijnen
- community: hoge temperatuur verbetert coderen
Qwen:
- officieel: inconsistentie secties
- community: gestandaardiseerde waarden convergeren
Praktische Implementatienotes
Bij concurrentie wisselen wachtrijen en gehevensplitsen net zo veel met herhalingen als sampling—lees hoe Ollama parallelle verzoeken afhandelt naast de bovenstaande presets.
Ollama
- werkt goed voor beide families
- verifieer GPU-compatibiliteit
- standaardwaarden kunnen afwijken van de referentie
vLLM
- ondersteunt geavanceerde sampling
- stabiel voor productie
- gebruik expliciete parameters
llama.cpp
- vereist samplerorde
- schakel altijd jinja in voor moderne modellen
- incorrecte samplerketen vermindert outputkwaliteit
Belangrijkste Aantekeningen
- er is geen universele parameterset
- architectuur is belangrijker dan modelgrootte
- agentische systemen vereisen andere afstemming dan chat
- community benchmarks lopen vaak voor op leveranciers
Eindoordeel
De meeste parameterhandleidingen zijn verouderd.
Ze gaan uit van:
- chatgebruik
- lage temperatuur voor code
- statische configuraties
Moderne modellen breken die aannames.
Als je agentische systemen bouwt:
behandel inferentie-afstemming als een eerste-klasse systeemontwerp probleem
Niet als een configuratiebestand.
Toekomstige Richting
Deze referentie zal evolueren naar:
- diepgaande analyses per model
- agent-specifieke configuraties
- door benchmarks ondersteunde afstemming
Omdat:
inferentie is waar modelcapaciteit systeemprestatie wordt