Referentie voor parameters voor agentic LLM-inferentie voor Qwen en Gemma

Referentie voor het afstellen van agentische LLM’s

Inhoud

Deze pagina is een praktische referentie voor het afstemmen van agentische LLM-inferentie (temperatuur, top_p, top_k, penalties en hoe deze interacteren in meervoudige stappen en workflows met veel hulpmiddelen).

Hij staat naast de bredere LLM performance engineering hub en past het beste bij een duidelijk verhaal over LLM-hosting en -serving—doorvoer en planning domineren nog steeds wanneer het model gebrek ervaart, maar instabiele sampling verbruikt herhalingen en outputtokens voordat de GPU het doet.

Deze pagina consolideert:

  • door leveranciers aanbevolen parameters
  • ingebouwde standaardwaarden uit GGUF en API’s
  • praktijkvinden van de community
  • optimalisaties voor agentische workflows

Momenteel is het gericht op:

  • Qwen 3.6 (dense en MoE)
  • Gemma 4 (dense en MoE)

Als je terminalagenten zoals OpenCode gebruikt, combineer dan deze referentie met Lokale LLM-gedrag in OpenCode zodat resultaten op werklastniveau en samplerstandaarden op elkaar zijn afgestemd.

Het doel is eenvoudig:

Een enkele plek bieden om modellen te configureren voor agentloops, coderen en meervoudig redeneren.


TLDR Referentietabel - Alle modellen (agentische standaardwaarden)

Model Modus temp top_p top_k presence_penalty
Qwen 3.5 27B denken algemeen 1.0 0.95 20 0.0
Qwen 3.5 27B coderen 0.6 0.95 20 0.0
Qwen 3.5 35B MoE denken 1.0 0.95 20 1.5
Qwen 3.5 35B MoE coderen 0.6 0.95 20 0.0
Gemma 4 31B algemeen 1.0 0.95 64 0.0
Gemma 4 31B coderen 1.2 0.95 65 0.0
Gemma 4 26B MoE algemeen 1.0 0.95 64 0.0
Gemma 4 26B MoE coderen 1.2 0.95 65 0.0

Wat “Agentische Inferentie” eigenlijk betekent

De meeste parameterhandleidingen gaan uit van:

  • chat
  • eenmalige voltooiing
  • menselijke interactie

Agentische systemen zijn anders.

Ze vereisen:

  • meervoudig redeneren
  • hulpmiddeloproepen
  • consistente outputs
  • lage foutpropagatie

Dit verandert de prioriteiten bij het afstemmen.

Kernverschuiving

Gebruiksgeval Prioriteit
Chat natuurlijke taal kwaliteit
Creatief diversiteit
Agentisch consistentie + stabiliteit van redeneren

Qwen 3.6 Afstemmen

Dense versus MoE maakt uit

Qwen is een van de weinige families waarbij:

MoE andere penalties vereist

Dense (27B)

  • stabiel
  • voorspelbaar
  • geen routeringscomplexiteit

Aanbevolen:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • expert routing per token
  • risico op herhalingslussen

Aanbevolen:

  • presence_penalty = 1.5 (algemeen)
  • 0.0 voor coderen

Waarom dit belangrijk is

MoE-modellen kunnen vastlopen in het hergebruik van dezelfde experts.

Presence penalty helpt:

  • tokenpaden diversifiëren
  • redeneringsverkenning verbeteren

Qwen Agentische Codeerconfiguratie

Hier gaan de meeste mensen fout.

Correcte configuratie

  • temperature = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Waarom lage temperatuur werkt

Codeeragenten hebben nodig:

  • deterministische outputs
  • herhaalbare hulpmiddeloproepen
  • stabiele opmaak

Hogere temperatuur:

  • breekt JSON
  • introduceert gefantaseerde API’s
  • verhoogt herhalingen

Gemma 4 Afstemmen

Gemma gedraagt zich anders.

Geen officiële standaardwaarden

  • modelkaarten zijn leeg
  • configuraties zijn impliciet
  • echte afstemming komt van:
    • Google AI Studio
    • GGUF-standaardwaarden
    • community benchmarks

Het Tegenintuïtieve Vindst

Gemma 4 presteert beter met hogere temperatuur.

Waargenomen gedrag

Temp Resultaat
0.5 slecht redeneren
1.0 stabiele baseline
1.2 tot 1.5 beste codeerprestatie

Dit tegenstrijdig standaardadvies.


Waarom hoge temperatuur hier werkt

Hypothese:

  • trainingsdistributie favoriseert verkenning
  • redeneringsmodus hangt af van diversiteit
  • model compenseert voor gebrek aan expliciete chain-of-thought controle

Resultaat:

hogere temperatuur verbetert de zoekruimte voor oplossingen


Gemma Agentische Codeerconfiguratie

Aanbevolen:

  • temperature = 1.2
  • top_p = 0.95
  • top_k = 65
  • penalties = 0.0

Belangrijk

Pas de traditionele regel “lage temp voor code” niet blindeling toe.

Gemma is een uitzondering.


Denkmodus en Agentsystemen

Zowel Qwen als Gemma ondersteunen redeneringsmodi.

Waarom dit belangrijk is

Agentloops vereisen:

  • tussenredeneren
  • foutherstel
  • meervoudig plannen

Praktische regel

Schakel altijd de denkmodus in voor:

  • codeeragenten
  • hulpmiddelgebruik
  • meervoudige taken

Parametereenheid per Gebruiksgeval

Codeeragenten

  • prioriteer determinisme
  • minimaliseer penalties
  • stabiele sampling

Redeneringsagenten

  • matige temperatuur
  • sta verkenning toe
  • behoud structuur

Hulpmiddeloproepen

  • strikte opmaak
  • lage willekeur
  • consistente tokenpatronen

Schema- en JSON-hulpmiddelen zijn loodrecht op logits; combineer deze samplingregels met gestructureerde outputpatronen voor Ollama en Qwen3 zodat validators minder herhalingen zien.


Leveranciersstandaarden versus Realiteit

Leveranciersstandaarden zijn:

  • veilig
  • generiek
  • niet geoptimaliseerd

Communityvindsten tonen vaak:

  • betere prestaties
  • taak-specifieke afstemming
  • architectuur-bewuste aanpassingen

Voorbeeld

Gemma:

  • officieel: geen richtlijnen
  • community: hoge temperatuur verbetert coderen

Qwen:

  • officieel: inconsistentie secties
  • community: gestandaardiseerde waarden convergeren

Praktische Implementatienotes

Bij concurrentie wisselen wachtrijen en gehevensplitsen net zo veel met herhalingen als sampling—lees hoe Ollama parallelle verzoeken afhandelt naast de bovenstaande presets.

Ollama

  • werkt goed voor beide families
  • verifieer GPU-compatibiliteit
  • standaardwaarden kunnen afwijken van de referentie

vLLM

  • ondersteunt geavanceerde sampling
  • stabiel voor productie
  • gebruik expliciete parameters

llama.cpp

  • vereist samplerorde
  • schakel altijd jinja in voor moderne modellen
  • incorrecte samplerketen vermindert outputkwaliteit

Belangrijkste Aantekeningen

  • er is geen universele parameterset
  • architectuur is belangrijker dan modelgrootte
  • agentische systemen vereisen andere afstemming dan chat
  • community benchmarks lopen vaak voor op leveranciers

Eindoordeel

De meeste parameterhandleidingen zijn verouderd.

Ze gaan uit van:

  • chatgebruik
  • lage temperatuur voor code
  • statische configuraties

Moderne modellen breken die aannames.

Als je agentische systemen bouwt:

behandel inferentie-afstemming als een eerste-klasse systeemontwerp probleem

Niet als een configuratiebestand.


Toekomstige Richting

Deze referentie zal evolueren naar:

  • diepgaande analyses per model
  • agent-specifieke configuraties
  • door benchmarks ondersteunde afstemming

Omdat:

inferentie is waar modelcapaciteit systeemprestatie wordt

Abonneren

Ontvang nieuwe berichten over systemen, infrastructuur en AI-engineering.