Referens för agenta LLM-inferensparametrar för Qwen och Gemma

Referens för agensbaserad LLM-tuning

Sidinnehåll

Denna sida är en praktisk referens för justering av agentic LLM-inferens (temperatur, top_p, top_k, strafftermer och hur de samverkar i flerstegs- och verktygstäta arbetsflöden).

Den kompletterar den bredare LLM-prestandaingenjörs-hubben och passar bäst ihop med en tydlig berättelse om LLM-värdskap och servering—genomströmning och schemaläggning dominerar fortfarande när modellen svälter, men instabil sampling förbrukar omstartar och utdata-tokens innan GPU:n hinner med.

Denna sida sammanställer:

  • leverantörsrekommenderade parametrar
  • inbyggda standardvärden från GGUF och API:er
  • faktiska resultat från communityn
  • optimeringar för agentic arbetsflöden

Just nu är fokus på:

  • Qwen 3.6 (dense och MoE)
  • Gemma 4 (dense och MoE)

Om du kör terminalagenter som OpenCode, kombinera denna referens med lokalt LLM-beteende i OpenCode så att resultat på arbetsbelastningsnivå och standardvärden för samplern stämmer överens.

Målet är enkelt:

Erbjuda en enda plats för att konfigurera modeller för agentloopar, kodning och flerstegsresonemang.


TLDR-referenstabell - Alla modeller (standardvärden för agentic)

Modell Läge temp top_p top_k presence_penalty
Qwen 3.5 27B tänkande generellt 1.0 0.95 20 0.0
Qwen 3.5 27B kodning 0.6 0.95 20 0.0
Qwen 3.5 35B MoE tänkande 1.0 0.95 20 1.5
Qwen 3.5 35B MoE kodning 0.6 0.95 20 0.0
Gemma 4 31B generellt 1.0 0.95 64 0.0
Gemma 4 31B kodning 1.2 0.95 65 0.0
Gemma 4 26B MoE generellt 1.0 0.95 64 0.0
Gemma 4 26B MoE kodning 1.2 0.95 65 0.0

Vad “Agentic Inferens” faktiskt betyder

De flesta parametrar guider utgår från:

  • chatt
  • engångskomplettering
  • mänsklig interaktion

Agentic system är annorlunda.

De kräver:

  • flerstegsresonemang
  • verktygsanrop
  • konsekventa utdata
  • låg felpropagering

Detta ändrar prioriteringarna för justering.

Grundläggande förändring

Användningsscenari Prioritet
Chatt naturligt språk, kvalitet
Kreativt mångfald
Agentic konsistens + stabilitet i resonemang

Justering av Qwen 3.6

Dense vs MoE spelar roll

Qwen är en av de få familjer där:

MoE kräver andra strafftermer

Dense (27B)

  • stabil
  • förutsägbar
  • ingen komplexitet i routning

Rekommenderas:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • expert-routning per token
  • risk för upprepningsslingor

Rekommenderas:

  • presence_penalty = 1.5 (generellt)
  • 0.0 för kodning

Varför detta spelar roll

MoE-modeller kan fastna i att återanvända samma experter.

Presence penalty hjälper till att:

  • diversifiera token-vägar
  • förbättra utforskning av resonemang

Qwen Agentic Kodningsuppsättning

Här är det de flesta gör fel.

Korrekt uppsättning

  • temperature = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Varför låg temperatur fungerar

Kodningsagenter behöver:

  • deterministiska utdata
  • upprepbara verktygsanrop
  • stabil formatering

Högre temperatur:

  • krossar JSON
  • introducerar hallucinerade API:er
  • ökar antalet omstartar

Justering av Gemma 4

Gemma beter sig annorlunda.

Inga officiella standardvärden

  • modellkort är tomma
  • konfigurationer är implicita
  • verklig justering kommer från:
    • Google AI Studio
    • GGUF-standardvärden
    • community-benchmarkar

Den motintuitiva upptäckten

Gemma 4 presterar bättre med högre temperatur.

Observerat beteende

Temp Resultat
0.5 dåligt resonemang
1.0 stabil baslinje
1.2 to 1.5 bäst kodningsprestanda

Detta motsäger standardråden.


Varför hög temperatur fungerar här

Hypotes:

  • träningsfördelningen gynnar utforskning
  • resonemangsmoden beror på mångfald
  • modellen kompenserar för brist på explicit kontroll av tankekedjor

Resultat:

högre temperatur förbättrar sökrymden för lösningar


Gemma Agentic Kodningsuppsättning

Rekommenderas:

  • temperature = 1.2
  • top_p = 0.95
  • top_k = 65
  • strafftermer = 0.0

Viktigt

Tillämpa inte den traditionella regeln “låg temp för kod” blindt.

Gemma är ett undantag.


Tänkande läge och agentsystem

Både Qwen och Gemma stöder resonemangsmoder.

Varför det spelar roll

Agentloopar kräver:

  • mellanliggande resonemang
  • felåterhämtning
  • flerstegsplanering

Praktisk regel

Aktivera alltid tänkande läge för:

  • kodningsagenter
  • verktygsanvändning
  • flerstegsuppgifter

Parametstrategi efter användningsscenari

Kodningsagenter

  • prioritera determinism
  • minimera strafftermer
  • stabil sampling

Resonemangsagenter

  • måttlig temperatur
  • tillåt utforskning
  • bevara struktur

Verktygsanrop

  • strikt formatering
  • låg slumpmässighet
  • konsekventa tokenmönster

Schema och JSON-verktyg är ortogonala mot logits; kombinera dessa samplingregler med strukturerade utdata-mönster för Ollama och Qwen3 så att validerare ser färre omstartar.


Leverantörsstandardvärden vs verkligheten

Leverantörsstandardvärden är:

  • säkra
  • generiska
  • inte optimerade

Communityns resultat visar ofta:

  • bättre prestanda
  • uppgiftsspecifik justering
  • justeringar med hänsyn till arkitektur

Exempel

Gemma:

  • officiellt: ingen vägledning
  • community: hög temperatur förbättrar kodning

Qwen:

  • officiellt: inkonsekventa sektioner
  • community: standardiserade värden konvergerar

Praktiska anteckningar för driftsättning

Vid konkurrens samverkar köhantering och minnesfördelning med omstartar lika mycket som sampling gör—läs hur Ollama hanterar parallella begäran tillsammans med ovanstående förinställningar.

Ollama

  • fungerar bra för båda familjerna
  • verifiera GPU-kompatibilitet
  • standardvärden kan skilja sig från referensen

vLLM

  • stödjer avancerad sampling
  • stabil för produktion
  • använd explicita parametrar

llama.cpp

  • kräver samplerordning
  • aktivera alltid jinja för moderna modeller
  • felaktig samplerkedja minskar utdatakvaliteten

Viktiga slutsatser

  • det finns inget universellt parametrarset
  • arkitektur spelar större roll än modellstorlek
  • agentic system kräver annan justering än chatt
  • community-benchmarkar är ofta före leverantörerna

Slutlig åsikt

De flesta parametrar guider är föråldrade.

De antar:

  • chattanvändning
  • låg temperatur för kod
  • statiska konfigurationer

Moderna modeller bryter dessa antaganden.

Om du bygger agentic system:

behandla inferensjustering som ett förstaklasssystemdesignproblem

Inte bara en konfigurationsfil.


Framtida riktning

Denna referens kommer att utvecklas till:

  • djupdykningar per modell
  • agentspecifika konfigurationer
  • justering baserad på benchmarkar

Eftersom:

inferens är där modellkapacitet blir systemprestanda

Prenumerera

Få nya inlägg om system, infrastruktur och AI-ingenjörskonst.