Referens för agenta LLM-inferensparametrar för Qwen och Gemma
Referens för agensbaserad LLM-tuning
Denna sida är en praktisk referens för justering av agentic LLM-inferens (temperatur, top_p, top_k, strafftermer och hur de samverkar i flerstegs- och verktygstäta arbetsflöden).
Den kompletterar den bredare LLM-prestandaingenjörs-hubben och passar bäst ihop med en tydlig berättelse om LLM-värdskap och servering—genomströmning och schemaläggning dominerar fortfarande när modellen svälter, men instabil sampling förbrukar omstartar och utdata-tokens innan GPU:n hinner med.
Denna sida sammanställer:
- leverantörsrekommenderade parametrar
- inbyggda standardvärden från GGUF och API:er
- faktiska resultat från communityn
- optimeringar för agentic arbetsflöden
Just nu är fokus på:
- Qwen 3.6 (dense och MoE)
- Gemma 4 (dense och MoE)
Om du kör terminalagenter som OpenCode, kombinera denna referens med lokalt LLM-beteende i OpenCode så att resultat på arbetsbelastningsnivå och standardvärden för samplern stämmer överens.
Målet är enkelt:
Erbjuda en enda plats för att konfigurera modeller för agentloopar, kodning och flerstegsresonemang.
TLDR-referenstabell - Alla modeller (standardvärden för agentic)
| Modell | Läge | temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | tänkande generellt | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | kodning | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | tänkande | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | kodning | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | generellt | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | kodning | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | generellt | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | kodning | 1.2 | 0.95 | 65 | 0.0 |
Vad “Agentic Inferens” faktiskt betyder
De flesta parametrar guider utgår från:
- chatt
- engångskomplettering
- mänsklig interaktion
Agentic system är annorlunda.
De kräver:
- flerstegsresonemang
- verktygsanrop
- konsekventa utdata
- låg felpropagering
Detta ändrar prioriteringarna för justering.
Grundläggande förändring
| Användningsscenari | Prioritet |
|---|---|
| Chatt | naturligt språk, kvalitet |
| Kreativt | mångfald |
| Agentic | konsistens + stabilitet i resonemang |
Justering av Qwen 3.6
Dense vs MoE spelar roll
Qwen är en av de få familjer där:
MoE kräver andra strafftermer
Dense (27B)
- stabil
- förutsägbar
- ingen komplexitet i routning
Rekommenderas:
- presence_penalty = 0.0
MoE (35B-A3B)
- expert-routning per token
- risk för upprepningsslingor
Rekommenderas:
- presence_penalty = 1.5 (generellt)
- 0.0 för kodning
Varför detta spelar roll
MoE-modeller kan fastna i att återanvända samma experter.
Presence penalty hjälper till att:
- diversifiera token-vägar
- förbättra utforskning av resonemang
Qwen Agentic Kodningsuppsättning
Här är det de flesta gör fel.
Korrekt uppsättning
- temperature = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Varför låg temperatur fungerar
Kodningsagenter behöver:
- deterministiska utdata
- upprepbara verktygsanrop
- stabil formatering
Högre temperatur:
- krossar JSON
- introducerar hallucinerade API:er
- ökar antalet omstartar
Justering av Gemma 4
Gemma beter sig annorlunda.
Inga officiella standardvärden
- modellkort är tomma
- konfigurationer är implicita
- verklig justering kommer från:
- Google AI Studio
- GGUF-standardvärden
- community-benchmarkar
Den motintuitiva upptäckten
Gemma 4 presterar bättre med högre temperatur.
Observerat beteende
| Temp | Resultat |
|---|---|
| 0.5 | dåligt resonemang |
| 1.0 | stabil baslinje |
| 1.2 to 1.5 | bäst kodningsprestanda |
Detta motsäger standardråden.
Varför hög temperatur fungerar här
Hypotes:
- träningsfördelningen gynnar utforskning
- resonemangsmoden beror på mångfald
- modellen kompenserar för brist på explicit kontroll av tankekedjor
Resultat:
högre temperatur förbättrar sökrymden för lösningar
Gemma Agentic Kodningsuppsättning
Rekommenderas:
- temperature = 1.2
- top_p = 0.95
- top_k = 65
- strafftermer = 0.0
Viktigt
Tillämpa inte den traditionella regeln “låg temp för kod” blindt.
Gemma är ett undantag.
Tänkande läge och agentsystem
Både Qwen och Gemma stöder resonemangsmoder.
Varför det spelar roll
Agentloopar kräver:
- mellanliggande resonemang
- felåterhämtning
- flerstegsplanering
Praktisk regel
Aktivera alltid tänkande läge för:
- kodningsagenter
- verktygsanvändning
- flerstegsuppgifter
Parametstrategi efter användningsscenari
Kodningsagenter
- prioritera determinism
- minimera strafftermer
- stabil sampling
Resonemangsagenter
- måttlig temperatur
- tillåt utforskning
- bevara struktur
Verktygsanrop
- strikt formatering
- låg slumpmässighet
- konsekventa tokenmönster
Schema och JSON-verktyg är ortogonala mot logits; kombinera dessa samplingregler med strukturerade utdata-mönster för Ollama och Qwen3 så att validerare ser färre omstartar.
Leverantörsstandardvärden vs verkligheten
Leverantörsstandardvärden är:
- säkra
- generiska
- inte optimerade
Communityns resultat visar ofta:
- bättre prestanda
- uppgiftsspecifik justering
- justeringar med hänsyn till arkitektur
Exempel
Gemma:
- officiellt: ingen vägledning
- community: hög temperatur förbättrar kodning
Qwen:
- officiellt: inkonsekventa sektioner
- community: standardiserade värden konvergerar
Praktiska anteckningar för driftsättning
Vid konkurrens samverkar köhantering och minnesfördelning med omstartar lika mycket som sampling gör—läs hur Ollama hanterar parallella begäran tillsammans med ovanstående förinställningar.
Ollama
- fungerar bra för båda familjerna
- verifiera GPU-kompatibilitet
- standardvärden kan skilja sig från referensen
vLLM
- stödjer avancerad sampling
- stabil för produktion
- använd explicita parametrar
llama.cpp
- kräver samplerordning
- aktivera alltid jinja för moderna modeller
- felaktig samplerkedja minskar utdatakvaliteten
Viktiga slutsatser
- det finns inget universellt parametrarset
- arkitektur spelar större roll än modellstorlek
- agentic system kräver annan justering än chatt
- community-benchmarkar är ofta före leverantörerna
Slutlig åsikt
De flesta parametrar guider är föråldrade.
De antar:
- chattanvändning
- låg temperatur för kod
- statiska konfigurationer
Moderna modeller bryter dessa antaganden.
Om du bygger agentic system:
behandla inferensjustering som ett förstaklasssystemdesignproblem
Inte bara en konfigurationsfil.
Framtida riktning
Denna referens kommer att utvecklas till:
- djupdykningar per modell
- agentspecifika konfigurationer
- justering baserad på benchmarkar
Eftersom:
inferens är där modellkapacitet blir systemprestanda