Referenz zu den agentenbasierten LLM-Inferenzparametern für Qwen und Gemma
Referenz für die Feinabstimmung von agentic LLMs
Diese Seite dient als praktische Referenz für die Optimierung der agentischen LLM-Inferenz (Temperatur, top_p, top_k, Penalties und deren Interaktion in mehrstufigen und tool-lastigen Workflows).
Sie ergänzt den umfassenden Hub für LLM-Performance-Engineering und passt ideal zur LLM-Hosting- und Serving-Strategie – Durchsatz und Scheduling dominieren nach wie vor, wenn das Modell Ressourcenengpässe hat, aber instabiles Sampling verbraucht Wiederholungen und Output-Token, bevor die GPU dies tut.
Diese Seite fasst zusammen:
- von Anbietern empfohlene Parameter
- integrierte Standardwerte aus GGUF und APIs
- praxisnahe Erkenntnisse der Community
- Optimierungen für agentische Workflows
Der Fokus liegt derzeit auf:
- Qwen 3.6 (Dense und MoE)
- Gemma 4 (Dense und MoE)
Wenn Sie Terminal-Agenten wie OpenCode verwenden, kombinieren Sie diese Referenz mit lokalem LLM-Verhalten in OpenCode, damit die Ergebnisse auf Workload-Ebene und die Sampler-Standardwerte konsistent bleiben.
Das Ziel ist einfach:
Einen einzigen Ort bieten, an dem Modelle für Agent-Loops, Coding und mehrstufiges Reasoning konfiguriert werden können.
TL;DR-Referenztabellen – Alle Modelle (agentische Standardwerte)
| Modell | Modus | Temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | Denken allgemein | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | Coding | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | Denken | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | Coding | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | Allgemein | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | Coding | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | Allgemein | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | Coding | 1.2 | 0.95 | 65 | 0.0 |
Was „Agentische Inferenz“ tatsächlich bedeutet
Die meisten Parameter-Leitfaden gehen davon aus:
- Chat
- Einmalige Vervollständigung (Single-Shot)
- Menschliche Interaktion
Agentische Systeme sind anders.
Sie erfordern:
- mehrstufiges Reasoning
- Tool-Calling (Aufruf von Werkzeugen)
- konsistente Ausgaben
- geringe Fehlerfortpflanzung
Dies verändert die Prioritäten bei der Optimierung.
Grundlegende Verschiebung
| Anwendungsfall | Priorität |
|---|---|
| Chat | Qualität der natürlichen Sprache |
| Kreativ | Vielfalt |
| Agentisch | Konsistenz + Stabilität des Reasoning |
Qwen 3.6 Tuning
Dense vs. MoE macht einen Unterschied
Qwen ist eine der wenigen Modellfamilien, bei der gilt:
MoE erfordert andere Penalties
Dense (27B)
- stabil
- vorhersehbar
- keine Routing-Komplexität
Empfohlen:
- presence_penalty = 0.0
MoE (35B-A3B)
- Expert-Routing pro Token
- Risiko von Wiederholungsloops
Empfohlen:
- presence_penalty = 1.5 (allgemein)
- 0.0 für Coding
Warum das wichtig ist
MoE-Modelle können dazu neigen, dieselben Experten wiederholt zu verwenden.
Presence-Penalty hilft:
- Token-Pfade zu diversifizieren
- die Reasoning-Exploration zu verbessern
Qwen Agentisches Coding-Setup
Hier machen die meisten Menschen Fehler.
Korrektes Setup
- temperature = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Warum niedrige Temperatur funktioniert
Coding-Agenten benötigen:
- deterministische Ausgaben
- wiederholbare Tool-Aufrufe
- stabiles Format
Höhere Temperatur:
- zerstört JSON-Strukturen
- führt zu halluzinierten APIs
- erhöht die Anzahl der Wiederholungen
Gemma 4 Tuning
Gemma verhält sich anders.
Keine offiziellen Standardwerte
- Model Cards sind leer
- Konfigurationen sind implizit
- echtes Tuning stammt aus:
- Google AI Studio
- GGUF-Standardwerten
- Community-Benchmarks
Die kontraintuitive Erkenntnis
Gemma 4 performt besser mit höherer Temperatur.
Beobachtetes Verhalten
| Temp | Ergebnis |
|---|---|
| 0.5 | schlechtes Reasoning |
| 1.0 | stabile Basis |
| 1.2 bis 1.5 | beste Coding-Performance |
Dies widerspricht der Standardberatung.
Warum hohe Temperatur hier funktioniert
Hypothese:
- Trainingsverteilung bevorzugt Exploration
- Reasoning-Modus hängt von Vielfalt ab
- Modell kompensiert den Mangel an expliziter Chain-of-Thought-Kontrolle
Ergebnis:
höhere Temperatur verbessert den Lösungsraum
Gemma Agentisches Coding-Setup
Empfohlen:
- temperature = 1.2
- top_p = 0.95
- top_k = 65
- penalties = 0.0
Wichtig
Wenden Sie die traditionelle Regel „niedrige Temperatur für Code“ nicht blind an.
Gemma ist eine Ausnahme.
Thinking-Modus und Agentensysteme
Sowohl Qwen als auch Gemma unterstützen Reasoning-Modi.
Warum das wichtig ist
Agent-Loops erfordern:
- intermediäres Reasoning
- Fehlerwiederherstellung
- mehrstufige Planung
Praktische Regel
Aktivieren Sie den Thinking-Modus immer für:
- Coding-Agenten
- Tool-Nutzung
- mehrstufige Aufgaben
Parameterstrategie nach Anwendungsfall
Coding-Agenten
- Priorität auf Determinismus
- Penalties minimieren
- stabiles Sampling
Reasoning-Agenten
- moderate Temperatur
- Exploration ermöglichen
- Struktur bewahren
Tool-Calling
- striktes Format
- niedrige Zufälligkeit
- konsistente Token-Muster
Schema- und JSON-Tools sind orthogonal zu Logits; kombinieren Sie diese Sampling-Regeln mit Mustern für strukturierte Ausgaben für Ollama und Qwen3, damit Validatoren weniger Wiederholungen sehen.
Anbieter-Standardwerte vs. Realität
Anbieter-Standardwerte sind:
- sicher
- generisch
- nicht optimiert
Community-Erkenntnisse zeigen oft:
- bessere Performance
- aufgabenbezogenes Tuning
- architekturbewusste Anpassungen
Beispiel
Gemma:
- offiziell: keine Anleitung
- Community: hohe Temperatur verbessert Coding
Qwen:
- offiziell: inkonsistente Abschnitte
- Community: standardisierte Werte konvergieren
Praktische Hinweise zur Bereitstellung
Unter Konkurrenz interagieren Warteschlangen und Speicheraufteilungen genauso stark mit Wiederholungen wie das Sampling selbst – lesen Sie wie Ollama parallele Anfragen handhabt neben den obigen Presets.
Ollama
- funktioniert gut für beide Familien
- GPU-Kompatibilität überprüfen
- Standardwerte können von der Referenz abweichen
vLLM
- unterstützt fortschrittliches Sampling
- stabil für den Produktivbetrieb
- explizite Parameter verwenden
llama.cpp
- erfordert Sampler-Reihenfolge
- immer Jinja für moderne Modelle aktivieren
- falsche Sampler-Kette reduziert die Ausgabequalität
Wichtige Erkenntnisse
- es gibt keinen universellen Parametersatz
- Architektur ist wichtiger als Modellgröße
- agentische Systeme erfordern andere Optimierungen als Chat
- Community-Benchmarks sind oft den Anbietern voraus
Letzte Meinung
Die meisten Parameter-Leitfaden sind veraltet.
Sie gehen davon aus:
- Chat-Nutzung
- niedrige Temperatur für Code
- statische Konfigurationen
Moderne Modelle brechen diese Annahmen.
Wenn Sie agentische Systeme entwickeln:
behandeln Sie Inferenz-Tuning als ein erstklassiges Systemdesign-Problem
Nicht als eine Konfigurationsdatei.
Zukünftige Ausrichtung
Diese Referenz wird sich entwickeln zu:
- tiefen Einblicken pro Modell
- agentenspezifischen Konfigurationen
- benchmarkgestütztem Tuning
Weil:
Inferenz der Ort ist, an dem Modellkapazität zu Systemperformance wird