Referenz zu den agentenbasierten LLM-Inferenzparametern für Qwen und Gemma

Referenz für die Feinabstimmung von agentic LLMs

Inhaltsverzeichnis

Diese Seite dient als praktische Referenz für die Optimierung der agentischen LLM-Inferenz (Temperatur, top_p, top_k, Penalties und deren Interaktion in mehrstufigen und tool-lastigen Workflows).

Sie ergänzt den umfassenden Hub für LLM-Performance-Engineering und passt ideal zur LLM-Hosting- und Serving-Strategie – Durchsatz und Scheduling dominieren nach wie vor, wenn das Modell Ressourcenengpässe hat, aber instabiles Sampling verbraucht Wiederholungen und Output-Token, bevor die GPU dies tut.

Diese Seite fasst zusammen:

  • von Anbietern empfohlene Parameter
  • integrierte Standardwerte aus GGUF und APIs
  • praxisnahe Erkenntnisse der Community
  • Optimierungen für agentische Workflows

Der Fokus liegt derzeit auf:

  • Qwen 3.6 (Dense und MoE)
  • Gemma 4 (Dense und MoE)

Wenn Sie Terminal-Agenten wie OpenCode verwenden, kombinieren Sie diese Referenz mit lokalem LLM-Verhalten in OpenCode, damit die Ergebnisse auf Workload-Ebene und die Sampler-Standardwerte konsistent bleiben.

Das Ziel ist einfach:

Einen einzigen Ort bieten, an dem Modelle für Agent-Loops, Coding und mehrstufiges Reasoning konfiguriert werden können.


TL;DR-Referenztabellen – Alle Modelle (agentische Standardwerte)

Modell Modus Temp top_p top_k presence_penalty
Qwen 3.5 27B Denken allgemein 1.0 0.95 20 0.0
Qwen 3.5 27B Coding 0.6 0.95 20 0.0
Qwen 3.5 35B MoE Denken 1.0 0.95 20 1.5
Qwen 3.5 35B MoE Coding 0.6 0.95 20 0.0
Gemma 4 31B Allgemein 1.0 0.95 64 0.0
Gemma 4 31B Coding 1.2 0.95 65 0.0
Gemma 4 26B MoE Allgemein 1.0 0.95 64 0.0
Gemma 4 26B MoE Coding 1.2 0.95 65 0.0

Was „Agentische Inferenz“ tatsächlich bedeutet

Die meisten Parameter-Leitfaden gehen davon aus:

  • Chat
  • Einmalige Vervollständigung (Single-Shot)
  • Menschliche Interaktion

Agentische Systeme sind anders.

Sie erfordern:

  • mehrstufiges Reasoning
  • Tool-Calling (Aufruf von Werkzeugen)
  • konsistente Ausgaben
  • geringe Fehlerfortpflanzung

Dies verändert die Prioritäten bei der Optimierung.

Grundlegende Verschiebung

Anwendungsfall Priorität
Chat Qualität der natürlichen Sprache
Kreativ Vielfalt
Agentisch Konsistenz + Stabilität des Reasoning

Qwen 3.6 Tuning

Dense vs. MoE macht einen Unterschied

Qwen ist eine der wenigen Modellfamilien, bei der gilt:

MoE erfordert andere Penalties

Dense (27B)

  • stabil
  • vorhersehbar
  • keine Routing-Komplexität

Empfohlen:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • Expert-Routing pro Token
  • Risiko von Wiederholungsloops

Empfohlen:

  • presence_penalty = 1.5 (allgemein)
  • 0.0 für Coding

Warum das wichtig ist

MoE-Modelle können dazu neigen, dieselben Experten wiederholt zu verwenden.

Presence-Penalty hilft:

  • Token-Pfade zu diversifizieren
  • die Reasoning-Exploration zu verbessern

Qwen Agentisches Coding-Setup

Hier machen die meisten Menschen Fehler.

Korrektes Setup

  • temperature = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Warum niedrige Temperatur funktioniert

Coding-Agenten benötigen:

  • deterministische Ausgaben
  • wiederholbare Tool-Aufrufe
  • stabiles Format

Höhere Temperatur:

  • zerstört JSON-Strukturen
  • führt zu halluzinierten APIs
  • erhöht die Anzahl der Wiederholungen

Gemma 4 Tuning

Gemma verhält sich anders.

Keine offiziellen Standardwerte

  • Model Cards sind leer
  • Konfigurationen sind implizit
  • echtes Tuning stammt aus:
    • Google AI Studio
    • GGUF-Standardwerten
    • Community-Benchmarks

Die kontraintuitive Erkenntnis

Gemma 4 performt besser mit höherer Temperatur.

Beobachtetes Verhalten

Temp Ergebnis
0.5 schlechtes Reasoning
1.0 stabile Basis
1.2 bis 1.5 beste Coding-Performance

Dies widerspricht der Standardberatung.


Warum hohe Temperatur hier funktioniert

Hypothese:

  • Trainingsverteilung bevorzugt Exploration
  • Reasoning-Modus hängt von Vielfalt ab
  • Modell kompensiert den Mangel an expliziter Chain-of-Thought-Kontrolle

Ergebnis:

höhere Temperatur verbessert den Lösungsraum


Gemma Agentisches Coding-Setup

Empfohlen:

  • temperature = 1.2
  • top_p = 0.95
  • top_k = 65
  • penalties = 0.0

Wichtig

Wenden Sie die traditionelle Regel „niedrige Temperatur für Code“ nicht blind an.

Gemma ist eine Ausnahme.


Thinking-Modus und Agentensysteme

Sowohl Qwen als auch Gemma unterstützen Reasoning-Modi.

Warum das wichtig ist

Agent-Loops erfordern:

  • intermediäres Reasoning
  • Fehlerwiederherstellung
  • mehrstufige Planung

Praktische Regel

Aktivieren Sie den Thinking-Modus immer für:

  • Coding-Agenten
  • Tool-Nutzung
  • mehrstufige Aufgaben

Parameterstrategie nach Anwendungsfall

Coding-Agenten

  • Priorität auf Determinismus
  • Penalties minimieren
  • stabiles Sampling

Reasoning-Agenten

  • moderate Temperatur
  • Exploration ermöglichen
  • Struktur bewahren

Tool-Calling

  • striktes Format
  • niedrige Zufälligkeit
  • konsistente Token-Muster

Schema- und JSON-Tools sind orthogonal zu Logits; kombinieren Sie diese Sampling-Regeln mit Mustern für strukturierte Ausgaben für Ollama und Qwen3, damit Validatoren weniger Wiederholungen sehen.


Anbieter-Standardwerte vs. Realität

Anbieter-Standardwerte sind:

  • sicher
  • generisch
  • nicht optimiert

Community-Erkenntnisse zeigen oft:

  • bessere Performance
  • aufgabenbezogenes Tuning
  • architekturbewusste Anpassungen

Beispiel

Gemma:

  • offiziell: keine Anleitung
  • Community: hohe Temperatur verbessert Coding

Qwen:

  • offiziell: inkonsistente Abschnitte
  • Community: standardisierte Werte konvergieren

Praktische Hinweise zur Bereitstellung

Unter Konkurrenz interagieren Warteschlangen und Speicheraufteilungen genauso stark mit Wiederholungen wie das Sampling selbst – lesen Sie wie Ollama parallele Anfragen handhabt neben den obigen Presets.

Ollama

  • funktioniert gut für beide Familien
  • GPU-Kompatibilität überprüfen
  • Standardwerte können von der Referenz abweichen

vLLM

  • unterstützt fortschrittliches Sampling
  • stabil für den Produktivbetrieb
  • explizite Parameter verwenden

llama.cpp

  • erfordert Sampler-Reihenfolge
  • immer Jinja für moderne Modelle aktivieren
  • falsche Sampler-Kette reduziert die Ausgabequalität

Wichtige Erkenntnisse

  • es gibt keinen universellen Parametersatz
  • Architektur ist wichtiger als Modellgröße
  • agentische Systeme erfordern andere Optimierungen als Chat
  • Community-Benchmarks sind oft den Anbietern voraus

Letzte Meinung

Die meisten Parameter-Leitfaden sind veraltet.

Sie gehen davon aus:

  • Chat-Nutzung
  • niedrige Temperatur für Code
  • statische Konfigurationen

Moderne Modelle brechen diese Annahmen.

Wenn Sie agentische Systeme entwickeln:

behandeln Sie Inferenz-Tuning als ein erstklassiges Systemdesign-Problem

Nicht als eine Konfigurationsdatei.


Zukünftige Ausrichtung

Diese Referenz wird sich entwickeln zu:

  • tiefen Einblicken pro Modell
  • agentenspezifischen Konfigurationen
  • benchmarkgestütztem Tuning

Weil:

Inferenz der Ort ist, an dem Modellkapazität zu Systemperformance wird

Abonnieren

Neue Beiträge zu Systemen, Infrastruktur und KI-Engineering.