Welche Inferenzparameter beeinflussen die Qualität von LLM-Ausgaben am stärksten?

Temperature, top_p und top_k sind die einflussreichsten Parameter. Temperature steuert die Zufälligkeit, top_p begrenzt die Wahrscheinlichkeitsmasse und top_k schränkt die Tokenauswahl ein. Gemeinsam bestimmen sie die Vielfalt und Stabilität der Ausgabe.

Warum performen einige Modelle bei höherer Temperatur besser?

Einige Modelle, insbesondere neuere Architekturen wie Gemma 4, profitieren von einer höheren Temperatur, da ihr Training Exploration begünstigt. Dies kann die Leistung bei Reasoning und Coding trotz traditioneller Erwartungen verbessern.

Wie sollten LLMs für Coding Agents konfiguriert werden?

Coding Agents profitieren von einem niedrigeren Temperature-Wert für deterministische Ausgaben, stabilen top_p-Werten und minimalen Penalties. Bei der Tool-Nutzung und Code-Generierung ist Konsistenz wichtiger als Kreativität.

Was ist der Unterschied zwischen Dense- und MoE-Modellen für die Inferenz-Optimierung?

Dense-Modelle verwenden alle Parameter pro Token und neigen dazu, bei geringeren Penalties stabil zu sein. MoE-Modelle (Mixture-of-Experts) leiten Tokens an verschiedene Experten weiter und können von Presence-Penalties profitieren, um Wiederholungen zu reduzieren und die Vielfalt zu erhöhen.

Sind Vendor-Defaults für Produktionssysteme zuverlässig?

Vendor-Standardwerte sind ein guter Ausgangspunkt, müssen jedoch häufig angepasst werden. Community-Benchmarks und Tests in der Praxis führen oft zu besseren Konfigurationen für spezifische Workloads.

Referenz zu den agentenbasierten LLM-Inferenzparametern für Qwen und Gemma

Referenz für die Feinabstimmung von agentic LLMs

Inhaltsverzeichnis

Diese Seite dient als praktische Referenz für die Optimierung der agentischen LLM-Inferenz (Temperatur, top_p, top_k, Penalties und deren Interaktion in mehrstufigen und tool-lastigen Workflows).

Sie ergänzt den umfassenden Hub für LLM-Performance-Engineering und passt ideal zur LLM-Hosting- und Serving-Strategie – Durchsatz und Scheduling dominieren nach wie vor, wenn das Modell Ressourcenengpässe hat, aber instabiles Sampling verbraucht Wiederholungen und Output-Token, bevor die GPU dies tut.

Diese Seite fasst zusammen:

von Anbietern empfohlene Parameter
integrierte Standardwerte aus GGUF und APIs
praxisnahe Erkenntnisse der Community
Optimierungen für agentische Workflows

Der Fokus liegt derzeit auf:

Qwen 3.6 (Dense und MoE)
Gemma 4 (Dense und MoE)

Wenn Sie Terminal-Agenten wie OpenCode verwenden, kombinieren Sie diese Referenz mit lokalem LLM-Verhalten in OpenCode, damit die Ergebnisse auf Workload-Ebene und die Sampler-Standardwerte konsistent bleiben.

Das Ziel ist einfach:

Einen einzigen Ort bieten, an dem Modelle für Agent-Loops, Coding und mehrstufiges Reasoning konfiguriert werden können.

TL;DR-Referenztabellen – Alle Modelle (agentische Standardwerte)

Modell	Modus	Temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	Denken allgemein	1.0	0.95	20	0.0
Qwen 3.5 27B	Coding	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	Denken	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	Coding	0.6	0.95	20	0.0
Gemma 4 31B	Allgemein	1.0	0.95	64	0.0
Gemma 4 31B	Coding	1.2	0.95	65	0.0
Gemma 4 26B MoE	Allgemein	1.0	0.95	64	0.0
Gemma 4 26B MoE	Coding	1.2	0.95	65	0.0

Was „Agentische Inferenz“ tatsächlich bedeutet

Die meisten Parameter-Leitfaden gehen davon aus:

Chat
Einmalige Vervollständigung (Single-Shot)
Menschliche Interaktion

Agentische Systeme sind anders.

Sie erfordern:

mehrstufiges Reasoning
Tool-Calling (Aufruf von Werkzeugen)
konsistente Ausgaben
geringe Fehlerfortpflanzung

Dies verändert die Prioritäten bei der Optimierung.

Grundlegende Verschiebung

Anwendungsfall	Priorität
Chat	Qualität der natürlichen Sprache
Kreativ	Vielfalt
Agentisch	Konsistenz + Stabilität des Reasoning

Qwen 3.6 Tuning

Dense vs. MoE macht einen Unterschied

Qwen ist eine der wenigen Modellfamilien, bei der gilt:

MoE erfordert andere Penalties

Dense (27B)

stabil
vorhersehbar
keine Routing-Komplexität

MoE (35B-A3B)

Expert-Routing pro Token
Risiko von Wiederholungsloops

Warum das wichtig ist

MoE-Modelle können dazu neigen, dieselben Experten wiederholt zu verwenden.

Presence-Penalty hilft:

Token-Pfade zu diversifizieren
die Reasoning-Exploration zu verbessern

Qwen Agentisches Coding-Setup

Hier machen die meisten Menschen Fehler.

Korrektes Setup

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Warum niedrige Temperatur funktioniert

Coding-Agenten benötigen:

deterministische Ausgaben
wiederholbare Tool-Aufrufe
stabiles Format

Höhere Temperatur:

zerstört JSON-Strukturen
führt zu halluzinierten APIs
erhöht die Anzahl der Wiederholungen

Gemma 4 Tuning

Gemma verhält sich anders.

Keine offiziellen Standardwerte

Model Cards sind leer
Konfigurationen sind implizit
echtes Tuning stammt aus:
- Google AI Studio
- GGUF-Standardwerten
- Community-Benchmarks

Die kontraintuitive Erkenntnis

Gemma 4 performt besser mit höherer Temperatur.

Beobachtetes Verhalten

Temp	Ergebnis
0.5	schlechtes Reasoning
1.0	stabile Basis
1.2 bis 1.5	beste Coding-Performance

Dies widerspricht der Standardberatung.

Warum hohe Temperatur hier funktioniert

Hypothese:

Trainingsverteilung bevorzugt Exploration
Reasoning-Modus hängt von Vielfalt ab
Modell kompensiert den Mangel an expliziter Chain-of-Thought-Kontrolle

Ergebnis:

höhere Temperatur verbessert den Lösungsraum

Gemma Agentisches Coding-Setup

Wichtig

Wenden Sie die traditionelle Regel „niedrige Temperatur für Code“ nicht blind an.

Gemma ist eine Ausnahme.

Thinking-Modus und Agentensysteme

Sowohl Qwen als auch Gemma unterstützen Reasoning-Modi.

Warum das wichtig ist

Agent-Loops erfordern:

intermediäres Reasoning
Fehlerwiederherstellung
mehrstufige Planung

Praktische Regel

Aktivieren Sie den Thinking-Modus immer für:

Coding-Agenten
Tool-Nutzung
mehrstufige Aufgaben

Parameterstrategie nach Anwendungsfall

Coding-Agenten

Priorität auf Determinismus
Penalties minimieren
stabiles Sampling

Reasoning-Agenten

moderate Temperatur
Exploration ermöglichen
Struktur bewahren

Tool-Calling

striktes Format
niedrige Zufälligkeit
konsistente Token-Muster

Schema- und JSON-Tools sind orthogonal zu Logits; kombinieren Sie diese Sampling-Regeln mit Mustern für strukturierte Ausgaben für Ollama und Qwen3, damit Validatoren weniger Wiederholungen sehen.

Anbieter-Standardwerte vs. Realität

Anbieter-Standardwerte sind:

sicher
generisch
nicht optimiert

Community-Erkenntnisse zeigen oft:

bessere Performance
aufgabenbezogenes Tuning
architekturbewusste Anpassungen

Beispiel

Gemma:

offiziell: keine Anleitung
Community: hohe Temperatur verbessert Coding

Qwen:

offiziell: inkonsistente Abschnitte
Community: standardisierte Werte konvergieren

Praktische Hinweise zur Bereitstellung

Unter Konkurrenz interagieren Warteschlangen und Speicheraufteilungen genauso stark mit Wiederholungen wie das Sampling selbst – lesen Sie wie Ollama parallele Anfragen handhabt neben den obigen Presets.

Ollama

funktioniert gut für beide Familien
GPU-Kompatibilität überprüfen
Standardwerte können von der Referenz abweichen

vLLM

unterstützt fortschrittliches Sampling
stabil für den Produktivbetrieb
explizite Parameter verwenden

llama.cpp

erfordert Sampler-Reihenfolge
immer Jinja für moderne Modelle aktivieren
falsche Sampler-Kette reduziert die Ausgabequalität

Wichtige Erkenntnisse

es gibt keinen universellen Parametersatz
Architektur ist wichtiger als Modellgröße
agentische Systeme erfordern andere Optimierungen als Chat
Community-Benchmarks sind oft den Anbietern voraus

Letzte Meinung

Die meisten Parameter-Leitfaden sind veraltet.

Sie gehen davon aus:

Chat-Nutzung
niedrige Temperatur für Code
statische Konfigurationen

Moderne Modelle brechen diese Annahmen.

Wenn Sie agentische Systeme entwickeln:

behandeln Sie Inferenz-Tuning als ein erstklassiges Systemdesign-Problem

Nicht als eine Konfigurationsdatei.

Zukünftige Ausrichtung

Diese Referenz wird sich entwickeln zu:

tiefen Einblicken pro Modell
agentenspezifischen Konfigurationen
benchmarkgestütztem Tuning

Weil:

Inferenz der Ort ist, an dem Modellkapazität zu Systemperformance wird

TL;DR-Referenztabellen – Alle Modelle (agentische Standardwerte)

Was „Agentische Inferenz“ tatsächlich bedeutet

Grundlegende Verschiebung

Qwen 3.6 Tuning

Dense vs. MoE macht einen Unterschied

Dense (27B)

MoE (35B-A3B)

Warum das wichtig ist

Qwen Agentisches Coding-Setup

Korrektes Setup

Warum niedrige Temperatur funktioniert

Gemma 4 Tuning

Keine offiziellen Standardwerte

Die kontraintuitive Erkenntnis

Beobachtetes Verhalten

Warum hohe Temperatur hier funktioniert

Gemma Agentisches Coding-Setup

Wichtig

Thinking-Modus und Agentensysteme

Warum das wichtig ist

Praktische Regel

Parameterstrategie nach Anwendungsfall

Coding-Agenten

Reasoning-Agenten

Tool-Calling

Anbieter-Standardwerte vs. Realität

Beispiel

Praktische Hinweise zur Bereitstellung

Ollama

vLLM

llama.cpp

Wichtige Erkenntnisse

Letzte Meinung

Zukünftige Ausrichtung

Abonnieren