« Quels paramètres d’inférence influent le plus sur la qualité des sorties des LLM ? »

La température, top_p et top_k sont les paramètres les plus influents. La température contrôle l’aléatoire, top_p limite la masse de probabilité, et top_k restreint la sélection des tokens. Ensemble, ils définissent la diversité et la stabilité de la sortie.

« Pourquoi certains modèles fonctionnent-ils mieux avec une température plus élevée ? »

Certaines modèles, en particulier les architectures plus récentes comme Gemma 4, tirent parti d’une température plus élevée car leur formation favorise l’exploration. Cela peut améliorer les performances en raisonnement et en programmation, malgré les attentes traditionnelles.

Comment les LLM doivent-ils être configurés pour les agents de codage ?

Les agents de codage bénéficient d’une température plus basse pour des résultats déterministes, de valeurs top_p stables et de pénalités minimales. La cohérence est plus importante que la créativité dans l’utilisation des outils et la génération de code.

Quelle est la différence entre les modèles denses et les modèles MoE pour le réglage d’inférence ?

Les modèles denses utilisent tous les paramètres pour chaque token et ont tendance à être stables avec des pénalités plus faibles. Les modèles MoE distribuent les tokens entre différents experts et peuvent bénéficier de pénalités de présence pour réduire la répétition et améliorer la diversité.

Les configurations par défaut des fournisseurs sont-elles fiables pour les systèmes de production ?

Les valeurs par défaut du fournisseur constituent un point de départ pertinent, mais nécessitent souvent des ajustements. Les références communautaires et les tests en conditions réelles produisent fréquemment des configurations optimisées pour des charges de travail spécifiques.

Référence des paramètres d'inférence des LLMs agissants pour Qwen et Gemma

Référence pour l’ajustement des LLM agencés

Sommaire

Cette page est une référence pratique pour l’optimisation de l’inférence des LLMs agents (température, top_p, top_k, pénalités, et comment ils interagissent dans les flux de travail multi-étapes et intensifs en outils).

Elle s’inscrit aux côtés du centre d’ingénierie des performances des LLMs et correspond parfaitement à une approche d’hébergement et de service des LLMs—le débit et la planification dominent encore lorsque le modèle est sous-alimenté, mais un échantillonnage instable entraîne des retours et des tokens de sortie avant même que le GPU ne soit saturé.

Cette page consolide :

les paramètres recommandés par les fournisseurs
les valeurs par défaut intégrées des GGUF et des API
les conclusions de la communauté issues du monde réel
les optimisations des flux de travail agencés

Actuellement, elle se concentre sur :

Qwen 3.6 (dense et MoE)
Gemma 4 (dense et MoE)

Si vous utilisez des agents terminaux tels qu’OpenCode, associez cette référence à le comportement des LLMs locaux dans OpenCode afin que les résultats au niveau de la charge de travail et les valeurs par défaut de l’échantillonneur restent alignés.

L’objectif est simple :

Fournir un endroit unique pour configurer les modèles pour les boucles d’agents, le codage et le raisonnement multi-étapes.

Tableau de référence TLDR - Tous les modèles (valeurs par défaut agencées)

Modèle	Mode	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	réflexion général	1.0	0.95	20	0.0
Qwen 3.5 27B	codage	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	réflexion	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	codage	0.6	0.95	20	0.0
Gemma 4 31B	général	1.0	0.95	64	0.0
Gemma 4 31B	codage	1.2	0.95	65	0.0
Gemma 4 26B MoE	général	1.0	0.95	64	0.0
Gemma 4 26B MoE	codage	1.2	0.95	65	0.0

Ce que signifie réellement “l’inférence agencée”

La plupart des guides de paramètres supposent :

le chat
la complétion en un seul tir
l’interaction humaine

Les systèmes agencés sont différents.

Ils nécessitent :

un raisonnement multi-étapes
l’appel d’outils
des sorties cohérentes
une faible propagation des erreurs

Cela change les priorités de réglage.

Changement fondamental

Cas d’utilisation	Priorité
Chat	qualité du langage naturel
Créatif	diversité
Agencé	cohérence + stabilité du raisonnement

Réglage de Qwen 3.6

L’importance du Dense vs MoE

Qwen est l’une des rares familles où :

Le MoE nécessite des pénalités différentes

Dense (27B)

stable
prévisible
pas de complexité de routage

Recommandé :

presence_penalty = 0.0

MoE (35B-A3B)

routage des experts par token
risque de boucles de répétition

Recommandé :

presence_penalty = 1.5 (général)
0.0 pour le codage

Pourquoi c’est important

Les modèles MoE peuvent rester coincés en réutilisant les mêmes experts.

La pénalité de présence aide à :

diversifier les chemins des tokens
améliorer l’exploration du raisonnement

Configuration de codage agencé pour Qwen

C’est là que la plupart des gens se trompent.

Configuration correcte

temperature = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Pourquoi une température basse fonctionne

Les agents de codage ont besoin de :

des sorties déterministes
d’appels d’outils répétables
d’un formatage stable

Une température plus élevée :

brise le JSON
introduit des API hallucinées
augmente les retours

Réglage de Gemma 4

Gemma se comporte différemment.

Pas de valeurs par défaut officielles

les fiches modèles sont vides
les configurations sont implicites
le réglage réel vient de :
- Google AI Studio
- les valeurs par défaut GGUF
- les benchmarks communautaires

La découverte contre-intuitive

Gemma 4 performe mieux avec une température plus élevée.

Comportement observé

Temp	Résultat
0.5	raisonnement médiocre
1.0	ligne de base stable
1.2 à 1.5	meilleures performances de codage

Cela contredit les conseils standards.

Pourquoi une température élevée fonctionne ici

Hypothèse :

la distribution d’entraînement favorise l’exploration
le mode de raisonnement dépend de la diversité
le modèle compense le manque de contrôle explicite de la chaîne de pensée

Résultat :

une température plus élevée améliore l’espace de recherche de solutions

Configuration de codage agencé pour Gemma

Recommandé :

temperature = 1.2
top_p = 0.95
top_k = 65
penalties = 0.0

Important

N’appliquez pas aveuglément la règle traditionnelle de “température basse pour le code”.

Gemma est une exception.

Mode de réflexion et systèmes d’agents

Qwen et Gemma prennent en charge les modes de raisonnement.

Pourquoi c’est important

Les boucles d’agents nécessitent :

un raisonnement intermédiaire
la récupération d’erreurs
la planification multi-étapes

Règle pratique

Activez toujours le mode de réflexion pour :

les agents de codage
l’utilisation d’outils
les tâches multi-étapes

Stratégie de paramètres par cas d’utilisation

Agents de codage

privilégier le déterminisme
minimiser les pénalités
échantillonnage stable

Agents de raisonnement

température modérée
permettre l’exploration
préserver la structure

Appel d’outils

formatage strict
faible aléatoire
motifs de tokens cohérents

Le schéma et les outils JSON sont orthogonaux aux logits ; combinez ces règles d’échantillonnage avec les modèles de sortie structurée pour Ollama et Qwen3 afin que les validateurs voient moins de retours.

Valeurs par défaut des fournisseurs vs Réalité

Les valeurs par défaut des fournisseurs sont :

sûres
génériques
non optimisées

Les découvertes de la communauté montrent souvent :

de meilleures performances
un réglage spécifique à la tâche
des ajustements conscients de l’architecture

Exemple

Gemma :

officiel : aucune guidance
communauté : une température élevée améliore le codage

Qwen :

officiel : sections incohérentes
communauté : les valeurs standardisées convergent

Notes de déploiement pratiques

Sous concurrence, la file d’attente et les divisions de mémoire interagissent avec les retours autant que l’échantillonnage—lisez comment Ollama gère les requêtes parallèles en plus des préréglages ci-dessus.

Ollama

fonctionne bien pour les deux familles
vérifier la compatibilité GPU
les valeurs par défaut peuvent différer de la référence

vLLM

prend en charge l’échantillonnage avancé
stable pour la production
utiliser des paramètres explicites

llama.cpp

nécessite un ordonnancement des échantillonneurs
toujours activer jinja pour les modèles modernes
une chaîne d’échantillonneurs incorrecte réduit la qualité de la sortie

Points clés

il n’existe pas de jeu de paramètres universel
l’architecture importe plus que la taille du modèle
les systèmes agencés nécessitent un réglage différent du chat
les benchmarks communautaires sont souvent en avance sur les fournisseurs

Opinion finale

La plupart des guides de paramètres sont dépassés.

Ils supposent :

l’utilisation en chat
une température basse pour le code
des configurations statiques

Les modèles modernes brisent ces hypothèses.

Si vous construisez des systèmes agencés :

considérez l’optimisation de l’inférence comme un problème de conception système de premier ordre

Et non comme un simple fichier de configuration.

Orientation future

Cette référence évoluera vers :

des analyses approfondies par modèle
des configurations spécifiques aux agents
un réglage soutenu par des benchmarks

Parce que :

l’inférence est là où la capacité du modèle devient la performance du système

Tableau de référence TLDR - Tous les modèles (valeurs par défaut agencées)

Ce que signifie réellement “l’inférence agencée”

Changement fondamental

Réglage de Qwen 3.6

L’importance du Dense vs MoE

Dense (27B)

MoE (35B-A3B)

Pourquoi c’est important

Configuration de codage agencé pour Qwen

Configuration correcte

Pourquoi une température basse fonctionne

Réglage de Gemma 4

Pas de valeurs par défaut officielles

La découverte contre-intuitive

Comportement observé

Pourquoi une température élevée fonctionne ici

Configuration de codage agencé pour Gemma

Important

Mode de réflexion et systèmes d’agents

Pourquoi c’est important

Règle pratique

Stratégie de paramètres par cas d’utilisation

Agents de codage

Agents de raisonnement

Appel d’outils

Valeurs par défaut des fournisseurs vs Réalité

Exemple

Notes de déploiement pratiques

Ollama

vLLM

llama.cpp

Points clés

Opinion finale

Orientation future

S'abonner