¿Qué parámetros de inferencia son más importantes para la calidad de la salida de los LLM?

La temperatura, top_p y top_k son los parámetros más influyentes. La temperatura controla la aleatoriedad, top_p limita la masa de probabilidad y top_k restringe la selección de tokens. Juntos definen la diversidad y la estabilidad del resultado.

¿Por qué algunos modelos funcionan mejor con una temperatura más alta?

Algunos modelos, especialmente arquitecturas más recientes como Gemma 4, se benefician de temperaturas más altas porque su entrenamiento favorece la exploración. Esto puede mejorar el razonamiento y el rendimiento en programación, a pesar de las expectativas tradicionales.

¿Cómo deben configurarse los LLMs para agentes de codificación?

Los agentes de codificación se benefician de una temperatura más baja para una salida determinista, valores top_p estables y penalizaciones mínimas. La consistencia es más importante que la creatividad en el uso de herramientas y la generación de código.

¿Cuál es la diferencia entre los modelos densos y los de expertos mixtos (MoE) para el ajuste de inferencia?

Los modelos densos utilizan todos los parámetros por token y tienden a ser estables con penalizaciones menores. Los modelos MoE enrutan los tokens a través de expertos y pueden beneficiarse de penalizaciones de presencia para reducir la repetición y mejorar la diversidad.

¿Son fiables los valores predeterminados del proveedor para sistemas de producción?

Los valores predeterminados del proveedor son un buen punto de partida, pero a menudo requieren ajustes. Los benchmarks de la comunidad y las pruebas en entornos reales suelen ofrecer configuraciones más adecuadas para cargas de trabajo específicas.

Referencia de parámetros de inferencia de LLMs agénticos para Qwen y Gemma

Referencia de ajuste de LLMs agénticos

Índice

Esta página es una referencia práctica para la afinación de inferencia de LLMs agentivos (temperatura, top_p, top_k, penalizaciones y cómo interactúan en flujos de trabajo multietapa y con uso intensivo de herramientas).

Se sitúa junto al centro de ingeniería de rendimiento de LLM y se complementa con una historia clara sobre alojamiento y servicio de LLM—el rendimiento y la planificación aún dominan cuando el modelo carece de recursos, pero un muestreo inestable quema reintentos y tokens de salida antes que la GPU.

Esta página consolida:

parámetros recomendados por los proveedores
valores predeterminados incrustados en GGUF y APIs
hallazgos comunitarios del mundo real
optimizaciones para flujos de trabajo agentivos

Actualmente se centra en:

Qwen 3.6 (denso y MoE)
Gemma 4 (denso y MoE)

Si ejecuta agentes de terminal como OpenCode, combine esta referencia con comportamiento de LLM local en OpenCode para que los resultados a nivel de carga de trabajo y los valores predeterminados del muestreador permanezcan alineados.

El objetivo es simple:

Proporcionar un único lugar para configurar modelos para ciclos de agentes, codificación y razonamiento multietapa.

Tabla de Referencia TLDR - Todos los modelos (valores predeterminados agentivos)

Modelo	Modo	temp	top_p	top_k	presence_penalty
Qwen 3.5 27B	pensamiento general	1.0	0.95	20	0.0
Qwen 3.5 27B	codificación	0.6	0.95	20	0.0
Qwen 3.5 35B MoE	pensamiento	1.0	0.95	20	1.5
Qwen 3.5 35B MoE	codificación	0.6	0.95	20	0.0
Gemma 4 31B	general	1.0	0.95	64	0.0
Gemma 4 31B	codificación	1.2	0.95	65	0.0
Gemma 4 26B MoE	general	1.0	0.95	64	0.0
Gemma 4 26B MoE	codificación	1.2	0.95	65	0.0

Qué significa realmente “Inferencia Agentiva”

La mayoría de las guías de parámetros asumen:

chat
finalización de un solo disparo (single-shot)
interacción humana

Los sistemas agentivos son diferentes.

Requieren:

razonamiento multietapa
llamada de herramientas
salidas consistentes
baja propagación de errores

Esto cambia las prioridades de afinación.

Cambio fundamental

Caso de uso	Prioridad
Chat	calidad del lenguaje natural
Creativo	diversidad
Agentivo	consistencia + estabilidad del razonamiento

Afinación de Qwen 3.6

La diferencia entre denso y MoE es importante

Qwen es una de las pocas familias donde:

MoE requiere penalizaciones diferentes

Denso (27B)

estable
predecible
sin complejidad de enrutamiento

Recomendado:

presence_penalty = 0.0

MoE (35B-A3B)

enrutamiento de expertos por token
riesgo de bucles de repetición

Recomendado:

presence_penalty = 1.5 (general)
0.0 para codificación

Por qué esto es importante

Los modelos MoE pueden quedarse atascados reutilizando los mismos expertos.

La penalización de presencia ayuda a:

diversificar las rutas de los tokens
mejorar la exploración del razonamiento

Configuración Agentiva de Codificación de Qwen

Aquí es donde la mayoría de las personas se equivocan.

Configuración correcta

temperatura = 0.6
top_p = 0.95
top_k = 20
presence_penalty = 0.0

Por qué funciona una temperatura baja

Los agentes de codificación necesitan:

salidas deterministas
llamadas de herramientas repetibles
formato estable

Una temperatura más alta:

rompe el JSON
introduce APIs alucinadas
aumenta los reintentos

Afinación de Gemma 4

Gemma se comporta de manera diferente.

Sin valores predeterminados oficiales

las tarjetas del modelo están vacías
las configuraciones son implícitas
la afinación real proviene de:
- Google AI Studio
- valores predeterminados de GGUF
- benchmarks comunitarios

El Hallazgo Contra-intuitivo

Gemma 4 rinde mejor con temperatura más alta.

Comportamiento observado

Temp	Resultado
0.5	razonamiento pobre
1.0	línea base estable
1.2 a 1.5	mejor rendimiento de codificación

Esto contradice el consejo estándar.

Por qué funciona una temperatura alta aquí

Hipótesis:

la distribución de entrenamiento favorece la exploración
el modo de razonamiento depende de la diversidad
el modelo compensa la falta de control explícito de cadena de pensamiento

Resultado:

una temperatura más alta mejora el espacio de búsqueda de soluciones

Configuración Agentiva de Codificación de Gemma

Recomendado:

temperatura = 1.2
top_p = 0.95
top_k = 65
penalizaciones = 0.0

Importante

No aplique ciegamente la regla tradicional de “temperatura baja para código”.

Gemma es una excepción.

Modo de Pensamiento y Sistemas Agentivos

Tanto Qwen como Gemma admiten modos de razonamiento.

Por qué es importante

Los ciclos de agentes requieren:

razonamiento intermedio
recuperación de errores
planificación multietapa

Regla práctica

Active siempre el modo de pensamiento para:

agentes de codificación
uso de herramientas
tareas multietapa

Estrategia de Parámetros por Caso de Uso

Agentes de codificación

priorizar el determinismo
minimizar penalizaciones
muestreo estable

Agentes de razonamiento

temperatura moderada
permitir exploración
preservar la estructura

Llamada de herramientas

formato estricto
baja aleatoriedad
patrones de tokens consistentes

Los esquemas y la herramienta JSON son ortogonales a los logits; combine estas reglas de muestreo con patrones de salida estructurada para Ollama y Qwen3 para que los validadores vean menos reintentos.

Valores Predeterminados del Proveedor vs. Realidad

Los valores predeterminados de los proveedores son:

seguros
genéricos
no optimizados

Los hallazgos comunitarios a menudo muestran:

mejor rendimiento
afinación específica para la tarea
ajustes conscientes de la arquitectura

Ejemplo

Gemma:

oficial: sin orientación
comunidad: una temperatura alta mejora la codificación

Qwen:

oficial: secciones inconsistentes
comunidad: los valores estandarizados convergen

Notas Prácticas de Despliegue

Bajo concurrencia, la cola y la división de memoria interactúan con los reintentos tanto como con el muestreo; lea cómo Ollama maneja solicitudes paralelas junto con los ajustes preestablecidos anteriores.

Ollama

funciona bien para ambas familias
verifique la compatibilidad de GPU
los valores predeterminados pueden diferir de la referencia

vLLM

admite muestreo avanzado
estable para producción
use parámetros explícitos

llama.cpp

requiere orden de muestreadores
active siempre jinja para modelos modernos
una cadena de muestreadores incorrecta reduce la calidad de la salida

Puntos Clave

no existe un conjunto de parámetros universal
la arquitectura importa más que el tamaño del modelo
los sistemas agentivos requieren una afinación diferente a la del chat
los benchmarks comunitarios a menudo están por delante de los proveedores

Opinión Final

La mayoría de las guías de parámetros están desactualizadas.

Asumen:

uso de chat
temperatura baja para código
configuraciones estáticas

Los modelos modernos rompen esas suposiciones.

Si está construyendo sistemas agentivos:

trate la afinación de inferencia como un problema de diseño de sistema de primera clase

No como un archivo de configuración.

Dirección Futura

Esta referencia evolucionará hacia:

análisis profundos por modelo
configuraciones específicas para agentes
afinación respaldada por benchmarks

Porque:

la inferencia es donde la capacidad del modelo se convierte en rendimiento del sistema

Tabla de Referencia TLDR - Todos los modelos (valores predeterminados agentivos)

Qué significa realmente “Inferencia Agentiva”

Cambio fundamental

Afinación de Qwen 3.6

La diferencia entre denso y MoE es importante

Denso (27B)

MoE (35B-A3B)

Por qué esto es importante

Configuración Agentiva de Codificación de Qwen

Configuración correcta

Por qué funciona una temperatura baja

Afinación de Gemma 4

Sin valores predeterminados oficiales

El Hallazgo Contra-intuitivo

Comportamiento observado

Por qué funciona una temperatura alta aquí

Configuración Agentiva de Codificación de Gemma

Importante

Modo de Pensamiento y Sistemas Agentivos

Por qué es importante

Regla práctica

Estrategia de Parámetros por Caso de Uso

Agentes de codificación

Agentes de razonamiento

Llamada de herramientas

Valores Predeterminados del Proveedor vs. Realidad

Ejemplo

Notas Prácticas de Despliegue

Ollama

vLLM

llama.cpp

Puntos Clave

Opinión Final

Dirección Futura

Suscribirse