Referencia de parámetros de inferencia de LLMs agénticos para Qwen y Gemma
Referencia de ajuste de LLMs agénticos
Esta página es una referencia práctica para la afinación de inferencia de LLMs agentivos (temperatura, top_p, top_k, penalizaciones y cómo interactúan en flujos de trabajo multietapa y con uso intensivo de herramientas).
Se sitúa junto al centro de ingeniería de rendimiento de LLM y se complementa con una historia clara sobre alojamiento y servicio de LLM—el rendimiento y la planificación aún dominan cuando el modelo carece de recursos, pero un muestreo inestable quema reintentos y tokens de salida antes que la GPU.
Esta página consolida:
- parámetros recomendados por los proveedores
- valores predeterminados incrustados en GGUF y APIs
- hallazgos comunitarios del mundo real
- optimizaciones para flujos de trabajo agentivos
Actualmente se centra en:
- Qwen 3.6 (denso y MoE)
- Gemma 4 (denso y MoE)
Si ejecuta agentes de terminal como OpenCode, combine esta referencia con comportamiento de LLM local en OpenCode para que los resultados a nivel de carga de trabajo y los valores predeterminados del muestreador permanezcan alineados.
El objetivo es simple:
Proporcionar un único lugar para configurar modelos para ciclos de agentes, codificación y razonamiento multietapa.
Tabla de Referencia TLDR - Todos los modelos (valores predeterminados agentivos)
| Modelo | Modo | temp | top_p | top_k | presence_penalty |
|---|---|---|---|---|---|
| Qwen 3.5 27B | pensamiento general | 1.0 | 0.95 | 20 | 0.0 |
| Qwen 3.5 27B | codificación | 0.6 | 0.95 | 20 | 0.0 |
| Qwen 3.5 35B MoE | pensamiento | 1.0 | 0.95 | 20 | 1.5 |
| Qwen 3.5 35B MoE | codificación | 0.6 | 0.95 | 20 | 0.0 |
| Gemma 4 31B | general | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 31B | codificación | 1.2 | 0.95 | 65 | 0.0 |
| Gemma 4 26B MoE | general | 1.0 | 0.95 | 64 | 0.0 |
| Gemma 4 26B MoE | codificación | 1.2 | 0.95 | 65 | 0.0 |
Qué significa realmente “Inferencia Agentiva”
La mayoría de las guías de parámetros asumen:
- chat
- finalización de un solo disparo (single-shot)
- interacción humana
Los sistemas agentivos son diferentes.
Requieren:
- razonamiento multietapa
- llamada de herramientas
- salidas consistentes
- baja propagación de errores
Esto cambia las prioridades de afinación.
Cambio fundamental
| Caso de uso | Prioridad |
|---|---|
| Chat | calidad del lenguaje natural |
| Creativo | diversidad |
| Agentivo | consistencia + estabilidad del razonamiento |
Afinación de Qwen 3.6
La diferencia entre denso y MoE es importante
Qwen es una de las pocas familias donde:
MoE requiere penalizaciones diferentes
Denso (27B)
- estable
- predecible
- sin complejidad de enrutamiento
Recomendado:
- presence_penalty = 0.0
MoE (35B-A3B)
- enrutamiento de expertos por token
- riesgo de bucles de repetición
Recomendado:
- presence_penalty = 1.5 (general)
- 0.0 para codificación
Por qué esto es importante
Los modelos MoE pueden quedarse atascados reutilizando los mismos expertos.
La penalización de presencia ayuda a:
- diversificar las rutas de los tokens
- mejorar la exploración del razonamiento
Configuración Agentiva de Codificación de Qwen
Aquí es donde la mayoría de las personas se equivocan.
Configuración correcta
- temperatura = 0.6
- top_p = 0.95
- top_k = 20
- presence_penalty = 0.0
Por qué funciona una temperatura baja
Los agentes de codificación necesitan:
- salidas deterministas
- llamadas de herramientas repetibles
- formato estable
Una temperatura más alta:
- rompe el JSON
- introduce APIs alucinadas
- aumenta los reintentos
Afinación de Gemma 4
Gemma se comporta de manera diferente.
Sin valores predeterminados oficiales
- las tarjetas del modelo están vacías
- las configuraciones son implícitas
- la afinación real proviene de:
- Google AI Studio
- valores predeterminados de GGUF
- benchmarks comunitarios
El Hallazgo Contra-intuitivo
Gemma 4 rinde mejor con temperatura más alta.
Comportamiento observado
| Temp | Resultado |
|---|---|
| 0.5 | razonamiento pobre |
| 1.0 | línea base estable |
| 1.2 a 1.5 | mejor rendimiento de codificación |
Esto contradice el consejo estándar.
Por qué funciona una temperatura alta aquí
Hipótesis:
- la distribución de entrenamiento favorece la exploración
- el modo de razonamiento depende de la diversidad
- el modelo compensa la falta de control explícito de cadena de pensamiento
Resultado:
una temperatura más alta mejora el espacio de búsqueda de soluciones
Configuración Agentiva de Codificación de Gemma
Recomendado:
- temperatura = 1.2
- top_p = 0.95
- top_k = 65
- penalizaciones = 0.0
Importante
No aplique ciegamente la regla tradicional de “temperatura baja para código”.
Gemma es una excepción.
Modo de Pensamiento y Sistemas Agentivos
Tanto Qwen como Gemma admiten modos de razonamiento.
Por qué es importante
Los ciclos de agentes requieren:
- razonamiento intermedio
- recuperación de errores
- planificación multietapa
Regla práctica
Active siempre el modo de pensamiento para:
- agentes de codificación
- uso de herramientas
- tareas multietapa
Estrategia de Parámetros por Caso de Uso
Agentes de codificación
- priorizar el determinismo
- minimizar penalizaciones
- muestreo estable
Agentes de razonamiento
- temperatura moderada
- permitir exploración
- preservar la estructura
Llamada de herramientas
- formato estricto
- baja aleatoriedad
- patrones de tokens consistentes
Los esquemas y la herramienta JSON son ortogonales a los logits; combine estas reglas de muestreo con patrones de salida estructurada para Ollama y Qwen3 para que los validadores vean menos reintentos.
Valores Predeterminados del Proveedor vs. Realidad
Los valores predeterminados de los proveedores son:
- seguros
- genéricos
- no optimizados
Los hallazgos comunitarios a menudo muestran:
- mejor rendimiento
- afinación específica para la tarea
- ajustes conscientes de la arquitectura
Ejemplo
Gemma:
- oficial: sin orientación
- comunidad: una temperatura alta mejora la codificación
Qwen:
- oficial: secciones inconsistentes
- comunidad: los valores estandarizados convergen
Notas Prácticas de Despliegue
Bajo concurrencia, la cola y la división de memoria interactúan con los reintentos tanto como con el muestreo; lea cómo Ollama maneja solicitudes paralelas junto con los ajustes preestablecidos anteriores.
Ollama
- funciona bien para ambas familias
- verifique la compatibilidad de GPU
- los valores predeterminados pueden diferir de la referencia
vLLM
- admite muestreo avanzado
- estable para producción
- use parámetros explícitos
llama.cpp
- requiere orden de muestreadores
- active siempre jinja para modelos modernos
- una cadena de muestreadores incorrecta reduce la calidad de la salida
Puntos Clave
- no existe un conjunto de parámetros universal
- la arquitectura importa más que el tamaño del modelo
- los sistemas agentivos requieren una afinación diferente a la del chat
- los benchmarks comunitarios a menudo están por delante de los proveedores
Opinión Final
La mayoría de las guías de parámetros están desactualizadas.
Asumen:
- uso de chat
- temperatura baja para código
- configuraciones estáticas
Los modelos modernos rompen esas suposiciones.
Si está construyendo sistemas agentivos:
trate la afinación de inferencia como un problema de diseño de sistema de primera clase
No como un archivo de configuración.
Dirección Futura
Esta referencia evolucionará hacia:
- análisis profundos por modelo
- configuraciones específicas para agentes
- afinación respaldada por benchmarks
Porque:
la inferencia es donde la capacidad del modelo se convierte en rendimiento del sistema