Referencia de parámetros de inferencia de LLMs agénticos para Qwen y Gemma

Referencia de ajuste de LLMs agénticos

Índice

Esta página es una referencia práctica para la afinación de inferencia de LLMs agentivos (temperatura, top_p, top_k, penalizaciones y cómo interactúan en flujos de trabajo multietapa y con uso intensivo de herramientas).

Se sitúa junto al centro de ingeniería de rendimiento de LLM y se complementa con una historia clara sobre alojamiento y servicio de LLM—el rendimiento y la planificación aún dominan cuando el modelo carece de recursos, pero un muestreo inestable quema reintentos y tokens de salida antes que la GPU.

Esta página consolida:

  • parámetros recomendados por los proveedores
  • valores predeterminados incrustados en GGUF y APIs
  • hallazgos comunitarios del mundo real
  • optimizaciones para flujos de trabajo agentivos

Actualmente se centra en:

  • Qwen 3.6 (denso y MoE)
  • Gemma 4 (denso y MoE)

Si ejecuta agentes de terminal como OpenCode, combine esta referencia con comportamiento de LLM local en OpenCode para que los resultados a nivel de carga de trabajo y los valores predeterminados del muestreador permanezcan alineados.

El objetivo es simple:

Proporcionar un único lugar para configurar modelos para ciclos de agentes, codificación y razonamiento multietapa.


Tabla de Referencia TLDR - Todos los modelos (valores predeterminados agentivos)

Modelo Modo temp top_p top_k presence_penalty
Qwen 3.5 27B pensamiento general 1.0 0.95 20 0.0
Qwen 3.5 27B codificación 0.6 0.95 20 0.0
Qwen 3.5 35B MoE pensamiento 1.0 0.95 20 1.5
Qwen 3.5 35B MoE codificación 0.6 0.95 20 0.0
Gemma 4 31B general 1.0 0.95 64 0.0
Gemma 4 31B codificación 1.2 0.95 65 0.0
Gemma 4 26B MoE general 1.0 0.95 64 0.0
Gemma 4 26B MoE codificación 1.2 0.95 65 0.0

Qué significa realmente “Inferencia Agentiva”

La mayoría de las guías de parámetros asumen:

  • chat
  • finalización de un solo disparo (single-shot)
  • interacción humana

Los sistemas agentivos son diferentes.

Requieren:

  • razonamiento multietapa
  • llamada de herramientas
  • salidas consistentes
  • baja propagación de errores

Esto cambia las prioridades de afinación.

Cambio fundamental

Caso de uso Prioridad
Chat calidad del lenguaje natural
Creativo diversidad
Agentivo consistencia + estabilidad del razonamiento

Afinación de Qwen 3.6

La diferencia entre denso y MoE es importante

Qwen es una de las pocas familias donde:

MoE requiere penalizaciones diferentes

Denso (27B)

  • estable
  • predecible
  • sin complejidad de enrutamiento

Recomendado:

  • presence_penalty = 0.0

MoE (35B-A3B)

  • enrutamiento de expertos por token
  • riesgo de bucles de repetición

Recomendado:

  • presence_penalty = 1.5 (general)
  • 0.0 para codificación

Por qué esto es importante

Los modelos MoE pueden quedarse atascados reutilizando los mismos expertos.

La penalización de presencia ayuda a:

  • diversificar las rutas de los tokens
  • mejorar la exploración del razonamiento

Configuración Agentiva de Codificación de Qwen

Aquí es donde la mayoría de las personas se equivocan.

Configuración correcta

  • temperatura = 0.6
  • top_p = 0.95
  • top_k = 20
  • presence_penalty = 0.0

Por qué funciona una temperatura baja

Los agentes de codificación necesitan:

  • salidas deterministas
  • llamadas de herramientas repetibles
  • formato estable

Una temperatura más alta:

  • rompe el JSON
  • introduce APIs alucinadas
  • aumenta los reintentos

Afinación de Gemma 4

Gemma se comporta de manera diferente.

Sin valores predeterminados oficiales

  • las tarjetas del modelo están vacías
  • las configuraciones son implícitas
  • la afinación real proviene de:
    • Google AI Studio
    • valores predeterminados de GGUF
    • benchmarks comunitarios

El Hallazgo Contra-intuitivo

Gemma 4 rinde mejor con temperatura más alta.

Comportamiento observado

Temp Resultado
0.5 razonamiento pobre
1.0 línea base estable
1.2 a 1.5 mejor rendimiento de codificación

Esto contradice el consejo estándar.


Por qué funciona una temperatura alta aquí

Hipótesis:

  • la distribución de entrenamiento favorece la exploración
  • el modo de razonamiento depende de la diversidad
  • el modelo compensa la falta de control explícito de cadena de pensamiento

Resultado:

una temperatura más alta mejora el espacio de búsqueda de soluciones


Configuración Agentiva de Codificación de Gemma

Recomendado:

  • temperatura = 1.2
  • top_p = 0.95
  • top_k = 65
  • penalizaciones = 0.0

Importante

No aplique ciegamente la regla tradicional de “temperatura baja para código”.

Gemma es una excepción.


Modo de Pensamiento y Sistemas Agentivos

Tanto Qwen como Gemma admiten modos de razonamiento.

Por qué es importante

Los ciclos de agentes requieren:

  • razonamiento intermedio
  • recuperación de errores
  • planificación multietapa

Regla práctica

Active siempre el modo de pensamiento para:

  • agentes de codificación
  • uso de herramientas
  • tareas multietapa

Estrategia de Parámetros por Caso de Uso

Agentes de codificación

  • priorizar el determinismo
  • minimizar penalizaciones
  • muestreo estable

Agentes de razonamiento

  • temperatura moderada
  • permitir exploración
  • preservar la estructura

Llamada de herramientas

  • formato estricto
  • baja aleatoriedad
  • patrones de tokens consistentes

Los esquemas y la herramienta JSON son ortogonales a los logits; combine estas reglas de muestreo con patrones de salida estructurada para Ollama y Qwen3 para que los validadores vean menos reintentos.


Valores Predeterminados del Proveedor vs. Realidad

Los valores predeterminados de los proveedores son:

  • seguros
  • genéricos
  • no optimizados

Los hallazgos comunitarios a menudo muestran:

  • mejor rendimiento
  • afinación específica para la tarea
  • ajustes conscientes de la arquitectura

Ejemplo

Gemma:

  • oficial: sin orientación
  • comunidad: una temperatura alta mejora la codificación

Qwen:

  • oficial: secciones inconsistentes
  • comunidad: los valores estandarizados convergen

Notas Prácticas de Despliegue

Bajo concurrencia, la cola y la división de memoria interactúan con los reintentos tanto como con el muestreo; lea cómo Ollama maneja solicitudes paralelas junto con los ajustes preestablecidos anteriores.

Ollama

  • funciona bien para ambas familias
  • verifique la compatibilidad de GPU
  • los valores predeterminados pueden diferir de la referencia

vLLM

  • admite muestreo avanzado
  • estable para producción
  • use parámetros explícitos

llama.cpp

  • requiere orden de muestreadores
  • active siempre jinja para modelos modernos
  • una cadena de muestreadores incorrecta reduce la calidad de la salida

Puntos Clave

  • no existe un conjunto de parámetros universal
  • la arquitectura importa más que el tamaño del modelo
  • los sistemas agentivos requieren una afinación diferente a la del chat
  • los benchmarks comunitarios a menudo están por delante de los proveedores

Opinión Final

La mayoría de las guías de parámetros están desactualizadas.

Asumen:

  • uso de chat
  • temperatura baja para código
  • configuraciones estáticas

Los modelos modernos rompen esas suposiciones.

Si está construyendo sistemas agentivos:

trate la afinación de inferencia como un problema de diseño de sistema de primera clase

No como un archivo de configuración.


Dirección Futura

Esta referencia evolucionará hacia:

  • análisis profundos por modelo
  • configuraciones específicas para agentes
  • afinación respaldada por benchmarks

Porque:

la inferencia es donde la capacidad del modelo se convierte en rendimiento del sistema

Suscribirse

Recibe nuevas publicaciones sobre sistemas, infraestructura e ingeniería de IA.