Problemas de salida estructurada de Ollama GPT-OSS

No muy agradable.

Índice

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Muchos usuarios reportan fallas al generar JSON válido u otros formatos estructurados, así como la hallucinación del modelo de elementos de formato, y contenido de respuesta inconsistente o vacío. Estos problemas surgen de brechas actuales de compatibilidad, cambios en el formato de respuesta (como Harmony) y una aplicación incompleta de esquemas de salida tanto por parte de Ollama como por APIs de terceros. Para un contexto más amplio sobre entornos de ejecución, throughput y benchmarks, vea Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.

llama con los problemas

Acerca de GPT-OSS

Este es un nuevo y muy interesante LLM de OpenAI. Solo echa un vistazo a estos parámetros:

Modelo gpt-oss-120b gpt-oss-20b
Capas 36 24
Parámetros totales 117B 21B
Parámetros activos por token 5,1B 3,6B
Total de expertos 128 32
Expertos activos por token 4 4
Longitud de contexto 128k 128k

Las notas de lanzamiento dicen (aquí y aquí):

  • Licencia permissiva Apache 2.0: Construya libremente sin restricciones de copyleft ni riesgo de patentes — ideal para experimentación, personalización y despliegue comercial.
  • Esfuerzo de razonamiento configurable: Ajuste fácilmente el esfuerzo de razonamiento (bajo, medio, alto) según su caso de uso específico y necesidades de latencia.
  • Cadena completa de pensamiento: Tenga acceso completo al proceso de razonamiento del modelo, facilitando el depurado y aumentando la confianza en las salidas. No está pensado para mostrarse a usuarios finales.
  • Ajustable: Personalice completamente los modelos a su caso de uso específico mediante ajuste de parámetros.
  • Capacidad agente: Use las capacidades nativas de los modelos para llamadas de función, navegación web, ejecución de código en Python y Salidas Estructuradas.
  • Cuantización MXFP4: Los modelos se entrenaron posteriormente con cuantización MXFP4 de los pesos MoE, lo que permite que gpt-oss-120b se ejecute en una sola GPU de 80 GB (como NVIDIA H100 o AMD MI300X) y que el modelo gpt-oss-20b se ejecute dentro de 16 GB de memoria. Todos los evaluaciones se realizaron con la misma cuantización MXFP4.

¿Qué no amar? El comportamiento de salida estructurada… eso es. En general, este problema es muy decepcionante, especialmente porque La salida estructurada funciona muy bien con Ollama y Qwen3.

Problemas comunes

  • Modelos como gpt-oss:20b suelen fallar al producir JSON estricto o salida conforme a un esquema, con respuestas que suelen contener comentarios adicionales u objetos incompletos.
  • La integración con LangChain y OpenAI SDK tiende a lanzar errores de análisis/validación debido a la salida no estructurada, lo que hace que las tuberías no sean utilizables en entornos de producción.
  • El formato Harmony en gpt-oss introduce rastros de razonamiento incluso cuando no se solicitan, complicando el análisis de esquema en comparación con otros modelos como Qwen3.
  • Con vllm, los mecanismos de enfoque de salida estructurada están ausentes o obsoletos, por lo que la salida suele ser “no guiada” y debe parsearse manualmente.
  • Hay informes de que el modelo produce la salida estructurada correcta, pero luego continúa con contenido no relacionado, rompiendo los analizadores estándar.

Soluciones alternativas y correcciones

  • Algunos usuarios sugieren especificar explícitamente el esquema JSON en el prompt y intentar el análisis manual de las salidas del modelo, a veces usando marcadores de inicio y fin previos y posteriores.
  • Otra aproximación es ejecutar una capa de postprocesamiento o un LLM más pequeño para reformatear la salida de GPT-OSS al esquema deseado, aunque esto es intensivo en recursos.
  • Algunas correcciones de errores y solicitudes de extracción (PRs) han mejorado progresivamente la compatibilidad con el formato Harmony, especialmente con nuevas versiones de Ollama, pero aún no se alcanza la paridad completa con modelos anteriores.
  • Al usar vllm, parchear funciones específicas puede ayudar, pero en general, no se admite una aplicación robusta del esquema en este momento.

Recomendaciones

  • Evite depender exclusivamente de GPT-OSS para salidas estructuradas estrictas hasta que se restaure la compatibilidad completa en Ollama y en los marcos descendientes.
  • Donde la salida estructurada sea crítica, utilice un análisis adicional o un modelo mejor conocido por su cumplimiento de esquemas.
  • Supervise las issues relevantes en GitHub (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) para obtener correcciones e actualizaciones de integración.

En resumen, GPT-OSS con Ollama actualmente tiene dificultades para manejar salidas estructuradas, en gran parte debido a la aplicación incompleta del formato, cambios en el formato Harmony y la falta de soporte en las herramientas. Las soluciones manuales pueden ayudar, pero no se garantiza un éxito consistente. Para más información sobre entornos de ejecución de LLM, asignación de memoria y optimización del rendimiento, consulte Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.

Enlaces útiles

Otros artículos de Ollama