Problemas de Saída Estruturada do Ollama GPT-OSS

Não muito agradável.

Conteúdo da página

Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.

Muitos usuários relatam falhas ao gerar JSON válido ou outros formatos estruturados, a ilusão de modelos de elementos de formato e conteúdo de resposta inconsistente ou vazio. Esses problemas surgem de lacunas atuais de compatibilidade, alterações no formato de resposta (como Harmony) e a não implementação completa de esquemas de saída por parte de Ollama e APIs de terceiros.

Para um contexto mais amplo sobre runtimes, throughput e benchmarks, veja Desempenho de LLM: Benchmarks, Bottlenecks & Otimização.

llama com os problemas

Sobre GPT-OSS

Este é um novo LLM muito interessante da OpenAI. Basta olhar esses parâmetros:

Modelo gpt-oss-120b gpt-oss-20b
Camadas 36 24
Parâmetros Totais 117B 21B
Parâmetros Ativos por Token 5,1B 3,6B
Total de Especialistas 128 32
Especialistas Ativos por Token 4 4
Comprimento do Contexto 128k 128k

As notas de lançamento dizem (aqui e aqui):

  • Licença permissiva Apache 2.0: Construa livremente sem restrições de copyleft ou risco de patentes — ideal para experimentação, personalização e implantação comercial.
  • Esforço de raciocínio configurável: Ajuste facilmente o esforço de raciocínio (baixo, médio, alto) com base no seu caso de uso específico e nas necessidades de latência.
  • Cadeia completa de raciocínio: Obtenha acesso completo ao processo de raciocínio do modelo, facilitando o depuramento e aumentando a confiança nos resultados. Não está destinado a ser mostrado aos usuários finais.
  • Personalizável: Personalize totalmente os modelos para o seu caso de uso específico por meio de ajuste de parâmetros.
  • Capacidades agentes: Use as capacidades nativas dos modelos para chamada de funções, navegação na web, execução de código Python e Saídas Estruturadas.
  • Quantização MXFP4: Os modelos foram pós-treinados com quantização MXFP4 dos pesos do MoE, tornando o gpt-oss-120b executável em uma única GPU de 80 GB (como NVIDIA H100 ou AMD MI300X) e o modelo gpt-oss-20b executável dentro de 16 GB de memória. Todos os testes foram realizados com a mesma quantização MXFP4.

O que não adorar? O comportamento da saída estruturada… que é isso. No geral, esse problema é muito decepcionante, especialmente porque Saída Estruturada funciona muito bem com Ollama e Qwen3.

Problemas Comuns

  • Modelos como gpt-oss:20b frequentemente falham em produzir JSON estrito ou saída compatível com o esquema, com respostas frequentemente contendo comentários extras ou objetos incompletos.
  • A integração com LangChain e OpenAI SDK tende a lançar erros de análise/validação devido à saída não estruturada, tornando os pipelines inutilizáveis em ambientes de produção.
  • O formato Harmony em gpt-oss introduz rastros de raciocínio mesmo quando não solicitado, complicando a análise de esquema em comparação com outros modelos, como o Qwen3.
  • Com o vllm, os mecanismos de enfoque de saída estruturada estão ausentes ou obsoletos, então a saída é frequentemente “não guiada” e deve ser analisada manualmente.
  • Há relatos de que o modelo produz a saída estruturada correta, depois continua com conteúdo irrelevante, quebrando os parsers padrão.

Trabalhos em torno e correções

  • Alguns usuários sugerem especificar explicitamente o esquema JSON no prompt e tentar a análise manual das saídas do modelo, às vezes usando marcadores de início e fim pré e pós.
  • Outra abordagem é executar uma camada de pós-processamento ou um LLM menor para reformatar a saída GPT-OSS para o esquema desejado, embora isso seja intensivo em recursos.
  • Algumas correções de bugs e solicitações de pull (PRs) melhoraram incrementalmente a conformidade com o formato Harmony, especialmente com novas liberações do Ollama, mas a paridade total com modelos anteriores ainda não foi alcançada.
  • Ao usar o vllm, a correção de funções específicas pode ajudar, mas, em geral, a enfoque robusta de esquema não é suportada neste momento.

Recomendações

  • Evite depender exclusivamente do GPT-OSS para saídas estruturadas rigorosas até que a compatibilidade total seja restaurada no Ollama e em frameworks downstream.
  • Onde a saída estruturada for crítica, use análise adicional ou um modelo melhor conhecido por conformidade com esquema.
  • Monitore os problemas relevantes no GitHub (ollama/ollama, langchain-ai/langchain, vllm-project/vllm) para correções e atualizações de integração.

Em resumo, o GPT-OSS com o Ollama atualmente tem dificuldades com saídas estruturadas, principalmente devido à implementação incompleta de formatos, alterações no formato Harmony e falta de suporte em toda a cadeia de ferramentas. Trabalhos manuais podem ajudar, mas o sucesso consistente não é garantido. Para mais informações sobre runtimes de LLM, alocação de memória e otimização de desempenho, consulte Desempenho de LLM: Benchmarks, Bottlenecks & Otimização.

Outros Artigos sobre Ollama