
Problemas de Saída Estruturada do Ollama GPT-OSS
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
APIs ligeiramente diferentes exigem uma abordagem especial.
Aqui está uma comparação lado a lado de suporte para saída estruturada (obter JSON confiável de volta) entre provedores populares de LLM, juntamente com exemplos mínimos de Python
Alguns modos de obter saída estruturada do Ollama
Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.
Meu próprio teste de escalonamento do modelo ollama ```
Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.
Minha visão sobre o estado atual do desenvolvimento do Ollama
Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora da nuvem.
Mas, assim como com muitas plataformas promissoras, já existem sinais de Enshittification:
Visão geral rápida das interfaces de usuário mais proeminentes para Ollama em 2025
O Ollama hospedado localmente permite executar modelos de linguagem grandes em sua própria máquina, mas usá-lo via linha de comando não é amigável para o usuário.
Aqui estão vários projetos de código aberto que fornecem interfaces do estilo ChatGPT que se conectam a um Ollama local.
Em julho de 2025, em breve deverá estar disponível
Nvidia está prestes a lançar NVIDIA DGX Spark - pequeno supercomputador de IA baseado na arquitetura Blackwell com 128+GB de memória unificada e 1 PFLOPS de desempenho de IA. Dispositivo interessante para executar LLMs.
Longread sobre especificações e implementação do MCP em GO
Aqui temos uma descrição do Protocolo de Contexto do Modelo (MCP), notas breves sobre como implementar um servidor MCP em Go, incluindo a estrutura da mensagem e especificações do protocolo.
Implementando RAG? Aqui estão alguns trechos de código em Go - 2...
Como o Ollama padrão não possui uma API de rerank direta, você precisará implementar reranking usando o Qwen3 Reranker em GO gerando embeddings para pares de consulta-documento e classificando-os.
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo do inglês para o alemão. Três páginas que testei estavam sobre temas diferentes, tinham alguma marcação markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.
Implementando RAG? Aqui estão alguns trechos de código em Golang.
Este pequeno exemplo de código Go para reranking está chamando o Ollama para gerar embeddings para a consulta e para cada documento candidato, em seguida, classificando em ordem decrescente pela similaridade do cosseno.
Novos LLMs incríveis disponíveis no Ollama
Os modelos Qwen3 Embedding e Reranker são as últimas liberações da família Qwen, especificamente projetados para tarefas avançadas de embedding de texto, recuperação e reclassificação.
Pensando em instalar uma segunda GPU para LLMs?
Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a queda de desempenho é significativa.
LLM para extrair texto de HTML...
Na biblioteca de modelos do Ollama existem modelos capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo.
Quão diferentes são elas?