
Problemas de Saída Estruturada do Ollama GPT-OSS
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
Alguns modos de obter saída estruturada do Ollama
Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.
Meu próprio teste de escalonamento do modelo ollama ```
Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.
Minha visão sobre o estado atual do desenvolvimento do Ollama
Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora da nuvem.
Mas, assim como com muitas plataformas promissoras, já existem sinais de Enshittification:
Visão geral rápida das interfaces de usuário mais proeminentes para Ollama em 2025
O Ollama hospedado localmente permite executar modelos de linguagem grandes em sua própria máquina, mas usá-lo via linha de comando não é amigável para o usuário.
Aqui estão vários projetos de código aberto que fornecem interfaces do estilo ChatGPT que se conectam a um Ollama local.
Implementando RAG? Aqui estão alguns trechos de código em Go - 2...
Como o Ollama padrão não possui uma API de rerank direta, você precisará implementar reranking usando o Qwen3 Reranker em GO gerando embeddings para pares de consulta-documento e classificando-os.
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo do inglês para o alemão. Três páginas que testei estavam sobre temas diferentes, tinham alguma marcação markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.
Implementando RAG? Aqui estão alguns trechos de código em Golang.
Este pequeno exemplo de código Go para reranking está chamando o Ollama para gerar embeddings para a consulta e para cada documento candidato, em seguida, classificando em ordem decrescente pela similaridade do cosseno.
Novos LLMs incríveis disponíveis no Ollama
Os modelos Qwen3 Embedding e Reranker são as últimas liberações da família Qwen, especificamente projetados para tarefas avançadas de embedding de texto, recuperação e reclassificação.
Pensando em instalar uma segunda GPU para LLMs?
Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a queda de desempenho é significativa.
LLM para extrair texto de HTML...
Na biblioteca de modelos do Ollama existem modelos capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo.
Cursor AI vs GitHub Copilot vs Cline AI vs...
Listarei aqui algumas ferramentas de codificação assistidas por IA e Assistentes de Codificação com IA e seus lados positivos.
Ollama em CPU da Intel: núcleos eficientes vs. núcleos de desempenho
Tenho uma teoria para testar – se utilizar todos os núcleos de um processador Intel aumentaria a velocidade dos LLMs? Estou incomodado com o fato de que o novo modelo gemma3 27 bit (gemma3:27b, 17GB no ollama) não está cabendo na VRAM de 16GB da minha GPU, e está sendo executado parcialmente no CPU.
Configurando ollama para execução de solicitações em paralelo.
Quando o servidor Ollama recebe duas solicitações ao mesmo tempo, seu comportamento depende da sua configuração e dos recursos do sistema disponíveis.
Comparando dois modelos deepseek-r1 com dois modelos base
Primeira geração de modelos de raciocínio da DeepSeek com desempenho comparável ao de OpenAI-o1, incluindo seis modelos densos destilados a partir do DeepSeek-R1 baseados em Llama e Qwen.