Autosserviço do Cognee: Testes de Desempenho de LLM
Testando o Cognee com LLMs locais - resultados reais
Cognee é um framework Python para construir grafos de conhecimento a partir de documentos usando LLMs. Mas funciona com modelos auto-hospedados?
Testando o Cognee com LLMs locais - resultados reais
Cognee é um framework Python para construir grafos de conhecimento a partir de documentos usando LLMs. Mas funciona com modelos auto-hospedados?
Saída de LLM segura do ponto de vista do tipo com BAML e Instructor
Quando se trabalha com Modelos de Linguagem de Grande Porte em produção, obter saídas estruturadas e com segurança de tipos é crítico. Dois frameworks populares - BAML e Instructor - abordam esse problema de formas diferentes.
Reflexões sobre LLMs para o Cognee auto-hospedado
Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee se destaca com modelos maiores e de baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.
Construa agentes de busca com IA com Python e Ollama
A biblioteca Python do Ollama agora inclui capacidades nativas de pesquisa web do OLLama. Com apenas algumas linhas de código, você pode complementar seus LLMs locais com informações em tempo real da web, reduzindo alucinações e melhorando a precisão.
Construa agentes de busca com IA usando Go e Ollama
A API de pesquisa web do Ollama permite que você amplie LLMs locais com informações da web em tempo real. Este guia mostra como implementar capacidades de pesquisa web em Go, desde chamadas simples da API até agentes de pesquisa completos.
Domine o desempenho local de LLM com mais de 12 ferramentas comparadas
Implantação local de LLMs tornou-se cada vez mais popular à medida que desenvolvedores e organizações buscam maior privacidade, redução de latência e maior controle sobre sua infraestrutura de IA.
Implante IA empresarial em hardware de baixo custo com modelos abertos
A democratização da IA está aqui. Com LLMs de código aberto como Llama 3, Mixtral e Qwen agora rivalizando com modelos proprietários, as equipes podem construir infraestrutura poderosa de IA usando hardware de consumo - reduzindo custos enquanto mantêm o controle completo sobre a privacidade dos dados e o deployment.
Benchmarks do GPT-OSS 120b em três plataformas de IA
Fui atrás de alguns testes de desempenho interessantes do GPT-OSS 120b em execução no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama tem 65GB, o que significa que ele não cabe na VRAM de 16GB de um RTX 4080 (ou no mais novo RTX 5080).
Compare Docker Model Runner e Ollama para LLM local
Executar modelos de linguagem grandes (LLMs) localmente tornou-se cada vez mais popular por motivos de privacidade, controle de custos e capacidades offline. O cenário mudou significativamente em abril de 2025, quando o Docker introduziu Docker Model Runner (DMR), sua solução oficial para implantação de modelos de IA.
Integre o Ollama com Go: guia do SDK, exemplos e melhores práticas para produção.
Este guia fornece uma visão abrangente dos SDKs Go para Ollama disponíveis e compara seus conjuntos de recursos.
Comparando velocidade, parâmetros e desempenho desses dois modelos
Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade:
Exemplos Específicos Utilizando Modelos de Linguagem Pensantes
Neste post, vamos explorar duas maneiras de conectar sua aplicação Python ao Ollama: 1. Via API REST HTTP; 2. Via a biblioteca oficial do Ollama para Python.
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
Alguns modos de obter saída estruturada do Ollama
Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.
Meu próprio teste de escalonamento do modelo ollama ```
Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.
Minha visão sobre o estado atual do desenvolvimento do Ollama
Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora da nuvem.
Mas, assim como com muitas plataformas promissoras, já existem sinais de Enshittification: