RAG - Rost Glukhov | Site pessoal e blog técnico

Auto-Hospedagem de LLM e Soberania Artificial

Auto-hospedagem de LLMs mantém os dados, modelos e inferência sob seu controle - um caminho prático para soberania em IA para equipes, empresas e nações.
Aqui: o que é a soberania em IA, quais aspectos e métodos são usados para construí-la, como a auto-hospedagem de LLMs se encaixa, e como países estão abordando o desafio.

Top 17 Projetos em Python em Destaque no GitHub

O ecossistema Python este mês é dominado pelas habilidades do Claude e pela ferramenta de agentes de IA. Este resumo analisa os repositórios Python mais populares no GitHub.

Top 19 Projetos em Go em Destaque no GitHub - Janeiro de 2026

O ecossistema Go continua a prosperar com projetos inovadores que abrangem ferramentas de IA, aplicações auto-hospedadas e infraestrutura para desenvolvedores. Este resumo analisa os principais repositórios de Go em tendência no GitHub deste mês.

Autosserviço do Cognee: Testes de Desempenho de LLM

Cognee é um framework Python para construir grafos de conhecimento a partir de documentos usando LLMs. Mas funciona com modelos auto-hospedados?

Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee se destaca com modelos maiores e de baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Usando a API de Pesquisa Web do Ollama em Python

A biblioteca Python do Ollama agora inclui capacidades nativas de pesquisa web do OLLama. Com apenas algumas linhas de código, você pode complementar seus LLMs locais com informações em tempo real da web, reduzindo alucinações e melhorando a precisão.

Armazenamentos de Vetores para Comparação em RAG

Escolher o armazenamento de vetores certo pode fazer a diferença entre o sucesso e o fracasso no desempenho, custo e escalabilidade da sua aplicação RAG. Esta comparação abrangente abrange as opções mais populares de 2024-2025.

Usando a API de Pesquisa Web do Ollama em Go

A API de pesquisa web do Ollama permite que você amplie LLMs locais com informações da web em tempo real. Este guia mostra como implementar capacidades de pesquisa web em Go, desde chamadas simples da API até agentes de pesquisa completos.

Hospedagem Local de LLM: Guia Completo de 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio e Mais

Implantação local de LLMs tornou-se cada vez mais popular, à medida que desenvolvedores e organizações buscam maior privacidade, menor latência e maior controle sobre sua infraestrutura de IA.

Infraestrutura de IA em Hardware para Consumo

A democratização da IA está aqui. Com LLMs de código aberto como Llama 3, Mixtral e Qwen agora rivalizando com modelos proprietários, as equipes podem construir infraestrutura poderosa de IA usando hardware de consumo - reduzindo custos enquanto mantêm o controle completo sobre a privacidade dos dados e o deployment.

RAG Avançado: LongRAG, Self-RAG e GraphRAG Explicados

Retrieval-Augmented Generation (RAG) evoluiu muito além da simples busca por similaridade de vetores. LongRAG, Self-RAG e GraphRAG representam a ponta da tecnologia dessas capacidades.

Reduza os Custos de LLM: Estratégias de Otimização de Tokens

A otimização de tokens é a habilidade crítica que separa as aplicações de LLM custo-efetivas das experiências que consomem orçamento.

Convertendo HTML para Markdown com Python: Um Guia Abrangente

Conversão de HTML para Markdown é uma tarefa fundamental nos fluxos de trabalho modernos de desenvolvimento, especialmente ao preparar conteúdo web para Grandes Modelos de Linguagem (LLMs), sistemas de documentação ou geradores de sites estáticos como o Hugo.

Clientes Go para Ollama: comparação de SDK e exemplos com Qwen3/GPT-OSS

Este guia fornece uma visão abrangente dos SDKs Go para Ollama disponíveis e compara seus conjuntos de recursos.

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade:

Integração do Ollama com Python: Exemplos de API REST e Cliente Python

Neste post, vamos explorar duas maneiras de conectar sua aplicação Python ao Ollama: 1. Via API REST HTTP; 2. Via a biblioteca oficial do Ollama para Python.