LLM - Rost Glukhov | Site pessoal e blog técnico

Detectando AI Slop: Técnicas & Sinais de Alerta

A proliferação de conteúdo gerado por IA criou um novo desafio: distinguir escrita humana genuína de “IA slop” - texto sintético de baixa qualidade, produzido em massa.

Autosserviço do Cognee: Testes de Desempenho de LLM

Cognee é um framework Python para construir grafos de conhecimento a partir de documentos usando LLMs. Mas funciona com modelos auto-hospedados?

BAML vs Instrutor: Saídas de LLM Estruturadas

Quando se trabalha com Modelos de Linguagem de Grande Porte em produção, obter saídas estruturadas e com segurança de tipos é crítico. Dois frameworks populares - BAML e Instructor - abordam esse problema de formas diferentes.

Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee se destaca com modelos maiores e de baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Usando a API de Pesquisa Web do Ollama em Python

A biblioteca Python do Ollama agora inclui capacidades nativas de pesquisa web do OLLama. Com apenas algumas linhas de código, você pode complementar seus LLMs locais com informações em tempo real da web, reduzindo alucinações e melhorando a precisão.

Armazenamentos de Vetores para Comparação em RAG

Escolher o armazenamento de vetores certo pode fazer a diferença entre o sucesso e o fracasso no desempenho, custo e escalabilidade da sua aplicação RAG. Esta comparação abrangente abrange as opções mais populares de 2024-2025.

Usando a API de Pesquisa Web do Ollama em Go

A API de pesquisa web do Ollama permite que você amplie LLMs locais com informações da web em tempo real. Este guia mostra como implementar capacidades de pesquisa web em Go, desde chamadas simples da API até agentes de pesquisa completos.

Hospedagem Local de LLM: Guia Completo de 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio e Mais

Implantação local de LLMs tornou-se cada vez mais popular à medida que desenvolvedores e organizações buscam maior privacidade, redução de latência e maior controle sobre sua infraestrutura de IA.

Go Microservices para Orquestração de IA/ML

À medida que as cargas de trabalho de IA e ML tornam-se cada vez mais complexas, a necessidade de sistemas robustos de orquestração tornou-se ainda maior.
A simplicidade, o desempenho e a concorrência do Go tornam-no uma escolha ideal para construir a camada de orquestração de pipelines de ML, mesmo quando os próprios modelos são escritos em Python.

Embeddings Multimodais: Conectando Modalidades de IA

Embeddings cruzais representam uma revolução na inteligência artificial, permitindo compreensão e raciocínio entre diferentes tipos de dados dentro de um espaço de representação unificado.

Infraestrutura de IA em Hardware para Consumo

A democratização da IA está aqui. Com LLMs de código aberto como Llama 3, Mixtral e Qwen agora rivalizando com modelos proprietários, as equipes podem construir infraestrutura poderosa de IA usando hardware de consumo - reduzindo custos enquanto mantêm o controle completo sobre a privacidade dos dados e o deployment.

RAG Avançado: LongRAG, Self-RAG e GraphRAG Explicados

Retrieval-Augmented Generation (RAG) evoluiu muito além da simples busca por similaridade de vetores. LongRAG, Self-RAG e GraphRAG representam a ponta da tecnologia dessas capacidades.

FLUX.1-dev é um modelo poderoso de geração de imagem a partir de texto que produz resultados impressionantes, mas seu requisito de memória de 24GB+ torna difícil executá-lo em muitos sistemas. Quantização GGUF de FLUX.1-dev oferece uma solução, reduzindo o uso de memória em aproximadamente 50% enquanto mantém a excelente qualidade das imagens.

Docker Model Runner: Guia de Configuração do Tamanho do Contexto

Configurar tamanhos de contexto no Docker Model Runner é mais complexo do que deveria ser.

FLUX.1-Kontext-dev: Modelo de IA para Aumento de Imagens

Black Forest Labs lançou FLUX.1-Kontext-dev, um avançado modelo de IA de imagem para imagem que aumenta imagens existentes usando instruções de texto.

Adicionando suporte a GPU da NVIDIA ao Docker Model Runner

Docker Model Runner é a ferramenta oficial do Docker para executar modelos de IA localmente, mas habilitar a aceleração da GPU da NVidia no Docker Model Runner requer uma configuração específica.