AI - Page 3 - Rost Glukhov | Site pessoal e blog técnico

RAG Avançado: LongRAG, Self-RAG e GraphRAG Explicados

Retrieval-Augmented Generation (RAG) evoluiu muito além da simples busca por similaridade de vetores. LongRAG, Self-RAG e GraphRAG representam a ponta da tecnologia dessas capacidades.

FLUX.1-dev é um modelo poderoso de geração de imagem a partir de texto que produz resultados impressionantes, mas seu requisito de memória de 24GB+ torna difícil executá-lo em muitos sistemas. Quantização GGUF de FLUX.1-dev oferece uma solução, reduzindo o uso de memória em aproximadamente 50% enquanto mantém a excelente qualidade das imagens.

Docker Model Runner: Guia de Configuração do Tamanho do Contexto

Configurar tamanhos de contexto no Docker Model Runner é mais complexo do que deveria ser.

FLUX.1-Kontext-dev: Modelo de IA para Aumento de Imagens

Black Forest Labs lançou FLUX.1-Kontext-dev, um avançado modelo de IA de imagem para imagem que aumenta imagens existentes usando instruções de texto.

Adicionando suporte a GPU da NVIDIA ao Docker Model Runner

Docker Model Runner é a ferramenta oficial do Docker para executar modelos de IA localmente, mas habilitar a aceleração da GPU da NVidia no Docker Model Runner requer uma configuração específica.

Reduza os Custos de LLM: Estratégias de Otimização de Tokens

A otimização de tokens é a habilidade crítica que separa as aplicações de LLM custo-efetivas das experiências que consomem orçamento.

Auto-Hospedagem do Immich: Nuvem de Fotos Privada

Immich é uma solução revolucionária de gestão de fotos e vídeos de código aberto e auto-hospedada que lhe dá o controle total sobre suas memórias. Com recursos que rivalizam com o Google Photos, incluindo reconhecimento facial impulsionado por IA, pesquisa inteligente e backup automático móvel, tudo isso mantendo seus dados privados e seguros no seu próprio servidor.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama

Fiz uma pesquisa sobre alguns interessantes testes de desempenho do GPT-OSS 120b em execução no Ollama em três diferentes plataformas: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama tem 65GB, o que significa que não cabe na VRAM de 16GB de um RTX 4080 (ou no mais recente RTX 5080).

Construindo Servidores MCP em Python: Guia de Pesquisa na Web e Raspagem

O Protocolo de Contexto do Modelo (MCP) está revolucionando a forma como os assistentes de IA interagem com fontes de dados externas e ferramentas. Neste guia, exploraremos como construir servidores MCP em Python, com exemplos focados nas capacidades de busca na web e raspagem.

Docker Model Runner Cheatsheet: Comandos & Exemplos

Docker Model Runner (DMR) é a solução oficial do Docker para executar modelos de IA localmente, introduzida em abril de 2025. Esta folha de dicas fornece uma referência rápida para todos os comandos essenciais, configurações e melhores práticas.

Runner de Modelo Docker vs Ollama (2026): Qual é Melhor para LLMs Locais?

Executar grandes modelos de linguagem (LLMs) localmente tornou-se cada vez mais popular por motivos de privacidade, controle de custos e capacidades offline. O cenário mudou significativamente em abril de 2025, quando o Docker introduziu Docker Model Runner (DMR), sua solução oficial para implantação de modelos de IA.

O Surgimento de ASICs para LLM: Por que o Hardware de Inferência Importa

O futuro do IA não é apenas sobre modelos mais inteligentes modelos — é sobre silício mais inteligente.
Hardware especializado para inferência de LLM está impulsionando uma revolução semelhante à migração do mineração de Bitcoin para ASICs.

DGX Spark vs. Mac Studio: Análise de Preços da Supercomputação Pessoal da NVIDIA

NVIDIA DGX Spark é real, disponível para venda a partir de 15 de outubro de 2025, e direcionado a desenvolvedores de CUDA que precisam de trabalho local com LLM com uma pilha integrada de IA da NVIDIA. Preço de venda sugerido nos EUA $3.999; o preço retalhista em UK/DE/JP é mais alto devido ao imposto sobre o valor agregado e ao canal. Preços públicos em AUD/KRW ainda não estão amplamente divulgados.

Clientes Go para Ollama: comparação de SDK e exemplos com Qwen3/GPT-OSS

Este guia fornece uma visão abrangente dos disponíveis SDKs Go para Ollama e compara seus conjuntos de funcionalidades.

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade.

Problemas de Saída Estruturada do Ollama GPT-OSS

Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.

AI

RAG Avançado: LongRAG, Self-RAG e GraphRAG Explicados

Executando FLUX.1-dev GGUF Q8 em Python

Docker Model Runner: Guia de Configuração do Tamanho do Contexto

FLUX.1-Kontext-dev: Modelo de IA para Aumento de Imagens

Adicionando suporte a GPU da NVIDIA ao Docker Model Runner

Reduza os Custos de LLM: Estratégias de Otimização de Tokens

Auto-Hospedagem do Immich: Nuvem de Fotos Privada

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama

Construindo Servidores MCP em Python: Guia de Pesquisa na Web e Raspagem

Docker Model Runner Cheatsheet: Comandos & Exemplos

Runner de Modelo Docker vs Ollama (2026): Qual é Melhor para LLMs Locais?

O Surgimento de ASICs para LLM: Por que o Hardware de Inferência Importa

DGX Spark vs. Mac Studio: Análise de Preços da Supercomputação Pessoal da NVIDIA

Clientes Go para Ollama: comparação de SDK e exemplos com Qwen3/GPT-OSS

Comparação: Qwen3:30b vs GPT-OSS:20b

Problemas de Saída Estruturada do Ollama GPT-OSS