AI - Rost Glukhov | Site pessoal e blog técnico

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Strategic guide to hosting large language models locally, on consumer hardware, in containers, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Auto-Hospedagem de LLM e Soberania Artificial

Auto-hospedagem de LLMs mantém os dados, modelos e inferência sob seu controle - um caminho prático para soberania em IA para equipes, empresas e nações.
Aqui: o que é a soberania em IA, quais aspectos e métodos são usados para construí-la, como a auto-hospedagem de LLMs se encaixa, e como países estão abordando o desafio.

Melhores LLMs para Ollama em GPU com 16GB de VRAM

Executar modelos de linguagem grandes localmente oferece privacidade, capacidade offline e zero custos de API. Este benchmark revela exatamente o que se pode esperar de 9 populares LLMs no Ollama no RTX 4080.

Top 17 Projetos em Python em Destaque no GitHub

O ecossistema Python este mês é dominado pelas habilidades do Claude e pela ferramenta de agentes de IA. Este resumo analisa os repositórios Python mais populares no GitHub.

O ecossistema Rust está explodindo com projetos inovadores, especialmente em ferramentas de codificação de IA e aplicações de terminal. Este resumo analisa os principais repositórios de Rust em tendência no GitHub deste mês.

Top 19 Projetos em Go em Destaque no GitHub - Janeiro de 2026

O ecossistema Go continua a prosperar com projetos inovadores que abrangem ferramentas de IA, aplicações auto-hospedadas e infraestrutura para desenvolvedores. Este resumo analisa os principais repositórios de Go em tendência no GitHub deste mês.

Este guia abrangente fornece contexto e uma comparação detalhada entre Anaconda, Miniconda e Mamba – três ferramentas poderosas que se tornaram essenciais para desenvolvedores Python e cientistas de dados que trabalham com dependências complexas e ambientes de computação científica.

Open WebUI: Interface de LLM Auto-Hospedada

Open WebUI é uma poderosa, extensível e rica em recursos interface web autosservida para interagir com modelos de linguagem grandes.

Eventos de Tecnologia em Melbourne para Ir em 2026

A comunidade tecnológica de Melbourne [https://www.glukhov.org/pt/post/2026/01/tech-events-melbourne/ “Eventos da comunidade tecnológica de Melbourne”] continua a prosperar em 2026 com uma impressionante programação de conferências, encontros e workshops abrangendo desenvolvimento de software, computação em nuvem, IA, cibersegurança e tecnologias emergentes.

vLLM é um motor de inferência e servidores de alta throughput e eficiência de memória para Modelos de Linguagem Grandes (LLMs) desenvolvido pelo Sky Computing Lab da UC Berkeley.

Preço do DGX Spark AU: de $6.249 a $7.999 em grandes varejistas

O
NVIDIA DGX Spark
(GB10 Grace Blackwell) está
agora disponível na Austrália
em grandes varejistas de PCs com estoque local.
Se você tem acompanhado o
preço e disponibilidade globais do DGX Spark,
você ficará interessado em saber que os preços na Austrália variam de $6.249 a $7.999 AUD, dependendo da configuração de armazenamento e do varejista.

Detectando AI Slop: Técnicas & Sinais de Alerta

A proliferação de conteúdo gerado por IA criou um novo desafio: distinguir escrita humana genuína de “IA slop” - texto sintético de baixa qualidade, produzido em massa.

Autosserviço do Cognee: Testes de Desempenho de LLM

Cognee é um framework Python para construir grafos de conhecimento a partir de documentos usando LLMs. Mas funciona com modelos auto-hospedados?

BAML vs Instrutor: Saídas de LLM Estruturadas

Quando se trabalha com Modelos de Linguagem de Grande Porte em produção, obter saídas estruturadas e com segurança de tipos é crítico. Dois frameworks populares - BAML e Instructor - abordam esse problema de formas diferentes.

Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee se destaca com modelos maiores e de baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

AI

Desempenho de LLM em 2026: Benchmarks, gargalos e otimização

Hosted LLM em 2026: Comparando Infraestrutura Local, Auto-Hospedada e em Nuvem

Auto-Hospedagem de LLM e Soberania Artificial

Melhores LLMs para Ollama em GPU com 16GB de VRAM

Top 17 Projetos em Python em Destaque no GitHub

Top 23 Projetos em Rust em Alta no GitHub - Janeiro de 2026

Top 19 Projetos em Go em Destaque no GitHub - Janeiro de 2026

Guia de Anaconda vs Miniconda vs Mamba

Open WebUI: Interface de LLM Auto-Hospedada

Eventos de Tecnologia em Melbourne para Ir em 2026

vLLM Quickstart: Serviço de LLM de Alta Performance - em 2026

Preço do DGX Spark AU: de $6.249 a $7.999 em grandes varejistas

Detectando AI Slop: Técnicas & Sinais de Alerta

Autosserviço do Cognee: Testes de Desempenho de LLM

BAML vs Instrutor: Saídas de LLM Estruturadas

Escolhendo o LLM certo para o Cognee: Configuração local do Ollama