Rost Glukhov | Site pessoal e blog técnico

Melhores LLMs para OpenCode – De Gemma 4 a Qwen 3.6, Testados Localmente

Testei como o OpenCode funciona com vários LLMs hospedados localmente via Ollama e llama.cpp, e, para comparação, adicionei alguns modelos gratuitos do OpenCode Zen.

Aprofundamento e Guia de Modelos dos Agentes Especializados do Opencode

O maior salto de capacidade no OpenCode vem de agentes especializados: separação deliberada de orquestração, planejamento, execução e pesquisa.

Início Rápido do OpenHands Coding Assistant: Instalação, Opções de CLI e Exemplos

OpenHands é uma plataforma de código aberto e agnóstica em relação ao modelo para agentes de desenvolvimento de software impulsionados por IA. Ele permite que um agente se comporte mais como um parceiro de programação do que como uma simples ferramenta de autocompletar.

Início Rápido do LocalAI: Execute LLMs Compatíveis com OpenAI Localmente

O LocalAI é um servidor de inferência de auto-hospedagem, com prioridade local, projetado para funcionar como uma API OpenAI plug-and-play para executar cargas de trabalho de IA no seu próprio hardware (laptop, estação de trabalho ou servidor local).

Oh My Opencode QuickStart para o OpenCode: Instalar, Configurar e Executar

O Oh My Opencode transforma o OpenCode em um harness de codificação multi-agente: um orquestrador delega trabalhos para agentes especialistas que executam em paralelo.

Início Rápido do llama.cpp com CLI e Servidor

Volto sempre ao llama.cpp para inferência local — ele oferece controle que o Ollama e outros abstraem, e simplesmente funciona. É fácil executar modelos GGUF interativamente com llama-cli ou expor uma API HTTP compatível com OpenAI com llama-server.

Início Rápido do OpenCode: Instale, Configure e Utilize o Agente de Codificação de IA no Terminal

OpenCode é um agente de codificação com IA de código aberto que você pode executar no terminal (TUI + CLI), com superfícies opcionais para desktop e IDE. Este é o OpenCode Quickstart: instale, verifique, conecte um modelo provedor e execute fluxos de trabalho reais (CLI + API).

Airtable para Desenvolvedores e DevOps: Planos, API, Webhooks e Exemplos em Go/Python

O Airtable deve ser pensado como uma plataforma de aplicativos low-code construída em torno de uma interface de planilha “semelhante a banco de dados” colaborativa - excelente para criar rapidamente ferramentas operacionais (rastreadores internos, CRMs leves, pipelines de conteúdo, filas de avaliação de IA) onde usuários não desenvolvedores precisam de uma interface amigável, mas os desenvolvedores também precisam de uma superfície de API para automação e integração.

Monitoramento de Inferência de LLM em Produção (2026): Prometheus e Grafana para vLLM, TGI e llama.cpp

A inferência de LLM parece ser “apenas outra API” — até que a latência dispare, as filas se acumulem e suas GPUs fiquem com 95% de memória sem uma explicação óbvia.

OpenClaw: Examinando um Assistente de IA Auto-Hospedado como um Sistema Real

A maioria das configurações de IA local começa da mesma forma: um modelo, um tempo de execução e uma interface de chat.

Início Rápido do OpenClaw: Instalação com Docker (Ollama GPU ou Claude + CPU)

O OpenClaw é um assistente de IA hospedado localmente projetado para funcionar com tempos de execução de LLM locais, como o Ollama, ou com modelos baseados em nuvem, como o Claude Sonnet.

Garage vs MinIO vs AWS S3: Comparação de Armazenamento de Objetos e Matriz de Recursos

O AWS S3 continua sendo a linha de base “padrão” para armazenamento de objetos: é totalmente gerenciado, fortemente consistente e projetado para durabilidade e disponibilidade extremamente altas.
Garage e MinIO são alternativas auto-hospedadas compatíveis com S3: o Garage é projetado para clusters pequenos a médios leves e geograficamente distribuídos, enquanto o MinIO enfatiza a ampla cobertura de recursos da API S3 e alto desempenho em implantações maiores.

Implementando Aplicações de Fluxo de Trabalho com Temporal em Go: Um Guia Completo

Temporal é um mecanismo de fluxo de trabalho (workflow) de nível empresarial e de código aberto que permite aos desenvolvedores construir aplicações de fluxo de trabalho duráveis, escaláveis e tolerantes a falhas, utilizando linguagens de programação familiares como Go.

Garage - Guia Rápido de Armazenamento de Objetos Compatível com S3

Garage é um sistema de armazenamento de objetos de código aberto, auto-hospedado e compatível com S3, projetado para implantações de pequeno a médio porte, com forte ênfase em resiliência e distribuição geográfica.

Observabilidade para Sistemas de LLM: Métricas, Traces, Logs e Testes em Produção

Os sistemas LLM falham de maneiras que a monitorização de APIs tradicional não consegue revelar — as filas enchem silenciosamente, a memória da GPU satura muito antes que a CPU pareça ocupada e a latência explode na camada de agrupamento (batching) em vez da camada de aplicação. Este guia cobre uma estratégia de ponta a ponta de observabilidade para inferência LLM e aplicações LLM: o que medir, como instrumentar com Prometheus, OpenTelemetry e Grafana, e como implementar o pipeline de telemetia em escala.

Estratégias de Segmentação na Comparação de RAG: Alternativas, Compensações e Exemplos

Chunking é o hiperparâmetro mais subestimado na Geração Aumentada por Recuperação (RAG): ele determina silenciosamente o que seu LLM “vê”, o quão cara se torna a ingestão, e quanto da janela de contexto do LLM você queima por resposta.