LLM - Page 2 - Rost Glukhov | Site pessoal e blog técnico

Modo Router do Llama-Server - Comutação Dinâmica de Modelos Sem Reinícios

Por muito tempo, o llama.cpp teve uma limitação gritante: era possível servir apenas um modelo por processo, e a troca exigia uma reinicialização.

Habilidades do Claude e SKILL.md para Desenvolvedores: VS Code, JetBrains e Cursor

A maioria das equipes usa as Skills do Claude de uma das duas maneiras erradas. Ou transformam o SKILL.md em um depósito de tudo, ou nunca deixam de usar prompts gigantes copiados e colados.

Habilidades do Assistente de IA Hermes para Ambientes de Produção Reais

O assistente de IA Hermes, documentado oficialmente como Hermes Agent, não se posiciona como um simples wrapper de chat.

Ecossistema de Habilidades do OpenClaw e Escolhas Práticas para Produção

O OpenClaw possui dois tipos de extensões, e é fácil confundi-los.

Plugins estendem o tempo de execução. Skills (habilidades) estendem o comportamento do agente.

Plugins OpenClaw — Guia do Ecossistema e Escolhas Práticas

Este artigo trata dos plugins do OpenClaw — pacotes nativos de gateway que adicionam canais, provedores de modelos, ferramentas, voz, memória, mídia, pesquisa web e outras superfícies de tempo de execução.

Padrões de Configuração de Produção do OpenClaw com Plugins e Skills

O OpenClaw parece simples em demonstrações. Em produção, torna-se um sistema.

Claude, OpenClaw e o fim da cobrança plana para agentes

A brecha silenciosa que impulsionou uma onda de experimentação com agentes agora está fechada.

Início Rápido do Vane (Perplexica 2.0) com Ollama e llama.cpp

Vane é uma das entradas mais pragmáticas no espaço de “busca de IA com citações”: um motor de respostas auto-hospedado que combina recuperação da web em tempo real com LLMs locais ou na nuvem, mantendo toda a pilha sob seu controle.

Instalação e configuração do Claude Code para Ollama, llama.cpp, preços

O Claude Code não é um autocompletar com melhor marketing. É uma ferramenta de codificação agêntica: lê sua base de código, edita arquivos, executa comandos e integra-se às suas ferramentas de desenvolvimento.

Assistente Hermes AI - Instalação, Configuração, Fluxo de Trabalho e Solução de Problemas

O Hermes Agent é um assistente de IA auto-hospedado e agnóstico em relação ao modelo, que roda em uma máquina local ou em um VPS de baixo custo, funciona através de interfaces de terminal e mensagens, e melhora com o tempo ao transformar tarefas repetidas em habilidades reutilizáveis.

TGI – Text Generation Inference – Instalação, Configuração e Solução de Problemas

A Inferência de Geração de Texto (TGI) tem uma energia muito específica. Não é o mais novo na rua da inferência, mas é aquele que já aprendeu como a produção quebra -

Benchmarks de LLMs com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Aqui estou comparando a velocidade de vários LLMs rodando em GPU com 16GB de VRAM e escolhendo o melhor para auto-hospedagem.

Preços e Disponibilidade da RTX 5090 na Austrália em Março de 2026: A Realidade

A Austrália tem estoque de RTX 5090. Quase nada. E se você encontrar uma, pagará um prêmio que parece descolado da realidade.

Acesso remoto ao Ollama via Tailscale ou WireGuard, sem portas públicas.

Ollama está em seu melhor quando é tratado como um daemon local: a CLI e seus aplicativos se comunicam com uma API HTTP em loopback, e o resto da rede nunca fica sabendo que ele existe.

Ollama no Docker Compose com GPU e Armazenamento Persistente de Modelos

Ollama funciona muito bem em metal nu. Torna-se ainda mais interessante quando tratado como um serviço: um endpoint estável, versões fixas, armazenamento persistente e uma GPU que está disponível ou não.

Ollama atrás de um proxy reverso com Caddy ou Nginx para streaming HTTPS

Executar o Ollama atrás de um proxy reverso é a maneira mais simples de obter HTTPS, controle de acesso opcional e comportamento de streaming previsível.