LLM - Page 3 - Rost Glukhov | Sitio personal y blog técnico

Patrones de configuración de producción de OpenClaw con plugins y habilidades

OpenClaw parece simple en las demostraciones. En producción, se convierte en un sistema.

Claude, OpenClaw y el fin de la tarifa plana para agentes

La puerta trasera silenciosa que impulsó una ola de experimentación con agentes ahora está cerrada.

Inicio rápido de Vane (Perplexica 2.0) con Ollama y llama.cpp

Vane es una de las entradas más pragmáticas en el espacio de “búsqueda de IA con citas”: un motor de respuestas autoalojado que combina la recuperación web en vivo con LLM locales o en la nube, manteniendo toda la pila bajo tu control.

Instalación y configuración de Claude Code para Ollama, llama.cpp, precios

Claude Code no es autocompletado con mejor marketing. Es una herramienta de codificación agéntica: lee tu base de código, edita archivos, ejecuta comandos y se integra con tus herramientas de desarrollo.

Asistente Hermes AI - Instalación, configuración, flujo de trabajo y solución de problemas

El Agente Hermes es un asistente de IA autoalojado y agnóstico al modelo que se ejecuta en un equipo local o en un VPS de bajo costo, funciona a través de interfaces de terminal y mensajería, y mejora con el tiempo al convertir tareas repetidas en habilidades reutilizables.

TGI - Inferencia de Generación de Texto - Instalación, Configuración y Solución de Problemas

Text Generation Inference (TGI) tiene una energía muy específica. No es el último en llegar en la calle de la inferencia, pero es el que ya aprendió cómo se rompen las cosas en producción -

Benchmarks de LLM con 16 GB de VRAM con llama.cpp (velocidad y contexto)

Aquí comparo la velocidad de varios LLMs (modelos de lenguaje grande) ejecutándose en una GPU con 16 GB de VRAM, y elijo el mejor para autoalojamiento.

Precio y disponibilidad de la RTX 5090 en Australia para marzo de 2026: la realidad

Australia tiene existencias de la RTX 5090. Escasamente. Y si encuentras una, pagarás un sobreprecio que parece desconectado de la realidad.

Acceso remoto a Ollama mediante Tailscale o WireGuard, sin puertos públicos.

Ollama funciona mejor cuando se trata como un demonio local: la CLI y sus aplicaciones se comunican con una API HTTP de bucle local, y el resto de la red nunca descubre su existencia.

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.

Ollama detrás de un proxy inverso con Caddy o Nginx para streaming HTTPS

Ejecutar Ollama detrás de un proxy inverso es la forma más sencilla de obtener HTTPS, control de acceso opcional y un comportamiento de transmisión predecible.

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).

Inicio rápido de SGLang: instalar, configurar y servir modelos LLM a través de la API de OpenAI.

SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.

Inicio rápido de llama.swap Model Switcher para modelos LLM locales compatibles con OpenAI

Pronto estarás manejando vLLM, llama.cpp y más, cada stack en su propio puerto. Todo lo que viene aguas abajo aún quiere una URL base /v1; de lo contrario, seguirás moviendo puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esos stacks.

Sistemas de IA: asistentes autoalojados, RAG e infraestructura local

La mayoría de las configuraciones locales de IA comienzan con un modelo y un entorno de ejecución.

Op My Opencode Review: Resultados honestos, riesgos de facturación y cuándo vale la pena.

Oh My Opencode promete un “equipo de desarrollo de IA virtual”: Sisyphus orquestando especialistas, tareas ejecutándose en paralelo y la palabra mágica ultrawork activando todo ello.