Patrones de configuración de producción de OpenClaw con plugins y habilidades
Cómo están realmente estructurados los sistemas OpenClaw
OpenClaw parece simple en las demostraciones. En producción, se convierte en un sistema.
Cómo están realmente estructurados los sistemas OpenClaw
OpenClaw parece simple en las demostraciones. En producción, se convierte en un sistema.
Las suscripciones a Claude ya no impulsan agentes
La puerta trasera silenciosa que impulsó una ola de experimentación con agentes ahora está cerrada.
Búsqueda de IA autoalojada con LLM locales
Vane es una de las entradas más pragmáticas en el espacio de “búsqueda de IA con citas”: un motor de respuestas autoalojado que combina la recuperación web en vivo con LLM locales o en la nube, manteniendo toda la pila bajo tu control.
Programación con agentes, ahora con backends de modelos locales.
Claude Code no es autocompletado con mejor marketing. Es una herramienta de codificación agéntica: lee tu base de código, edita archivos, ejecuta comandos y se integra con tus herramientas de desarrollo.
Instalación y introducción rápida de Hermes Agent para desarrolladores
El Agente Hermes es un asistente de IA autoalojado y agnóstico al modelo que se ejecuta en un equipo local o en un VPS de bajo costo, funciona a través de interfaces de terminal y mensajería, y mejora con el tiempo al convertir tareas repetidas en habilidades reutilizables.
Instala TGI, despliega rápido, depura más rápido.
Text Generation Inference (TGI) tiene una energía muy específica. No es el último en llegar en la calle de la inferencia, pero es el que ya aprendió cómo se rompen las cosas en producción -
velocidad de tokens de llama.cpp en 16 GB de VRAM (tablas).
Aquí comparo la velocidad de varios LLMs (modelos de lenguaje grande) ejecutándose en una GPU con 16 GB de VRAM, y elijo el mejor para autoalojamiento.
La RTX 5090 en Australia es escasa y sobrevalorada.
Australia tiene existencias de la RTX 5090. Escasamente. Y si encuentras una, pagarás un sobreprecio que parece desconectado de la realidad.
Acceso remoto a Ollama sin puertos públicos
Ollama funciona mejor cuando se trata como un demonio local: la CLI y sus aplicaciones se comunican con una API HTTP de bucle local, y el resto de la red nunca descubre su existencia.
Servidor Ollama con prioridad en composición, GPU y persistencia.
Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.
HTTPS con Ollama sin interrumpir las respuestas en streaming.
Ejecutar Ollama detrás de un proxy inverso es la forma más sencilla de obtener HTTPS, control de acceso opcional y un comportamiento de transmisión predecible.
Incrustaciones RAG: Python, Ollama y las APIs de OpenAI.
Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).
Sirva modelos abiertos rápidamente con SGLang.
SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.
Intercambio en caliente de LLMs locales sin necesidad de modificar los clientes.
Pronto estarás manejando vLLM, llama.cpp y más, cada stack en su propio puerto. Todo lo que viene aguas abajo aún quiere una URL base /v1; de lo contrario, seguirás moviendo puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esos stacks.
La mayoría de las configuraciones locales de IA comienzan con un modelo y un entorno de ejecución.
¿Qué sucede realmente cuando ejecutas Ultrawork?
Oh My Opencode promete un “equipo de desarrollo de IA virtual”: Sisyphus orquestando especialistas, tareas ejecutándose en paralelo y la palabra mágica ultrawork activando todo ello.