Self-Hosting

Inicio rápido de llama.swap Model Switcher para modelos LLM locales compatibles con OpenAI

Pronto estarás manejando vLLM, llama.cpp y más, cada stack en su propio puerto. Todo lo que viene aguas abajo aún quiere una URL base /v1; de lo contrario, seguirás moviendo puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esos stacks.

Op My Opencode Review: Resultados honestos, riesgos de facturación y cuándo vale la pena.

Oh My Opencode promete un “equipo de desarrollo de IA virtual”: Sisyphus orquestando especialistas, tareas ejecutándose en paralelo y la palabra mágica ultrawork activando todo ello.

¡Oh Mi OpenCode! Inicio Rápido para OpenCode: Instalación, Configuración y Ejecución

Oh My Opencode transforma OpenCode en un andamio de codificación multiagente: un orquestador delega el trabajo a agentes especialistas que se ejecutan en paralelo.

Los mejores LLMs para OpenCode: de Gemma 4 a Qwen 3.6, probados localmente

He probado cómo funciona OpenCode con varios LLM alojados localmente en Ollama y llama.cpp, y para comparar, he añadido algunos modelos gratuitos de OpenCode Zen.

Análisis Exhaustivo y Guía de Modelos para Agentes Especializados de Opencode

El mayor salto de capacidad en OpenCode proviene de los agentes especializados: la separación deliberada de la orquestación, la planificación, la ejecución y la investigación.

Inicio Rápido del Asistente de Codificación OpenHands: Instalación, Banderas de la CLI y Ejemplos

OpenHands es una plataforma de código abierto e agnóstica a modelos para agentes de desarrollo de software impulsados por IA. Permite que un agente se comporte más como un compañero de codificación que como una simple herramienta de autocompletado.

LocalAI QuickStart: Ejecute LLM compatibles con OpenAI localmente

LocalAI es un servidor de inferencia autohospedado y local-first diseñado para comportarse como una API de OpenAI de reemplazo directo para ejecutar cargas de trabajo de IA en tu propio hardware (portátil, estación de trabajo o servidor local).

Monitorización de inferencia de LLM en producción (2026): Prometheus y Grafana para vLLM, TGI y llama.cpp

La inferencia de LLM parece ser “solo otra API” hasta que se producen picos de latencia, las colas se saturan y tus GPUs se mantienen al 95% de uso de memoria sin una explicación obvia.

Inicio rápido de OpenClaw: instalación con Docker (Ollama GPU o Claude + CPU)

OpenClaw es un asistente de IA autoalojado diseñado para ejecutarse con tiempos de ejecución de LLM locales como Ollama o con modelos en la nube como Claude Sonnet.

Garage vs. MinIO vs. AWS S3: Comparación de almacenamiento de objetos y matriz de características

AWS S3 sigue siendo la “opción por defecto” para el almacenamiento de objetos: es completamente gestionado, ofrece consistencia fuerte y está diseñado para una durabilidad y disponibilidad extremadamente altas.
Garage y MinIO son alternativas autohospedadas compatibles con S3: Garage está diseñado para clusters pequeños a medianos distribuidos geográficamente, mientras que MinIO se centra en una amplia cobertura de características de la API S3 y en un alto rendimiento en implementaciones más grandes.

Garaje - Almacenamiento de objetos compatible con S3 Guía de inicio rápido

Garage es un sistema de almacenamiento de objetos compatible con S3, de código abierto y autohospedado, diseñado para despliegues pequeños a medianos, con un fuerte énfasis en la resiliencia y la distribución geográfica.

Alojamiento de LLM en 2026: comparación entre infraestructura local, autoalojada y en la nube

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Autoalojamiento de LLM y soberanía de la IA

El autoalojamiento de modelos de lenguaje grandes (LLM) mantiene los datos, los modelos y la inferencia bajo su control: una vía práctica hacia la soberanía de la IA para equipos, empresas y naciones.

Comparación del rendimiento de los LLMs en Ollama con GPU de 16 GB de VRAM

Ejecutar modelos de lenguaje grandes (LLMs) de forma local te ofrece privacidad, capacidad de funcionamiento sin conexión y cero costos de API. Este análisis revela exactamente qué se puede esperar de 14 LLMs populares en Ollama con una RTX 4080.

Top 19 proyectos de Go trending en GitHub - Enero 2026

El ecosistema de Go continúa prosperando con proyectos innovadores que abarcan herramientas de IA, aplicaciones autohospedadas y infraestructura para desarrolladores. Este análisis examina los repositorios de Go más trending en GitHub de este mes.

Aumentan los precios de las GPU y la RAM en Australia: RTX 5090 sube un 15%, la RAM un 38% - enero de 2026

Hoy nos estamos enfocando en las GPUs de consumo de alto nivel y módulos de RAM. Específicamente, me estoy enfocando en precios de RTX-5080 y RTX-5090, y 32GB (2x16GB) DDR5 6000.