LLM Hosting

TGI - Inferencia de Generación de Texto - Instalación, Configuración y Solución de Problemas

Text Generation Inference (TGI) tiene una energía muy específica. No es el último en llegar en la calle de la inferencia, pero es el que ya aprendió cómo se rompen las cosas en producción -

Acceso remoto a Ollama mediante Tailscale o WireGuard, sin puertos públicos.

Ollama funciona mejor cuando se trata como un demonio local: la CLI y sus aplicaciones se comunican con una API HTTP de bucle local, y el resto de la red nunca descubre su existencia.

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.

Ollama detrás de un proxy inverso con Caddy o Nginx para streaming HTTPS

Ejecutar Ollama detrás de un proxy inverso es la forma más sencilla de obtener HTTPS, control de acceso opcional y un comportamiento de transmisión predecible.

Inicio rápido de SGLang: instalar, configurar y servir modelos LLM a través de la API de OpenAI.

SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.

Inicio rápido del conmutador de modelos llama.swap para LLMs locales compatibles con OpenAI

Pronto estarás manejando vLLM, llama.cpp y más, cada pila en su propio puerto. Todo lo que hay aguas abajo sigue queriendo una URL base /v1; de lo contrario, seguirás reorganizando puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esas pilas.

LocalAI QuickStart: Ejecute LLM compatibles con OpenAI localmente

LocalAI es un servidor de inferencia autohospedado y local-first diseñado para comportarse como una API de OpenAI de reemplazo directo para ejecutar cargas de trabajo de IA en tu propio hardware (portátil, estación de trabajo o servidor local).

Quickstart de llama.cpp con CLI y servidor

Sigo volviendo a llama.cpp para la inferencia local, ya que me da el control que Ollama y otros abstraen, y simplemente funciona. Fácil de ejecutar modelos GGUF de forma interactiva con llama-cli o exponer una API HTTP OpenAI-compatible con llama-server.

Autohospedaje de LLMs mantiene los datos, modelos e inferencia bajo su control: un camino práctico hacia la soberanía en IA para equipos, empresas y naciones.

Open WebUI: Interfaz de LLM autohospedada

Open WebUI es una poderosa, extensible y rica en características interfaz web autogestionada para interactuar con modelos de lenguaje grandes.

vLLM es un motor de inferencia y servicio de alto rendimiento y eficiente en memoria para Modelos de Lenguaje Grandes (LLM), desarrollado por el Laboratorio de Computación Sky de la Universidad de California, Berkeley.

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware. Cognee destaca con modelos grandes de baja alucinación (32B+) a través de Ollama pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Ollama vs vLLM vs LM Studio: ¿La mejor forma de ejecutar LLMs localmente en 2026?

Ejecutar LLMs (Modelos de Lenguaje Grandes) de forma local es ahora práctico para desarrolladores, startups e incluso equipos empresariales.
Pero elegir la herramienta correcta — Ollama, vLLM, LM Studio, LocalAI u otras — depende de tus objetivos:

Guía de configuración del tamaño de contexto de Docker Model Runner

Configuración de tamaños de contexto en Docker Model Runner es más compleja de lo que debería ser.

Añadir soporte para GPU de NVIDIA al ejecutor de modelos de Docker

Docker Model Runner es la herramienta oficial de Docker para ejecutar modelos de IA localmente, pero habilitar la aceleración de GPU de NVidia en Docker Model Runner requiere una configuración específica.

Docker Model Runner Cheatsheet: Comandos y ejemplos

Docker Model Runner (DMR) es la solución oficial de Docker para ejecutar modelos de IA localmente, introducida en abril de 2025. Esta guía rápida proporciona una referencia rápida para todos los comandos esenciales, configuraciones y mejores prácticas.