Self-Hosting

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Servidor Ollama con prioridad en composición, GPU y persistencia.

Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Incrustaciones RAG: Python, Ollama y las APIs de OpenAI.

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).

Mejores LLMs para OpenCode - Pruebas Locales

Mejores LLMs para OpenCode - Pruebas Locales

Prueba de LLM OpenCode: estadísticas de codificación y precisión

He probado cómo funciona OpenCode con varios modelos LLM alojados localmente en Ollama, y para comparar, he añadido algunos modelos gratuitos de OpenCode Zen.

LocalAI QuickStart: Ejecute LLM compatibles con OpenAI localmente

LocalAI QuickStart: Ejecute LLM compatibles con OpenAI localmente

Ejecuta APIs compatibles con OpenAI de forma autohospedada con LocalAI en minutos.

LocalAI es un servidor de inferencia autohospedado y local-first diseñado para comportarse como una API de OpenAI de reemplazo directo para ejecutar cargas de trabajo de IA en tu propio hardware (portátil, estación de trabajo o servidor local).