Ollama

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Ollama en Docker Compose con GPU y almacenamiento persistente de modelos

Servidor Ollama con prioridad en composición, GPU y persistencia.

Ollama funciona muy bien en hardware físico (bare metal). Se vuelve aún más interesante cuando lo tratas como un servicio: un punto de conexión estable, versiones fijas, almacenamiento persistente y una GPU que está disponible o no lo está.

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Incrustaciones RAG: Python, Ollama y las APIs de OpenAI.

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).