Self-Hosting

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Serveur Ollama orienté composition, avec GPU et persistance.

Ollama fonctionne parfaitement sur du matériel nu. Cela devient encore plus intéressant lorsque vous le traitez comme un service : une extrémité stable, des versions figées, un stockage persistant et une GPU qui est soit disponible, soit non.

Embeddings de texte pour RAG et recherche - Python, Ollama, API compatibles OpenAI

Embeddings de texte pour RAG et recherche - Python, Ollama, API compatibles OpenAI

Intégration RAG - Python, Ollama, API OpenAI.

Si vous travaillez sur la génération augmentée par récupération (RAG), cette section explique les incorporations de texte (text embeddings) en termes simples : ce qu’elles sont, comment elles s’intègrent dans la recherche et la récupération, et comment appeler deux configurations locales courantes depuis Python en utilisant Ollama ou une API HTTP compatible OpenAI (comme le font de nombreux serveurs basés sur llama.cpp).

Prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles avec OpenAI

Prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles avec OpenAI

Remplacement à chaud des LLM locaux sans modifier les clients.

Bientôt, vous jonglerez avec vLLM, llama.cpp et bien plus encore — chaque pile fonctionnant sur son propre port. Tout le reste de votre infrastructure souhaite toujours une URL de base unique /v1 ; sinon, vous finissez par réorganiser constamment les ports, les profils et les scripts ponctuels. llama-swap est le proxy /v1 qui précède ces piles.