Prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles avec OpenAI
Remplacement à chaud des LLM locaux sans modifier les clients.
Bientôt, vous jonglerez avec vLLM, llama.cpp et bien plus encore — chaque pile fonctionnant sur son propre port. Tout le reste de votre infrastructure souhaite toujours une URL de base unique /v1 ; sinon, vous finissez par réorganiser constamment les ports, les profils et les scripts ponctuels. llama-swap est le proxy /v1 qui précède ces piles.