Openai

Mode routeur Llama-Server : basculement dynamique des modèles sans redémarrage

Pendant longtemps, llama.cpp avait une limitation flagrante :
vous ne pouviez servir qu’un seul modèle par processus, et changer de modèle nécessitait un redémarrage.

Démarrage rapide de SGLang : Installation, configuration et déploiement de LLM via l’API OpenAI

SGLang est un framework de service haute performance pour les grands modèles de langage et les modèles multimodaux, conçu pour fournir une inférence à faible latence et à haut débit sur tout, d’une seule GPU à des clusters distribués.

Guide de prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles OpenAI

Bientôt, vous jonglerez avec vLLM, llama.cpp et plus encore — chaque pile sur son propre port. Tout ce qui se trouve en aval souhaite toujours une URL de base /v1; sinon, vous continuez à changer de ports, de profils et de scripts ponctuels. llama-swap est le proxy /v1 avant ces piles.

Démarrage rapide de llama.cpp avec CLI et serveur

Je reviens sans cesse à llama.cpp pour l’inférence locale : il vous offre un contrôle qu’Ollama et autres abstraient, et cela fonctionne simplement. Il est facile d’exécuter des modèles GGUF de manière interactive avec llama-cli ou d’exposer une API HTTP compatible OpenAI avec llama-server.