Mode routeur de Llama-Server : basculement dynamique de modèles sans redémarrage
Déployer et remplacer des LLMs sans redémarrage.
Pendant longtemps, llama.cpp présentait une limitation criante : vous ne pouviez servir qu’un seul modèle par processus, et changer de modèle impliquait un redémarrage.