Tryb routera serwera Llama – dynamiczne przełączanie modeli bez restartu
Serwuj i podmieniaj modele LLM bez konieczności restartów.
Przez długi czas llama.cpp miał wyraźną wadę: można było obsługiwać tylko jeden model na proces, a przeladowanie wymagało restartu.