Modo de Roteador Llama-Server - Alternância Dinâmica de Modelos sem Reinicializações
Servir e alternar LLMs sem reinicializações.
Por muito tempo, o llama.cpp teve uma limitação evidente:
você só podia servir um modelo por processo, e alternar significava reiniciar.