Modo Enrutador de Llama-Server: Cambio Dinámico de Modelos Sin Reinicios
Sirva e intercambie LLMs sin reinicios.
Durante mucho tiempo, llama.cpp tenía una limitación evidente: solo se podía servir un modelo por proceso, y cambiar de modelo implicaba un reinicio.