Llama-Server-Router-Modus – Dynamischer Modellwechsel ohne Neustart
Bereitstellung und Austausch von LLMs ohne Neustart.
Seit langem hatte llama.cpp eine eklatante Einschränkung:
Man konnte nur ein Modell pro Prozess bereitstellen, und ein Wechsel erforderte einen Neustart.