llama.swap Modell-Switcher Schnellstart für OpenAI-kompatible lokale LLMs
Hot-Swap lokaler LLMs ohne Änderung der Clients.
In Kürze jonglieren Sie mit vLLM, llama.cpp und mehr – jede Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; sonst müssen Sie ständig Ports, Profile und Einweg-Skripte verwalten. llama-swap ist der /v1-Proxy vor diesen Stacks.