Guida rapida per llama.swap Model Switcher per modelli LLM locali compatibili con OpenAI
Sostituzione a caldo di LLM locali senza modificare i client.
Presto ti troverai a gestire vLLM, llama.cpp e altro ancora, ogni stack su una propria porta. Tutto il resto a valle si aspetta comunque un URL base unico /v1; altrimenti continuerai a spostare porte, profili e script monouso. llama-swap è il proxy /v1 che precede questi stack.