llama.swap: Guia Rápido do Alternador de Modelos para LLMs Locais Compatíveis com OpenAI
Substitua LLMs locais via hot-swap sem alterar os clientes.
Em breve você estará equilibrando vLLM, llama.cpp e mais — cada pilha em sua própria porta. Tudo a jusante ainda deseja uma URL base única /v1; caso contrário, você continua mudando portas, perfis e scripts pontuais. llama-swap é o proxy /v1 antes dessas pilhas.