Início Rápido do Seletor de Modelos llama.swap para LLMs Locais Compatíveis com OpenAI
Troca quente de LLMs locais sem alterar os clientes.
Em breve, você estará equilibrando vLLM, llama.cpp e mais — cada pilha em sua própria porta. Tudo a jusante ainda deseja uma URL base /v1; caso contrário, você continuará movendo portas, perfis e scripts pontuais. O llama-swap é o proxy /v1 antes dessas pilhas.