Inicio rápido de llama.swap Model Switcher para modelos LLM locales compatibles con OpenAI
Intercambio en caliente de LLMs locales sin necesidad de modificar los clientes.
Pronto estarás manejando vLLM, llama.cpp y más, cada stack en su propio puerto. Todo lo que viene aguas abajo aún quiere una URL base /v1; de lo contrario, seguirás moviendo puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esos stacks.