Inicio rápido del conmutador de modelos llama.swap para LLMs locales compatibles con OpenAI
Intercambio en caliente de modelos LLM locales sin modificar los clientes.
Pronto estarás manejando vLLM, llama.cpp y más, cada pila en su propio puerto. Todo lo que hay aguas abajo sigue queriendo una URL base /v1; de lo contrario, seguirás reorganizando puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esas pilas.