Быстрый старт переключателя моделей llama.swap для локальных LLM, совместимых с OpenAI
Горячая замена локальных LLM без изменения клиентов.
Вот вы скоро балансируете между vLLM, llama.cpp и прочим стеком — каждый на своем порту. Все downstream-системы все еще ожидают единый базовый URL /v1; иначе вы будете постоянно менять порты, профили и разовые скрипты. llama-swap — это прокси для /v1, стоящее перед этими стеками.