Быстрый старт: переключатель моделей llama.swap для локальных LLM, совместимых с OpenAI
Горячая замена локальных LLM без изменения клиентов.
Вскоре вы будете жонглировать vLLM, llama.cpp и другими решениями — каждый стек на своем порту. Все downstream-системы все еще хотят один базовый URL /v1; иначе вы постоянно переставляете порты, профили и одноразовые скрипты. llama-swap — это прокси /v1 перед этими стеками.