Modo Router de Llama-Server: Cambio dinámico de modelos sin reinicios
Sirva y alterne LLMs sin reinicios.
Durante mucho tiempo, llama.cpp tenía una limitación evidente:
solo podías servir un modelo por proceso, y cambiar implicaba un reinicio.
Sirva y alterne LLMs sin reinicios.
Durante mucho tiempo, llama.cpp tenía una limitación evidente:
solo podías servir un modelo por proceso, y cambiar implicaba un reinicio.
Sirva modelos abiertos rápidamente con SGLang.
SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.
Intercambio en caliente de LLMs locales sin necesidad de modificar los clientes.
Pronto estarás manejando vLLM, llama.cpp y más, cada stack en su propio puerto. Todo lo que viene aguas abajo aún quiere una URL base /v1; de lo contrario, seguirás moviendo puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esos stacks.
Cómo instalar, configurar y utilizar OpenCode
Sigo volviendo a llama.cpp para la inferencia local: te da un control que Ollama y otros abstraen, y simplemente funciona. Es fácil ejecutar modelos GGUF de forma interactiva con llama-cli o exponer una API HTTP compatible con OpenAI con llama-server.