Openai

Modo Router de Llama-Server: Cambio dinámico de modelos sin reinicios

Durante mucho tiempo, llama.cpp tenía una limitación evidente:
solo podías servir un modelo por proceso, y cambiar implicaba un reinicio.

Inicio rápido de SGLang: instalar, configurar y servir modelos LLM a través de la API de OpenAI.

SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.

Inicio rápido de llama.swap Model Switcher para modelos LLM locales compatibles con OpenAI

Pronto estarás manejando vLLM, llama.cpp y más, cada stack en su propio puerto. Todo lo que viene aguas abajo aún quiere una URL base /v1; de lo contrario, seguirás moviendo puertos, perfiles y scripts de una sola vez. llama-swap es el proxy /v1 antes de esos stacks.

Inicio rápido de llama.cpp con CLI y servidor

Sigo volviendo a llama.cpp para la inferencia local: te da un control que Ollama y otros abstraen, y simplemente funciona. Es fácil ejecutar modelos GGUF de forma interactiva con llama-cli o exponer una API HTTP compatible con OpenAI con llama-server.