Openai

Modo de Roteador Llama-Server - Alternância Dinâmica de Modelos sem Reinicializações

Por muito tempo, o llama.cpp teve uma limitação evidente:
você só podia servir um modelo por processo, e alternar significava reiniciar.

SGLang QuickStart: Instale, Configure e Execute LLMs via API OpenAI

O SGLang é um framework de serviço de alto desempenho para grandes modelos de linguagem e modelos multimodais, construído para fornecer inferência de baixa latência e alto throughput, desde uma única GPU até clusters distribuídos.

Início Rápido do Seletor de Modelos llama.swap para LLMs Locais Compatíveis com OpenAI

Em breve, você estará equilibrando vLLM, llama.cpp e mais — cada pilha em sua própria porta. Tudo a jusante ainda deseja uma URL base /v1; caso contrário, você continuará movendo portas, perfis e scripts pontuais. O llama-swap é o proxy /v1 antes dessas pilhas.

Início Rápido do llama.cpp com CLI e Servidor

Volto constantemente ao llama.cpp para inferência local – ele oferece um controle que o Ollama e outros abstraem, e simplesmente funciona. É fácil executar modelos GGUF de forma interativa com o llama-cli ou expor uma API HTTP compatível com OpenAI com o llama-server.