Openai

Tryb routera serwera Llama – dynamiczne przełączanie modeli bez restartu

Przez długi czas llama.cpp miał wyraźną wadę: można było obsługiwać tylko jeden model na proces, a przeladowanie wymagało restartu.

Szybki start z SGLang: instalacja, konfiguracja i uruchamianie modeli LLM przez API OpenAI

SGLang to wysokowydajny framework do obsługi dużych modeli językowych i multimodalnych, zaprojektowany do zapewnienia niskiego opóźnienia i wysokiej przepustowości podczas wnioskowania, niezależnie od tego, czy działa na pojedynczej karcie GPU, czy w rozproszonych klastrach.

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Wkrótce będziesz balansować między vLLM, llama.cpp i innymi rozwiązaniami – każdy stos na własnym porcie. Wszystko w dalszym ciągu oczekuje jednego podstawowego adresu URL /v1; inaczej ciągle będziesz przesuwać porty, profile i skrypty ad-hoc. llama-swap jest proxy /v1 przed tymi stosami.

Nieustannie wracam do llama.cpp do wnioskowania lokalnego – daje ono kontrolę, której Ollama i inne rozwiązania abstrahują, a po prostu działa. Łatwo uruchamiać modele GGUF interaktywnie za pomocą llama-cli lub narażać API HTTP zgodne z OpenAI za pomocą llama-server.