Openai

Llama-Server-routermodus: dynamisch wisselen van modellen zonder herstart

Lang had llama.cpp een opvallende beperking:
je kon slechts één model per proces bedienen, en om te wisselen moest je herstarten.

SGLang QuickStart: installeer, configureer en serveer LLM's via de OpenAI API

SGLang is een high-performance framework voor het uitvoeren van inference bij grote taalmodellen en multimodale modellen, ontworpen om lage latentie en hoge doorvoer te leveren, variërend van een enkele GPU tot gedistribueerde clusters.

Korte handleiding voor de llama.swap-modelwisselaar voor lokaal openai-compatibele LLM's

Binnenkort balanceren vLLM, llama.cpp en meer—elk stack op zijn eigen poort. Alles downstream wil nog steeds één /v1 basis-URL; anders blijf je met poorten, profielen en eenmalige scripts shuffelen. llama-swap is de /v1 proxy voor die stacks.

Snelstart van llama.cpp met CLI en server

Ik keer steeds terug naar llama.cpp voor lokale inferentie: het geeft je controle die Ollama en anderen abstracteren, en het werkt gewoon. Het is eenvoudig om GGUF-modellen interactief uit te voeren met llama-cli of een OpenAI-compatibele HTTP-API bloot te stellen met llama-server.