Llama-Server 라우터 모드 - 재시작 없이 동적 모델 전환
재시작 없이 LLM 을 제공하고 교체합니다.
오랫동안 llama.cpp 는 뚜렷한 한계가 있었습니다:
프로세스당 단 하나의 모델만 servir 할 수 있었고, 모델을 전환하려면 재시작이 필요했습니다.
재시작 없이 LLM 을 제공하고 교체합니다.
오랫동안 llama.cpp 는 뚜렷한 한계가 있었습니다:
프로세스당 단 하나의 모델만 servir 할 수 있었고, 모델을 전환하려면 재시작이 필요했습니다.
SGLang 로 오픈 모델을 빠르게 제공하세요.
SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.
클라이언트를 변경하지 않고 로컬 LLM을 핫스왑합니다.
곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.
OpenCode 설치, 설정 및 사용 방법
로컬 추론을 위해 llama.cpp 로 계속 돌아오게 됩니다. 이 도구는 Ollama 와 다른 도구들이 추상화하는 제어를 제공하며, 실제로 작동합니다. llama-cli 를 통해 GGUF 모델을 대화식으로 쉽게 실행하거나, llama-server 를 통해 OpenAI 호환 HTTP API 를 노출할 수 있습니다.