곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 돌리게 될 것입니다. 하지만 하위 시스템은 여전히 **/v1**이라는 단일 기본 URL 을 원합니다. 그렇지 않으면 포트, 프로필, 일회용 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 세워지는 /v1 프록시입니다.
저는 로컬 추론을 위해 llama.cpp를 계속 사용합니다. 이는 Ollama 및 기타 도구가 추상화하는 것을 직접 제어할 수 있게 해주며, 작동이 매우 간단합니다. llama-cli를 사용하여 GGUF 모델을 간단하게 실행하거나 llama-server를 통해 OpenAI-compatible HTTP API를 노출시킬 수 있습니다.
Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.