Openai

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작

클라이언트를 변경하지 않고 로컬 LLM을 핫스왑합니다.

곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 돌리게 될 것입니다. 하지만 하위 시스템은 여전히 **/v1**이라는 단일 기본 URL 을 원합니다. 그렇지 않으면 포트, 프로필, 일회용 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 세워지는 /v1 프록시입니다.

llama.cpp CLI 및 서버로 빠르게 시작하기

llama.cpp CLI 및 서버로 빠르게 시작하기

OpenCode 설치, 설정 및 사용 방법

저는 로컬 추론을 위해 llama.cpp를 계속 사용합니다. 이는 Ollama 및 기타 도구가 추상화하는 것을 직접 제어할 수 있게 해주며, 작동이 매우 간단합니다. llama-cli를 사용하여 GGUF 모델을 간단하게 실행하거나 llama-server를 통해 OpenAI-compatible HTTP API를 노출시킬 수 있습니다.