CLI 및 서버를 사용한 llama.cpp 빠른 시작
OpenCode 설치, 구성 및 사용 방법
로컬 추론을 위해 llama.cpp을 계속해서 다시 사용하고 있습니다. 이는 Ollama 및 기타 도구들이 추상화하여 숨기는 부분을 직접 제어할 수 있게 해주며, 단순히 잘 작동하기 때문입니다. llama-cli를 통해 GGUF 모델을 대화식으로 쉽게 실행하거나, llama-server를 통해 OpenAI 호환 HTTP API를 노출할 수 있습니다.