CUDA

llama.cpp CLI 및 서버로 빠르게 시작하기

llama.cpp CLI 및 서버로 빠르게 시작하기

OpenCode 설치, 설정 및 사용 방법

저는 로컬 추론을 위해 llama.cpp를 계속 사용합니다. 이는 Ollama 및 기타 도구가 추상화하는 것을 직접 제어할 수 있게 해주며, 작동이 매우 간단합니다. llama-cli를 사용하여 GGUF 모델을 간단하게 실행하거나 llama-server를 통해 OpenAI-compatible HTTP API를 노출시킬 수 있습니다.