Быстрый старт с llama.cpp: CLI и сервер
Как установить, настроить и использовать OpenCode
Я снова и снова возвращаюсь к llama.cpp для локального инференса — он дает вам контроль, от которого отказываются Ollama и другие решения, и просто работает. Легко запускать GGUF-модели интерактивно через llama-cli или предоставлять совместимый с OpenAI HTTP API через llama-server.