Início Rápido do llama.cpp com CLI e Servidor
Como Instalar, Configurar e Utilizar o OpenCode
Volto sempre ao llama.cpp para inferência local — ele oferece controle que o Ollama e outros abstraem, e simplesmente funciona. É fácil executar modelos GGUF interativamente com llama-cli ou expor uma API HTTP compatível com OpenAI com llama-server.