Snabbstart med llama.cpp: Kommandotolken och servern
Hur man installerar, konfigurerar och använder OpenCode
Jag återkommer till llama.cpp för lokal inferens – det ger dig kontroll som Ollama och andra abstraherar bort, och det fungerar bara. Det är enkelt att köra GGUF-modeller interaktivt med llama-cli eller exponera ett OpenAI-kompatibelt HTTP-API med llama-server.