GGUF

Démarrage rapide de llama.cpp avec l'interface CLI et le serveur

Démarrage rapide de llama.cpp avec l'interface CLI et le serveur

Comment installer, configurer et utiliser OpenCode

Je reviens constamment vers llama.cpp pour l’inférence locale — cela vous donne un contrôle que Ollama et d’autres abstraigent, et cela fonctionne parfaitement. Il est facile d’exécuter des modèles GGUF de manière interactive avec llama-cli ou d’exposer une API HTTP compatible avec OpenAI avec llama-server.