GGUF - Rost Glukhov | Site personnel et blog technique

Démarrage rapide de llama.cpp avec l'interface CLI et le serveur

Je reviens constamment vers llama.cpp pour l’inférence locale — cela vous donne un contrôle que Ollama et d’autres abstraigent, et cela fonctionne parfaitement. Il est facile d’exécuter des modèles GGUF de manière interactive avec llama-cli ou d’exposer une API HTTP compatible avec OpenAI avec llama-server.