OpenAI

llama.cpp Schnellstart mit CLI und Server

Ich komme immer wieder zu llama.cpp für lokale Inferenz – es gibt Ihnen die Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Es ist leicht, GGUF-Modelle interaktiv mit llama-cli zu nutzen oder eine OpenAI-kompatible HTTP-API mit llama-server bereitzustellen.