LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen
Bereitstellen von OpenAI-kompatiblen APIs mit LocalAI in wenigen Minuten auf dem eigenen Server.
LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.
Das Projekt zielt auf eine praktische „Ersetzen der Cloud-API-URL"-Kompatibilität ab und unterstützt gleichzeitig mehrere Backends und Modalitäten (Text, Bilder, Audio, Embeddings und mehr).

Was LocalAI ist und warum Ingenieure es nutzen
LocalAI bietet eine HTTP REST API, die wichtige OpenAI-Endpunkte nachbildet, darunter Chat-Completion, Embeddings, Bildgenerierung und Audio-Endpunkte, sodass bestehende OpenAI-kompatible Tooling auf Ihre eigene Infrastruktur umgeleitet werden kann.
Über die reine Textgenerierung hinaus umfasst das Funktionspaket von LocalAI gängige „Produktions-Bausteine" wie Embeddings für RAG, diffusionsbasierte Bildgenerierung, Spracherkennung und Sprachsynthese, mit optionaler GPU-Beschleunigung und verteilten Mustern.
Wenn Sie selbstgehostete LLM-Serverung evaluieren, ist LocalAI interessant, weil es sich auf API-Kompatibilität (für eine einfachere Integration) konzentriert, während es gleichzeitig eine integrierte Web-Oberfläche und einen Modell-Galerie-Workflow bietet, um die Reibung bei der Installation und Konfiguration von Modellen zu reduzieren.
Für einen breiteren Vergleich von Optionen für selbstgehostete und Cloud-LLM-Hosting – einschließlich Ollama, vLLM, Docker Model Runner und verwalteter Cloud-Anbieter – sehen Sie sich den LLM Hosting Guide für 2026 an.
Wenn Sie eine detaillierte Gegenüberstellung von LocalAI gegenüber Ollama, vLLM, LM Studio und anderen wünschen, deckt der Vergleich der wichtigsten lokalen LLM-Tools im Jahr 2026 API-Unterstützung, Hardware-Kompatibilität und Produktionsreife ab. Für den breiteren Fall, Modelle auf Ihrer eigenen Infrastruktur zu halten, behandelt LLM Self-Hosting und AI Souveränität Datenresidenz und Compliance-Motivationen.
LocalAI-Installationsoptionen, die in der Praxis gut funktionieren
LocalAI kann auf verschiedene Arten installiert werden, aber für die meisten Teams ist der schnellste und risikofreiste Einstiegspunkt Container (Docker oder Podman). Wenn Sie während der Bearbeitung der folgenden Beispiele eine Befehlsreferenz benötigen, deckt das Docker Cheatsheet die häufigsten und nützlichsten Docker-Befehle ab.
Schnellster Start mit Docker
Dies startet den LocalAI-Server und bindet die API und die Web-Oberfläche an Port 8080:
docker run -p 8080:8080 --name local-ai -ti localai/localai:latest
Die Container-Dokumentation von LocalAI bezeichnet dies als den schnellsten Weg, einen funktionierenden Server hochzufahren, wobei die API unter http://localhost:8080 erreichbar ist.
Auswahl des richtigen LocalAI-Container-Images
LocalAI veröffentlicht mehrere Container-Varianten, damit Sie diese an Ihre Hardware anpassen können:
- Ein CPU-Image für breite Kompatibilität.
- GPU-spezifische Images für NVIDIA CUDA, AMD ROCm, Intel oneAPI und Vulkan.
- All-in-One (AIO)-Images, die vorkonfiguriert mit Modellen geliefert werden, die OpenAI-ähnlichen Modellnamen zugeordnet sind.
Die upstream GitHub README enthält konkrete docker run-Beispiele für CPU-only und verschiedene GPU-Optionen (NVIDIA CUDA-Varianten, AMD ROCm, Intel, Vulkan) sowie AIO-Varianten.
Modelle zwischen Neustarts persistieren
Wenn Sie keinen Speicher einbinden, werden Ihre heruntergeladenen Modelle möglicherweise nicht über Container-Lebenszyklusänderungen hinweg persistiert. Die Container-Anleitung empfiehlt das Einbinden eines Models-Volumes, zum Beispiel:
docker run -ti --name local-ai -p 8080:8080 \
-v "$PWD/models:/models" \
localai/localai:latest-aio-cpu
Dies macht /models innerhalb des Containers persistent auf Ihrem Host.
Ein minimales Docker Compose QuickStart
LocalAI bietet auch eine Referenz docker-compose.yaml im Repository, die ein häufiges Muster demonstriert: Port 8080 binden, ein /models-Volume einbinden, MODELS_PATH=/models setzen und optional ein Modell vorladen, indem es in der Befehlsliste angegeben wird (das Repository-Beispiel zeigt phi-2). Das Docker Compose Cheatsheet ist eine praktische Referenz, während Sie dies an Ihr Setup anpassen.
Ein „guter Standard"-Compose-Setup (CPU) sieht so aus:
services:
localai:
image: localai/localai:latest
container_name: local-ai
ports:
- "8080:8080"
volumes:
- ./models:/models
environment:
- MODELS_PATH=/models
Die Kernidee ist dieselbe wie im upstream-Beispiel: Host-Modellverzeichnis ↔ Container /models.
Wenn Sie neben LocalAI auch die native Docker docker model-Tooling verwenden, deckt das Docker Model Runner Cheatsheet Befehle zum Ziehen, Ausführen, Verpacken und Konfigurieren ab.
Nicht-Container-LocalAI-Installationen
LocalAI unterstützt auch Installationen über plattformspezifische Methoden (zum Beispiel ein macOS DMG und Linux-Binärdateien) und breitere Bereitstellungsoptionen wie Kubernetes.
Wenn Sie skriptbasierte Installationen unter Linux bevorzugen, beschreibt der DeepWiki-Quickstart einen install.sh-Pfad, der die Hardware automatisch erkennt und das System entsprechend konfiguriert.
Eine vorhersehbare Nutzungssequenz
Ein zuverlässiger LocalAI-Workflow ist:
LocalAI starten → Modell installieren oder importieren → geladene Modelle überprüfen → OpenAI-kompatible Endpoints aufrufen.
Diese Sequenz entspricht der offiziellen „Try it out"- und „Setting up models"-Anleitung, die den Prozess um das Starten des Servers, das Installieren von Modellen über Galerie oder CLI und das Testen von Endpoints mit curl herum beschreibt.
Server starten und Gesundheit bestätigen
Sobald der Server läuft, ist ein häufiger Sanity-Check der Readiness-Endpoint:
curl http://localhost:8080/readyz
Das Troubleshooting-Leitbild verwendet /readyz als erste Diagnose, um zu bestätigen, dass LocalAI ansprechbar ist.
Modell aus der Galerie installieren oder URI importieren
LocalAI bietet zwei gängige Modell-Onboarding-Flows:
- Model Gallery Install über die Web-Oberfläche, wobei Sie die UI öffnen, zum Register „Models" gehen, Modelle durchsuchen und „Install" klicken.
- CLI-getriebene Installation und Ausführung, unter Verwendung von
local-ai models list,local-ai models installundlocal-ai run.
Die Dokumentation unterstützt auch den Import von Modellen per URI (Hugging Face Repositories, direkte Modell-Datei-URIs und andere Register) und die Web-Oberfläche enthält einen dedizierten Import-Modell-Flow mit einem YAML-Editor für erweiterte Konfiguration.
Überprüfen, was LocalAI bereitstellen kann
Um bereitgestellte Modelle über die OpenAI-kompatible API aufzulisten:
curl http://localhost:8080/v1/models
Dies wird ausdrücklich sowohl als „nächster Schritt" nach der Container-Installation als auch als Troubleshooting-Diagnose empfohlen.
Wichtige Befehlszeilenparameter zum Lernen
LocalAIs CLI ist um den Befehl local-ai run aufgebaut, mit einer umfassenden Konfigurationsoberfläche.
Wir müssen zwei wichtige Betriebsverhalten hervorheben:
- Jeder CLI-Flag kann über eine Umgebungsvariable gesetzt werden.
- Umgebungsvariablen haben Vorrang vor CLI-Flags.
Unten sind die Parameter, die Praktiker am Anfang am häufigsten verwenden, gruppiert nach Absicht.
Alle Standardwerte und Namen von Umgebungsvariablen stammen aus der upstream CLI-Referenz. Wenn Sie Ollama neben LocalAI evaluieren, deckt das Ollama CLI Cheatsheet dessen serve, run, ps und Modellverwaltungsbefehle zum Vergleich ab.
Kern-Server- und Speicher-Flags
| Was Sie wollen | Flag | Umgebungsvariable | Hinweise |
|---|---|---|---|
| Bind-Adresse und Port ändern | --address |
LOCALAI_ADDRESS |
Standard ist :8080. |
| Speicherort der Modelle ändern | --models-path |
LOCALAI_MODELS_PATH |
Kritisch für persistierenden Speicher und Festplattenplanung. |
| Ändervollen Zustand von Konfiguration trennen | --data-path |
LOCALAI_DATA_PATH |
Speichert persistente Daten wie Agentenstatus und Jobs. |
| Upload-Ort festlegen | --upload-path |
LOCALAI_UPLOAD_PATH |
Für dateibezogene APIs. |
LocalAIs FAQ dokumentiert auch Standardspeicherorte für Modelle und empfiehlt ausdrücklich LOCALAI_MODELS_PATH oder --models-path, wenn Sie Modelle außerhalb des Standardverzeichnisses speichern möchten (zum Beispiel, um zu verhindern, dass ein Home-Verzeichnis voll wird).
Leistungs- und Kapazitäts-Flags
| Was Sie wollen | Flag | Umgebungsvariable | Hinweise |
|---|---|---|---|
| CPU-Nutzung optimieren | --threads |
LOCALAI_THREADS |
Empfohlen, physische Kerne zu entsprechen; weit verbreitet für Performance-Tuning. |
| Kontext pro Modell steuern | --context-size |
LOCALAI_CONTEXT_SIZE |
Standardkontextgröße für Modelle. |
| GPU-Beschleunigungsmodus aktivieren | --f16 |
LOCALAI_F16 |
Dokumentiert als „GPU-Beschleunigung aktivieren". |
| Geladene Modelle im Speicher begrenzen | --max-active-backends |
LOCALAI_MAX_ACTIVE_BACKENDS |
Aktiviert LRU-Eviction bei Überschreitung; kann Speicher footprint begrenzen. |
| Inaktive oder hängende Backends stoppen | --enable-watchdog-idle / --enable-watchdog-busy |
LOCALAI_WATCHDOG_IDLE / LOCALAI_WATCHDOG_BUSY |
Nützlich beim Ausführen vieler Modelle oder instabiler Backends. |
Für breitere Kompatibilität und Beschleunigungseinschränkungen dokumentiert die Modell-Kompatibilitätstabelle, welche Backends welche Beschleunigungsmodi unterstützen (CUDA, ROCm, SYCL, Vulkan, Metal, CPU), und merkt auch an, dass nicht explizit konfigurierte Modelle automatisch geladen werden können, während YAML-Konfiguration das Verhalten festlegen kann. Für hochdurchsatzfähige Multi-GPU-Bereitstellungen mit PagedAttention führt die vLLM Quickstart-Anleitung durch einen vergleichbaren OpenAI-kompatiblen Server mit produktionsorientierter Konfiguration.
API-, Sicherheits- und UI-Flags
| Was Sie wollen | Flag | Umgebungsvariable | Hinweise |
|---|---|---|---|
| API-Schlüssel erfordern | --api-keys |
LOCALAI_API_KEY / API_KEY |
Wenn gesetzt, müssen alle Anfragen mit einem konfigurierten Schlüssel authentifiziert werden. |
| Browsern erlauben, die API aufzurufen | --cors / --cors-allow-origins |
LOCALAI_CORS / LOCALAI_CORS_ALLOW_ORIGINS |
Deaktiviert lassen, es sei denn, Sie benötigen es. |
| Web-Oberfläche komplett deaktivieren | --disable-webui |
LOCALAI_DISABLE_WEBUI |
API-only-Modus für gehärtete Bereitstellungen. |
| Fehlerantworten härten | --opaque-errors |
LOCALAI_OPAQUE_ERRORS |
Nützlich in Hochsicherheitsumgebungen. |
Wenn Sie LocalAI remote exponieren, sollten Sie Endpoints schützen und den Zugriff mit einem API-Schlüssel sperren; der API-Schlüssel erteilt effektiv vollen Zugriff.
Web-Oberfläche Tour und wie sie zum System passt
Standardmäßig dient LocalAI eine integrierte Web-Oberfläche neben der API (es sei denn, Sie deaktivieren sie). Die Dokumentation besagt, dass die UI auf demselben Host und Port wie der Server zugänglich ist, typischerweise http://localhost:8080.
Was Sie in der integrierten UI tun können
Die Web-Oberfläche ist eine browserbasierte Schnittstelle, die Folgendes abdeckt:
- Modellverwaltung und das Galerie-Browsing-Erlebnis
- Chat-Interaktionen
- Bildgenerierung und Text-zu-Sprache-Schnittstellen
- Verteilte und P2P-Konfiguration
Die Routenstruktur bietet ein klares mentales Modell der UI-Oberfläche:
/für das Dashboard/browsefür den Modell-Galerie-Browser/chat/für Chat/text2image/für Bildgenerierung/tts/für Text-zu-Sprache/talk/für Sprachinteraktion/p2pfür P2P-Einstellungen und Überwachung
Modell-Galerie und „Import Model"-Workflow
Für Ingenieure ist das wichtigste UI-Feature das Modell-Onboarding. Die offizielle „Setting Up Models"-Anleitung beschreibt:
- Installieren von Modellen über das Register „Models" mit einem Klick-Install.
- Importieren von Modellen über eine Import-Modell-UI, die einen einfachen Modus (URI + Präferenzen) und einen erweiterten Modus mit einem YAML-Editor und Validierungstools unterstützt.
Dies ist wichtig, weil LocalAI Modelle letztendlich auf Basis von YAML-Konfiguration ausführt: Sie können einzelne YAML-Dateien im Modellverzeichnis verwalten, eine einzelne Datei mit mehreren Modelldefinitionen über --models-config-file verwenden oder Remote-YAML-URLs beim Start referenzieren.
Beispiele, die Sie in ein Terminal einfügen können
LocalAIs OpenAI-kompatible Endpoints sind so konzipiert, dass sie vertraute Request-Formate akzeptieren und JSON-Antworten zurückgeben (mit Audio-Endpoints, die Audio-Payloads zurückgeben).
Beispiel-Chat-Completions mit curl
Die LocalAI „Try it out"-Seite zeigt den Aufruf des Chat-Completions-Endpoints direkt:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4",
"messages": [
{ "role": "user", "content": "Write a one paragraph explanation of what LocalAI is." }
],
"temperature": 0.2
}'
AIO-Images liefern vorkonfigurierte Modelle, die OpenAI-ähnlichen Namen wie gpt-4 zugeordnet sind, und die Container-Dokumentation erklärt, dass diese von Open-Source-Modellen unterstützt werden.
Wenn Sie kein AIO-Image verwenden, ersetzen Sie "model" mit dem Namen des Modells, das Sie installiert haben (prüfen mit /v1/models).
Beispiel-Embeddings für RAG-Pipelines
LocalAI unterstützt Embeddings und Dokumente, wobei der Embedding-Endpoint mit mehreren Backends kompatibel ist, darunter llama.cpp, bert.cpp und sentence-transformers.
Eine minimale „embed this text"-Anfrage gegen den OpenAI-kompatiblen Endpoint sieht so aus:
curl http://localhost:8080/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "text-embedding-ada-002",
"input": "LocalAI embeddings are handy for semantic search and RAG."
}'
LocalAIs Embedding-Dokumentation zeigt auch, wie Embeddings durch YAML-Konfiguration aktiviert werden, indem embeddings: true gesetzt wird.
Beispiel mit einem OpenAI-kompatiblen Client
LocalAI ist so konzipiert, dass Sie Standard-OpenAI-Client-Bibliotheken verwenden können, indem Sie sie auf die LocalAI-Base-URL zeigen (und optional einen API-Schlüssel setzen, wenn Sie Authentifizierung aktiviert haben). Dieses „Drop-in Replacement"-Ziel wird sowohl in der upstream README als auch in der OpenAI-Kompatibilitätsdokumentation beschrieben.
Eine typische Konfiguration ist:
- Base URL:
http://localhost:8080/v1 - API-Key: entweder nicht erforderlich (Standard) oder erforderlich, wenn Sie
--api-keyskonfiguriert haben
Sicherheits- und Troubleshooting-Essentials
Einen LocalAI-Server sichern, bevor Sie ihn exponieren
LocalAI kann standardmäßig vollständig offen auf localhost laufen. Wenn Sie an eine öffentliche Schnittstelle binden oder ihn durch einen Ingress exponieren, fügen Sie mindestens eine dieser Kontrollen hinzu:
- API-Schlüssel-Authentifizierung mit
--api-keys/API_KEYaktivieren. - Einen Reverse-Proxy und Netzwerkkontrollen davor platzieren (Firewall, Whitelisting, VPN).
- Die Web-Oberfläche deaktivieren, wenn Sie nur die API benötigen (
--disable-webui). - CORS deaktiviert lassen, es sei denn, ein browserbasierter Client benötigt es tatsächlich.
Wenn API-Schlüssel aktiviert sind, akzeptieren die OpenAI-kompatible Endpoints Credentials an gängigen Orten wie einem Authorization Bearer Header oder x-api-key Header.
Schnelle Diagnose, wenn etwas nicht funktioniert
LocalAIs Troubleshooting-Leitfaden schlägt eine kleine Menge von Checks vor, die die meisten „läuft es"-Vorfälle lösen:
# readiness
curl http://localhost:8080/readyz
# list models
curl http://localhost:8080/v1/models
# version
local-ai --version
Es dokumentiert auch die Aktivierung von Debug-Logging via DEBUG=true oder --log-level=debug, und für Docker-Bereitstellungen das Überprüfen von Container-Logs mit docker logs local-ai.