KI-Systeme: Self-Hosted Assistants, RAG und lokale Infrastruktur
Die meisten lokalen KI-Einrichtungen beginnen mit einem Modell und einer Laufzeitumgebung.
Sie laden ein quantisiertes Modell herunter, starten es über Ollama oder eine andere Laufzeitumgebung und beginnen mit dem Prompting. Für Experimente reicht das völlig aus. Doch sobald Sie über reine Neugier hinausgehen – sobald Ihnen Speicher, Abrufqualität, Routing-Entscheidungen oder Kosteneffizienz wichtig sind –, zeigt sich die Einfachheit als limitierend.
Dieser Cluster untersucht einen anderen Ansatz: Die KI-Assistenz nicht als einzelne Modellaufrufe zu betrachten, sondern als koordiniertes System.
Diese Unterscheidung mag auf den ersten Blick subtil erscheinen, verändert aber die Art und Weise, wie Sie über lokale KI denken, völlig.

Was ist ein KI-System?
Ein KI-System ist mehr als nur ein Modell. Es ist eine Orchestrierungsschicht, die Inferenz, Abruf, Speicher und Ausführung zu etwas verbindet, das sich wie ein kohärenter Assistent verhält.
Lokales Betreiben eines Modells ist Infrastrukturarbeit. Die Gestaltung eines Assistenten um dieses Modell herum ist Systemarbeit.
Wenn Sie unsere umfassenden Leitfäden zu folgenden Themen erkundet haben:
- LLM-Hosting im Jahr 2026: Lokale, selbstgehostete und Cloud-Infrastrukturen im Vergleich
- Tutorial zur Retrieval-Augmented Generation (RAG): Architektur, Implementierung und Produktionsleitfaden
- LLM-Leistung im Jahr 2026: Benchmarks, Engpässe und Optimierung
- Observability für KI-Systeme
wissen Sie bereits, dass Inferenz nur eine Schicht des Stacks ist.
Der KI-System-Cluster sitzt auf diesen Schichten. Er ersetzt sie nicht – er kombiniert sie.
OpenClaw: Ein selbstgehostetes KI-Assistentensystem
OpenClaw ist ein quelloffenes, selbstgehostetes KI-Assistentensystem, das darauf ausgelegt ist, über Messaging-Plattformen hinweg zu operieren, während es auf lokaler Infrastruktur läuft.
Auf praktischer Ebene:
- Nutzt lokale LLM-Laufzeitumgebungen wie Ollama oder vLLM
- Integriert den Abruf über indizierte Dokumente
- Verwaltet Speicher über einzelne Sitzungen hinaus
- Führt Tools und Automatisierungsaufgaben aus
- Kann instrumentiert und beobachtet werden
- Operiert innerhalb von Hardwarebeschränkungen
Es ist nicht nur eine Hülle um ein Modell. Es ist eine Orchestrierungsschicht, die Inferenz, Abruf, Speicher und Ausführung zu etwas verbindet, das sich wie ein kohärenter Assistent verhält.
Um es lokal auszuführen und die Einrichtung selbst zu erkunden, sehen Sie den OpenClaw-Quickstart-Leitfaden, der eine Docker-basierte Installation beschreibt, die entweder ein lokales Ollama-Modell oder eine cloud-basierte Claude-Konfiguration verwendet.
Für eine tiefere architektonische Erkundung, wie sich OpenClaw von einfacheren lokalen Einrichtungen unterscheidet, lesen Sie den OpenClaw-Systemüberblick.
Hermes: Ein persistenter Agent mit Fähigkeiten und Tool-Sandboxing
Hermes Agent ist ein selbstgehosteter, modellagnostischer Assistent, der auf persistenter Operation fokussiert ist: Er kann als langlebiger Prozess laufen, Tools über konfigurierbare Backends ausführen und Workflows im Laufe der Zeit durch Speicher und wiederverwendbare Fähigkeiten verbessern.
Auf praktischer Ebene ist Hermes nützlich, wenn Sie Folgendes wünschen:
- Einen terminalorientierten Assistenten, der auch in Messaging-Apps integriert werden kann
- Flexibilität bei Anbietern durch OpenAI-kompatible Endpunkte und Modellwechsel
- Grenzwerte für Tool-Ausführung über lokale und sandboxed Backends
- Operationen am zweiten Tag mit Diagnosen, Logs und Konfigurationshygiene
Für Installation, Anbieter-Einrichtung, Workflow-Muster und Fehlerbehebung sehen Sie Hermes KI-Assistent - Installieren, Einrichten, Workflow und Fehlerbehebung.
Was KI-Systeme anders macht
Mehrere Merkmale machen KI-Systeme näherer Betrachtung wert.
Modell-Routing als Designentscheidung
Die meisten lokalen Einrichtungen standardmäßig auf ein Modell. KI-Systeme unterstützen die bewusste Auswahl von Modellen.
Daraus ergeben sich Fragen:
- Sollten kleine Anfragen kleinere Modelle verwenden?
- Wann rechtfertigt das Reasoning ein größeres Kontextfenster?
- Was ist der Kostenunterschied pro 1.000 Tokens?
Diese Fragen stehen in direktem Zusammenhang mit den Leistungsabwägungen, die in dem LLM-Leistungsleitfaden diskutiert werden, und den Infrastrukturentscheidungen, die in dem LLM-Hosting-Leitfaden skizziert sind.
KI-Systeme machen diese Entscheidungen sichtbar, anstatt sie zu verstecken.
Abruf wird als sich entwickelnde Komponente behandelt
KI-Systeme integrieren den Dokumentenabruf, aber nicht als einfachen Schritt „einschließen und suchen".
Sie erkennen an:
- Die Chunk-Größe beeinflusst Recall und Kosten
- Hybride Suche (BM25 + Vektor) kann reine dichte Abrufe übertreffen
- Reranking verbessert die Relevanz auf Kosten der Latenz
- Die Indexierungsstrategie beeinflusst den Speicherverbrauch
Diese Themen stimmen mit den tiefergehenden architektonischen Überlegungen überein, die in dem RAG-Tutorial diskutiert werden.
Der Unterschied besteht darin, dass KI-Systeme den Abruf in einen lebendigen Assistenten einbetten, anstatt ihn als isolierte Demo zu präsentieren.
Speicher als Infrastruktur
Stateless-LLMs vergessen alles zwischen den Sitzungen.
KI-Systeme führen persistente Speicherschichten ein. Das wirft sofort Designfragen auf:
- Was sollte langfristig gespeichert werden?
- Wann sollte der Kontext zusammengefasst werden?
- Wie verhindern Sie eine Token-Explosion?
- Wie indexieren Sie Speicher effizient?
Diese Fragen überschneiden sich direkt mit den Daten-Schicht-Überlegungen aus dem Dateninfrastruktur-Leitfaden.
Speicher hört auf, eine Funktion zu sein, und wird zu einem Speicherproblem.
Observability ist nicht optional
Die meisten lokalen KI-Experimente enden bei „es antwortet".
KI-Systeme machen es möglich zu beobachten:
- Token-Nutzung
- Latenz
- Hardware-Auslastung
- Durchsatzmuster
Dies verbindet sich natürlich mit den Überwachungsprinzipien, die in dem Observability-Leitfaden beschrieben sind.
Wenn KI auf Hardware läuft, sollte sie wie jede andere Arbeitslast messbar sein.
Wie sich die Nutzung anfühlt
Von außen mag ein KI-System immer noch wie eine Chat-Oberfläche aussehen.
Unter der Oberfläche passiert jedoch mehr.
Wenn Sie es bitten, einen lokal gespeicherten technischen Bericht zusammenzufassen:
- Es holt relevante Dokumentensegmente ab.
- Es wählt ein geeignetes Modell aus.
- Es generiert eine Antwort.
- Es protokolliert Token-Nutzung und Latenz.
- Es aktualisiert den persistenten Speicher, falls erforderlich.
Die sichtbare Interaktion bleibt einfach. Das Systemverhalten ist geschichtet.
Dieses geschichtete Verhalten ist es, was ein System von einer Demo unterscheidet.
Wo KI-Systeme im Stack Platz finden
Der KI-System-Cluster befindet sich an der Schnittstelle mehrerer Infrastrukturschichten:
- LLM-Hosting: Die Laufzeitschicht, in der Modelle ausgeführt werden (Ollama, vLLM, llama.cpp)
- RAG: Die Abrufschicht, die Kontext und Verankerung bietet
- Leistung: Die Messschicht, die Latenz und Durchsatz verfolgt
- Observability: Die Überwachungsschicht, die Metriken und Kostennachverfolgung bereitstellt
- Dateninfrastruktur: Die Speicherschicht, die Speicher und Indexierung handhabt
Das Verständnis dieser Unterscheidung ist nützlich. Das selbstständige Betreiben macht den Unterschied deutlicher.
Für eine minimale lokale Installation mit OpenClaw, sehen Sie den OpenClaw-Quickstart-Leitfaden, der eine Docker-basierte Einrichtung beschreibt, die entweder ein lokales Ollama-Modell oder eine cloud-basierte Claude-Konfiguration verwendet.
Wenn Ihre Einrichtung von Claude abhängt, klärt diese Richtlinienänderung für Agent-Tools, warum API-Abrechnung nun für Drittanbieter-OpenClaw-Workflows erforderlich ist.
Verwandte Ressourcen
- LLM-Hosting im Jahr 2026: Lokale, selbstgehostete und Cloud-Infrastrukturen im Vergleich
- Tutorial zur Retrieval-Augmented Generation (RAG): Architektur, Implementierung und Produktionsleitfaden
- LLM-Leistung im Jahr 2026: Benchmarks, Engpässe und Optimierung
- Observability für KI-Systeme
- Dateninfrastruktur für KI-Systeme