KI-Systeme: Self-Hosted Assistants, RAG und lokale Infrastruktur

Inhaltsverzeichnis

Die meisten lokalen KI-Einrichtungen beginnen mit einem Modell und einer Laufzeitumgebung.

Sie laden ein quantisiertes Modell herunter, starten es über Ollama oder eine andere Laufzeitumgebung und beginnen mit dem Prompting. Für Experimente reicht das völlig aus. Doch sobald Sie über reine Neugier hinausgehen – sobald Ihnen Speicher, Abrufqualität, Routing-Entscheidungen oder Kosteneffizienz wichtig sind –, zeigt sich die Einfachheit als limitierend.

Dieser Cluster untersucht einen anderen Ansatz: Die KI-Assistenz nicht als einzelne Modellaufrufe zu betrachten, sondern als koordiniertes System.

Diese Unterscheidung mag auf den ersten Blick subtil erscheinen, verändert aber die Art und Weise, wie Sie über lokale KI denken, völlig.

Orchestrierung von KI-Systemen mit lokalen LLMs, RAG und Speicherschichten


Was ist ein KI-System?

Ein KI-System ist mehr als nur ein Modell. Es ist eine Orchestrierungsschicht, die Inferenz, Abruf, Speicher und Ausführung zu etwas verbindet, das sich wie ein kohärenter Assistent verhält.

Lokales Betreiben eines Modells ist Infrastrukturarbeit. Die Gestaltung eines Assistenten um dieses Modell herum ist Systemarbeit.

Wenn Sie unsere umfassenden Leitfäden zu folgenden Themen erkundet haben:

wissen Sie bereits, dass Inferenz nur eine Schicht des Stacks ist.

Der KI-System-Cluster sitzt auf diesen Schichten. Er ersetzt sie nicht – er kombiniert sie.


OpenClaw: Ein selbstgehostetes KI-Assistentensystem

OpenClaw ist ein quelloffenes, selbstgehostetes KI-Assistentensystem, das darauf ausgelegt ist, über Messaging-Plattformen hinweg zu operieren, während es auf lokaler Infrastruktur läuft.

Auf praktischer Ebene:

  • Nutzt lokale LLM-Laufzeitumgebungen wie Ollama oder vLLM
  • Integriert den Abruf über indizierte Dokumente
  • Verwaltet Speicher über einzelne Sitzungen hinaus
  • Führt Tools und Automatisierungsaufgaben aus
  • Kann instrumentiert und beobachtet werden
  • Operiert innerhalb von Hardwarebeschränkungen

Es ist nicht nur eine Hülle um ein Modell. Es ist eine Orchestrierungsschicht, die Inferenz, Abruf, Speicher und Ausführung zu etwas verbindet, das sich wie ein kohärenter Assistent verhält.

Um es lokal auszuführen und die Einrichtung selbst zu erkunden, sehen Sie den OpenClaw-Quickstart-Leitfaden, der eine Docker-basierte Installation beschreibt, die entweder ein lokales Ollama-Modell oder eine cloud-basierte Claude-Konfiguration verwendet.

Für eine tiefere architektonische Erkundung, wie sich OpenClaw von einfacheren lokalen Einrichtungen unterscheidet, lesen Sie den OpenClaw-Systemüberblick.


Hermes: Ein persistenter Agent mit Fähigkeiten und Tool-Sandboxing

Hermes Agent ist ein selbstgehosteter, modellagnostischer Assistent, der auf persistenter Operation fokussiert ist: Er kann als langlebiger Prozess laufen, Tools über konfigurierbare Backends ausführen und Workflows im Laufe der Zeit durch Speicher und wiederverwendbare Fähigkeiten verbessern.

Auf praktischer Ebene ist Hermes nützlich, wenn Sie Folgendes wünschen:

  • Einen terminalorientierten Assistenten, der auch in Messaging-Apps integriert werden kann
  • Flexibilität bei Anbietern durch OpenAI-kompatible Endpunkte und Modellwechsel
  • Grenzwerte für Tool-Ausführung über lokale und sandboxed Backends
  • Operationen am zweiten Tag mit Diagnosen, Logs und Konfigurationshygiene

Für Installation, Anbieter-Einrichtung, Workflow-Muster und Fehlerbehebung sehen Sie Hermes KI-Assistent - Installieren, Einrichten, Workflow und Fehlerbehebung.


Was KI-Systeme anders macht

Mehrere Merkmale machen KI-Systeme näherer Betrachtung wert.

Modell-Routing als Designentscheidung

Die meisten lokalen Einrichtungen standardmäßig auf ein Modell. KI-Systeme unterstützen die bewusste Auswahl von Modellen.

Daraus ergeben sich Fragen:

  • Sollten kleine Anfragen kleinere Modelle verwenden?
  • Wann rechtfertigt das Reasoning ein größeres Kontextfenster?
  • Was ist der Kostenunterschied pro 1.000 Tokens?

Diese Fragen stehen in direktem Zusammenhang mit den Leistungsabwägungen, die in dem LLM-Leistungsleitfaden diskutiert werden, und den Infrastrukturentscheidungen, die in dem LLM-Hosting-Leitfaden skizziert sind.

KI-Systeme machen diese Entscheidungen sichtbar, anstatt sie zu verstecken.

Abruf wird als sich entwickelnde Komponente behandelt

KI-Systeme integrieren den Dokumentenabruf, aber nicht als einfachen Schritt „einschließen und suchen".

Sie erkennen an:

  • Die Chunk-Größe beeinflusst Recall und Kosten
  • Hybride Suche (BM25 + Vektor) kann reine dichte Abrufe übertreffen
  • Reranking verbessert die Relevanz auf Kosten der Latenz
  • Die Indexierungsstrategie beeinflusst den Speicherverbrauch

Diese Themen stimmen mit den tiefergehenden architektonischen Überlegungen überein, die in dem RAG-Tutorial diskutiert werden.

Der Unterschied besteht darin, dass KI-Systeme den Abruf in einen lebendigen Assistenten einbetten, anstatt ihn als isolierte Demo zu präsentieren.

Speicher als Infrastruktur

Stateless-LLMs vergessen alles zwischen den Sitzungen.

KI-Systeme führen persistente Speicherschichten ein. Das wirft sofort Designfragen auf:

  • Was sollte langfristig gespeichert werden?
  • Wann sollte der Kontext zusammengefasst werden?
  • Wie verhindern Sie eine Token-Explosion?
  • Wie indexieren Sie Speicher effizient?

Diese Fragen überschneiden sich direkt mit den Daten-Schicht-Überlegungen aus dem Dateninfrastruktur-Leitfaden.

Speicher hört auf, eine Funktion zu sein, und wird zu einem Speicherproblem.

Observability ist nicht optional

Die meisten lokalen KI-Experimente enden bei „es antwortet".

KI-Systeme machen es möglich zu beobachten:

  • Token-Nutzung
  • Latenz
  • Hardware-Auslastung
  • Durchsatzmuster

Dies verbindet sich natürlich mit den Überwachungsprinzipien, die in dem Observability-Leitfaden beschrieben sind.

Wenn KI auf Hardware läuft, sollte sie wie jede andere Arbeitslast messbar sein.


Wie sich die Nutzung anfühlt

Von außen mag ein KI-System immer noch wie eine Chat-Oberfläche aussehen.

Unter der Oberfläche passiert jedoch mehr.

Wenn Sie es bitten, einen lokal gespeicherten technischen Bericht zusammenzufassen:

  1. Es holt relevante Dokumentensegmente ab.
  2. Es wählt ein geeignetes Modell aus.
  3. Es generiert eine Antwort.
  4. Es protokolliert Token-Nutzung und Latenz.
  5. Es aktualisiert den persistenten Speicher, falls erforderlich.

Die sichtbare Interaktion bleibt einfach. Das Systemverhalten ist geschichtet.

Dieses geschichtete Verhalten ist es, was ein System von einer Demo unterscheidet.


Wo KI-Systeme im Stack Platz finden

Der KI-System-Cluster befindet sich an der Schnittstelle mehrerer Infrastrukturschichten:

  • LLM-Hosting: Die Laufzeitschicht, in der Modelle ausgeführt werden (Ollama, vLLM, llama.cpp)
  • RAG: Die Abrufschicht, die Kontext und Verankerung bietet
  • Leistung: Die Messschicht, die Latenz und Durchsatz verfolgt
  • Observability: Die Überwachungsschicht, die Metriken und Kostennachverfolgung bereitstellt
  • Dateninfrastruktur: Die Speicherschicht, die Speicher und Indexierung handhabt

Das Verständnis dieser Unterscheidung ist nützlich. Das selbstständige Betreiben macht den Unterschied deutlicher.

Für eine minimale lokale Installation mit OpenClaw, sehen Sie den OpenClaw-Quickstart-Leitfaden, der eine Docker-basierte Einrichtung beschreibt, die entweder ein lokales Ollama-Modell oder eine cloud-basierte Claude-Konfiguration verwendet.

Wenn Ihre Einrichtung von Claude abhängt, klärt diese Richtlinienänderung für Agent-Tools, warum API-Abrechnung nun für Drittanbieter-OpenClaw-Workflows erforderlich ist.


Verwandte Ressourcen