Self-Hosting

NemoClaw: Praxisratgeber für sichere OpenClaw-Betriebstätigkeiten im Jahr 2026

Die meisten KI-Agent-Stacks behandeln Sicherheit nach wie vor als ein Problem, das erst nach der Demo behoben wird. NemoClaw geht von der entgegengesetzten Annahme aus und macht Isolation, Richtlinien und Routing von Anfang an zur Standardeinstellung.

Wissensmanagement 2026: PKM-Tools, selbst gehostete Wikis und digitale Systeme

Das persönliche Wissensmanagement erstreckt sich über Obsidian, Logseq, DokuWiki, Zettelkasten und PARA – die richtige Wahl hängt davon ab, ob Sie einen lokalen Notizgraphen, eine selbstgehostete Wiki-Plattform oder einen auf Outliner basierenden Workflow bevorzugen.

Claude, OpenClaw und das Ende der Flat-Rate-Preise für Agenten

Die ruhige Lücke, die eine Welle an Experimenten mit Agenten antrieb, ist nun geschlossen.

Vane (Perplexica 2.0) Schnellstart mit Ollama und llama.cpp

Vane ist einer der pragmatischeren Einträge im Bereich „KI-Suche mit Quellenangaben": eine selbst gehostete Antwortmaschine, die live abrufbare Websuche mit lokalen oder Cloud-LLMs kombiniert, während der gesamte Stack unter Ihrer Kontrolle bleibt.

TGI – Text Generation Inference – Installation, Konfiguration, Fehlerbehebung

Text Generation Inference (TGI) hat eine sehr spezifische Energie. Es ist nicht das neueste Kind auf der Inferenz-Straße, aber es ist dasjenige, das bereits gelernt hat, wie Produktion funktioniert –

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für den Selbst-Hosting-Einsatz aus.

RTX 5090 in Australien: Preis, Verfügbarkeit und Realität im März 2026

Australien verfügt über RTX 5090-Lagerbestände. Kaum. Und wenn Sie eine finden, zahlen Sie einen Aufpreis, der sich von der Realität zu lösen scheint.

Remote-Zugriff auf Ollama über Tailscale oder WireGuard, ohne öffentliche Ports

Ollama ist am glücklichsten, wenn es wie ein lokaler Daemon behandelt wird: Die CLI und Ihre Apps kommunizieren mit einer Loopback-HTTP-API, und der Rest des Netzwerks erfährt nie von ihrer Existenz.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming

Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).

IndexNow erklärt – Suchmaschinen bei Veröffentlichung benachrichtigen

Statische Websites und Blogs ändern sich beim Deploy. Suchmaschinen, die IndexNow unterstützen, können über diese Änderungen informiert werden, ohne auf das nächste blinde Crawling warten zu müssen.

SGLang-Schnellstart: LLMs installieren, konfigurieren und über die OpenAI-API bereitstellen

SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.

Apache Kafka Schnellstart – Installation von Kafka 4.2 mit CLI und lokalen Beispielen

Apache Kafka 4.2.0 ist die aktuell unterstützte Release-Linie und stellt die beste Basis für einen modernen Quickstart dar, da Kafka 4.x standardmäßig vollständig ohne ZooKeeper auskommt und auf KRaft aufbaut.

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

Oh My Opencode-Review: Ehrliche Ergebnisse, Abrechnungsrisiken und wann es sich lohnt.

Oh My Opencode verspricht ein „virtuelles KI-Entwicklerteam" — Sisyphus dirigiert Spezialisten, Aufgaben werden parallel ausgeführt und das magische Schlüsselwort ultrawork aktiviert alles.