OpenClaw-Produktionskonfigurationen mit Plugins und Skills
Wie reale OpenClaw-Systeme tatsächlich strukturiert sind
OpenClaw wirkt in Demos einfach. In der Produktion wird es zu einem System.
Wie reale OpenClaw-Systeme tatsächlich strukturiert sind
OpenClaw wirkt in Demos einfach. In der Produktion wird es zu einem System.
Claude-Abos versorgen Agenten nicht länger
Die ruhige Lücke, die eine Welle an Experimenten mit Agenten antrieb, ist nun geschlossen.
Selbst gehostete KI-Suche mit lokalen LLMs
Vane ist einer der pragmatischeren Einträge im Bereich „KI-Suche mit Quellenangaben": eine selbst gehostete Antwortmaschine, die live abrufbare Websuche mit lokalen oder Cloud-LLMs kombiniert, während der gesamte Stack unter Ihrer Kontrolle bleibt.
Agentic Coding, jetzt mit lokalen Modell-Backends.
Claude Code ist nicht einfach nur Autovervollständigung mit besserem Marketing. Es ist ein agentenbasiertes Coding-Tool: Es liest Ihre Codebasis, editiert Dateien, führt Befehle aus und integriert sich in Ihre Entwicklungstools.
Installation und Schnellstart des Hermes-Agenten für Entwickler
Hermes Agent ist ein selbst gehosteter, modellunabhängiger KI-Assistent, der auf einem lokalen Computer oder einem kostengünstigen VPS läuft, über Terminal- und Messaging-Schnittstellen arbeitet und sich durch die Umwandlung wiederkehrender Aufgaben in wiederverwendbare Fähigkeiten im Laufe der Zeit verbessert.
Installiere TGI, schieß schnell ab, debugge noch schneller.
Text Generation Inference (TGI) hat eine sehr spezifische Energie. Es ist nicht das neueste Kind auf der Inferenz-Straße, aber es ist dasjenige, das bereits gelernt hat, wie Produktion funktioniert –
Token-Geschwindigkeit von llama.cpp mit 16 GB VRAM (Tabellen).
Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für die Selbsthosting-Nutzung aus.
Die RTX 5090 ist in Australien knapp und überhöht im Preis.
Australien verfügt über RTX 5090-Lagerbestände. Kaum. Und wenn Sie eine finden, zahlen Sie einen Aufpreis, der sich von der Realität zu lösen scheint.
Remote-Zugriff auf Ollama ohne öffentliche Ports
Ollama ist am glücklichsten, wenn es wie ein lokaler Daemon behandelt wird: Die CLI und Ihre Apps kommunizieren mit einer Loopback-HTTP-API, und der Rest des Netzwerks erfährt nie von ihrer Existenz.
Compose-first Ollama-Server mit GPU und Persistenz.
Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.
HTTPS mit Ollama, ohne die Streaming-Antworten zu beeinträchtigen.
Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.
RAG-Einbettungen – Python, Ollama, OpenAI-APIs.
Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).
Dienen Sie Open-Modelle schnell mit SGLang.
SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.
Lokale LLMs ohne Änderung der Clients austauschen.
Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.
Die meisten lokalen KI-Setups beginnen mit einem Modell und einer Laufzeitumgebung.
Was genau passiert, wenn Sie Ultrawork ausführen?
Oh My Opencode verspricht ein „virtuelles KI-Entwicklerteam" — Sisyphus dirigiert Spezialisten, Aufgaben werden parallel ausgeführt und das magische Schlüsselwort ultrawork aktiviert alles.