Rost Glukhov | Persönliche Website und technischer Blog

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming

Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, um HTTPS, optionale Zugriffskontrolle und vorhersagbares Streaming-Verhalten zu erhalten.

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).

Netlify für Hugo und statische Websites: Preismodelle, Gratis-Tier und Alternativen

Netlify ist eine der entwicklerfreundlichsten Methoden, um Hugo-Websites und moderne Webanwendungen mit einem Workflow auf Produktionsniveau zu veröffentlichen: Vorschau-URLs für jede Pull-Request, atomare Bereitstellungen, ein globales CDN sowie optionale serverlose und Edge-Funktionen.

Apache Flink auf K8s und Kafka: PyFlink, Go, Betrieb und verwaltetes Preismodell

Apache Flink ist ein Framework für zustandsbehaftete Berechnungen über unendliche und endliche Datenströme.

Neo4j-Grafendatenbank für GraphRAG, Installation, Cypher, Vektoren, Operations

Neo4j ist das Mittel der Wahl, wenn die Beziehungen die eigentlichen Daten sind. Wenn Ihr Domänenmodell wie eine Whiteboard-Zeichnung mit Kreisen und Pfeilen aussieht, ist die Zwangsumsetzung in Tabellen schmerzhaft.

Vergleich von gehosteten E-Mail-Diensten für Custom Domains: Workspace, Microsoft 365, Zoho, Proton und WorkMail

E-Mail auf Ihrer eigenen Domain klingt nach einer DNS-Aufgabe für das Wochenende. In der Praxis handelt es sich dabei um ein kleines verteiltes System mit einer zwanzigjährigen Historie.

IndexNow erklärt – Suchmaschinen bei Veröffentlichung benachrichtigen

Statische Websites und Blogs ändern sich beim Deploy. Suchmaschinen, die IndexNow unterstützen, können über diese Änderungen informiert werden, ohne auf das nächste blinde Crawling warten zu müssen.

SGLang-Schnellstart: LLMs installieren, konfigurieren und über die OpenAI-API bereitstellen

SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.

llama.swap Modell-Switcher Schnellstart für OpenAI-kompatible lokale LLMs

In Kürze jonglieren Sie mit vLLM, llama.cpp und mehr – jede Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; sonst müssen Sie ständig Ports, Profile und Einweg-Skripte verwalten. llama-swap ist der /v1-Proxy vor diesen Stacks.

Apache Kafka Schnellstart – Installation von Kafka 4.2 mit CLI und lokalen Beispielen

Apache Kafka 4.2.0 ist die aktuell unterstützte Release-Linie und stellt die beste Basis für einen modernen Quickstart dar, da Kafka 4.x standardmäßig vollständig ohne ZooKeeper auskommt und auf KRaft aufbaut.

Oh My Opencode-Review: Ehrliche Ergebnisse, Abrechnungsrisiken und wann es sich lohnt.

Oh My Opencode verspricht ein „virtuelles KI-Entwicklerteam" — Sisyphus dirigiert Spezialisten, Aufgaben werden parallel ausgeführt und das magische Schlüsselwort ultrawork aktiviert alles.

Specialisierte Agents von Oh My Opencode: Tiefenanalyse und Modellübersicht

Der größte Sprung in den Fähigkeiten von OpenCode stammt von spezialisierten Agenten: einer bewussten Trennung von Orchestrierung, Planung, Ausführung und Recherche.

Oh My Opencode QuickStart für OpenCode: Installieren, konfigurieren, ausführen

Oh My Opencode verwandelt OpenCode in einen Multi-Agent-Coding-Rahmen: Ein Orchestrator delegiert Aufgaben an spezialisierte Agenten, die parallel arbeiten.

Beste LLMs für OpenCode – lokal getestet

Ich habe getestet, wie OpenCode mit mehreren lokal gehosteten Ollama-LLMs funktioniert, und zum Vergleich habe ich einige kostenlose Modelle von OpenCode Zen hinzugefügt.

OpenHands Coding Assistant – Schnellstart: Installation, CLI-Parameter, Beispiele

OpenHands ist eine Open-Source-Plattform, die modellagnostisch für KI-gesteuerte Softwareentwicklungs-Agenten ist. Sie ermöglicht es einem Agenten, sich mehr wie ein Coding-Partner als wie ein einfaches Autovervollständigungstool zu verhalten.