Cheatsheet

Alle llama.cpp-Router-Modelle entladen, ohne neu zu starten

llama.cpp Router-Modus ist eine der nützlichsten Änderungen an llama-server in den letzten Jahren. Er gibt lokalen LLM-Betreibern endlich etwas, das dem Modellmanagement-Erlebnis ähnelt, das man von Ollama erwartet, während er die rohe Leistung und die niedrige Kontrollstufe beibehält, die llama.cpp überhaupt erst interessant machen.

Referenz zu den agentenbasierten LLM-Inferenzparametern für Qwen und Gemma

Diese Seite dient als praktische Referenz für die Optimierung der agentischen LLM-Inferenz (Temperatur, top_p, top_k, Penalties und deren Interaktion in mehrstufigen und tool-lastigen Workflows).

Hermes Agent CLI-Referenzkarte – Befehle, Flags und Slash-Shortcuts

Hermes Agent von Nous Research ist ein modellagnostischer, werkzeugnutzender Assistent, den Sie lokal oder auf einem VPS ausführen können.

NemoClaw: Praxisratgeber für sichere OpenClaw-Betriebstätigkeiten im Jahr 2026

Die meisten KI-Agent-Stacks behandeln Sicherheit nach wie vor als ein Problem, das erst nach der Demo behoben wird. NemoClaw geht von der entgegengesetzten Annahme aus und macht Isolation, Richtlinien und Routing von Anfang an zur Standardeinstellung.

Llama-Server Router-Modus – Dynamisches Modellwechseln ohne Neustart

Lange Zeit hatte llama.cpp eine offensichtliche Einschränkung: Man konnte nur ein Modell pro Prozess bereitstellen, und ein Wechsel bedeutete einen Neustart.

Skripte mit „Drücke eine beliebige Taste" in Bash, CMD, PowerShell und macOS pausieren

Batch-Dateien und Shell-Skripte benötigen oft eine kurze Verzögerung, damit ein per Doppelklick geöffnetes Fenster oder ein Installer-Log sichtbar bleibt. Windows CMD verfügt über einen speziellen pause-Befehl. Unix-Shell-Umgebungen nutzen read.

SGLang-Schnellstart: LLMs installieren, konfigurieren und über die OpenAI-API bereitstellen

SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

OpenHands Coding Assistant – Schnellstart: Installation, CLI-Parameter, Beispiele

OpenHands ist eine Open-Source-Plattform, die modellagnostisch für KI-gesteuerte Softwareentwicklungs-Agenten ist. Sie ermöglicht es einem Agenten, sich mehr wie ein Coding-Partner als wie ein einfaches Autovervollständigungstool zu verhalten.

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.

Schnellstart mit llama.cpp über CLI und Server

Ich komme immer wieder auf llama.cpp für die lokale Inferenz zurück – es bietet Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Es ist einfach, GGUF-Modelle interaktiv mit llama-cli auszuführen oder eine OpenAI-kompatible HTTP-API mit llama-server bereitzustellen.

OpenCode Quickstart: Installieren, Konfigurieren und Nutzen des Terminal-basierten AI-Coding-Agenten

OpenCode ist ein Open-Source-AI-Coding-Agent, den Sie im Terminal (TUI + CLI) mit optionalen Desktop- und IDE-Oberflächen ausführen können. Dies ist der OpenCode Quickstart: Installation, Verifikation, Verbindung eines Modells/Anbieters und Ausführung realer Workflows (CLI + API).

Browser Automation in Go: Selenium, chromedp, Playwright, ZenRows

Die Wahl des richtigen Browser-Automatisierungs-Stacks und Web-Scraping in Go beeinflusst Geschwindigkeit, Wartung und den Ort, an dem Ihr Code läuft.

Wie Sie Desktop-Startsymbolen auf Ubuntu 24 mit Standard-Icons konfigurieren

Desktop-Startprogramme unter Ubuntu 24 (und die meisten Linux-Desktops) werden durch .desktop-Dateien definiert: kleine, textbasierte Konfigurationsdateien, die eine Anwendung oder einen Link beschreiben.

Browser-Automatisierung in Python: Playwright, Selenium & mehr

Die Wahl des richtigen Browser-Automatisierungs-Stacks in Python beeinflusst Geschwindigkeit, Stabilität und Wartung.
Dieser Überblick vergleicht
Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge –
mit Schwerpunkt auf Python, wobei auch erwähnt wird, wo Node.js oder andere Sprachen eine Rolle spielen.

Terminal UI: BubbleTea (Go) vs. Ratatui (Rust)

Zwei starke Optionen für das Erstellen von Terminalbenutzeroberflächen heute sind BubbleTea (Go) und Ratatui (Rust). Eine bietet Ihnen einen opinionierten, Elm-stiligen Rahmen; die andere eine flexible, immediate-mode-Bibliothek.