AI - Page 2 - Rost Glukhov | Persönliche Website und technischer Blog

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Ich habe einige interessante Leistungsuntersuchungen zu GPT-OSS 120b ausgegraben, das auf Ollama auf drei verschiedenen Plattformen läuft: NVIDIA DGX Spark, Mac Studio und RTX 4080. Das GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass es nicht in die 16 GB VRAM einer RTX 4080 (oder der neueren RTX 5080) passt.

MCP-Server in Python aufbauen: WebSearch & Scrape-Anleitung

Das Model Context Protocol (MCP) revolutioniert die Art und Weise, wie KI-Assistenten mit externen Datenquellen und Tools interagieren. In diesem Leitfaden erkunden wir, wie man MCP-Server in Python aufbaut, mit Beispielen, die sich auf Websuche und Scraping-Funktionen konzentrieren.

Docker Model Runner Cheatsheet: Befehle & Beispiele

Docker Model Runner (DMR) ist die offizielle Lösung von Docker zum lokalen Ausführen von KI-Modellen, eingeführt im April 2025. Dieses Cheatblatt bietet eine schnelle Referenz für alle wesentlichen Befehle, Konfigurationen und Best Practices.

Docker Model Runner vs. Ollama: Was ist die bessere Wahl?

Lokales Ausführen großer Sprachmodelle (LLMs) ist aufgrund von Datenschutz, Kostenkontrolle und Offline-Fähigkeiten immer beliebter geworden. Die Landschaft veränderte sich im April 2025 erheblich, als Docker Docker Model Runner (DMR) einführte, seine offizielle Lösung für die Bereitstellung von KI-Modellen.

Der Aufstieg von LLM-ASICs: Warum Inference-Hardware wichtig ist

Die Zukunft von AI geht nicht nur um intelligentere Modelle, sondern um intelligentere Siliziumlösungen. Spezialisierte Hardware für LLM-Inferenz treibt eine Revolution ähnlich wie der Wechsel zu ASICs beim Bitcoin-Mining.

DGX Spark vs. Mac Studio: Preisgeprüfter Vergleich von NVIDIAs persönlichem KI-Supercomputer

NVIDIA DGX Spark ist real, erhältlich ab dem 15. Oktober 2025 und richtet sich an CUDA-Entwickler, die lokale LLM-Arbeit mit einem integrierten NVIDIA AI-Stack benötigen. US-MSRP 3.999 $; UK/DE/JP Einzelhandel ist aufgrund von Mehrwertsteuer und Vertrieb höher. AUD/KRW öffentliche Preise sind noch nicht weit verbreitet.

Ollama-Clients für Go: SDK-Vergleich und Beispiele für Qwen3/GPT-OSS

Dieser Leitfaden bietet einen umfassenden Überblick über verfügbare Go SDKs für Ollama und vergleicht deren Funktionsumfänge.

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b mit Fokus auf Befolgung von Anweisungen und Leistungsparametern, Spezifikationen und Geschwindigkeit:

Probleme mit strukturierten Ausgaben in Ollama GPT-OSS

Ollamas GPT-OSS-Modelle haben wiederkehrende Probleme bei der Handhabung strukturierter Ausgaben, insbesondere bei der Verwendung mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen.

Einschränkung von LLMs mit strukturierten Ausgaben: Ollama, Qwen3 & Python oder Go

Große Sprachmodelle (LLMs) sind leistungsfähig, aber in der Produktion wollen wir selten frei formulierte Absätze. Stattdessen wollen wir vorhersehbare Daten: Attribute, Fakten oder strukturierte Objekte, die Sie in eine Anwendung einspeisen können. Das ist LLM-Strukturierte Ausgabe.

Speicherzuweisungsmodellplanung in der neuen Version von Ollama - v0.12.1

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell zuweist (https://www.glukhov.org/de/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-Zuweisung”) im Vergleich zur vorherigen Version. Die neue Version ist schlechter.

Ollama Enshittification - die ersten Anzeichen

Ollama hat sich schnell zu einem der beliebtesten Tools zum lokalen Ausführen von LLMs entwickelt. Seine einfache CLI und der optimierte Modellmanagement haben es zu einer ersten Wahl für Entwickler gemacht, die mit KI-Modellen außerhalb der Cloud arbeiten möchten. Doch wie bei vielen vielversprechenden Plattformen gibt es bereits Anzeichen für Enshittification:

Chat-Oberflächen für lokale Ollama-Instanzen

Lokal gehostetes Ollama ermöglicht den Betrieb großer Sprachmodelle auf Ihrem eigenen Gerät, aber die Nutzung über die Kommandozeile ist nicht besonders benutzerfreundlich. Hier sind mehrere Open-Source-Projekte, die ChatGPT-ähnliche Oberflächen bieten, die mit einem lokalen Ollama verbunden sind.

Beliebtheit von Programmiersprachen und Software-Entwickler-Tools

Der Pragmatic Engineer Newsletter veröffentlichte vor einigen Tagen Umfragedaten zur Beliebtheit von Programmiersprachen, IDEs, AI-Tools und anderen Daten für die Mitte des Jahres 2025.

NVIDIA DGX Spark - neuer kleiner KI-Supercomputer

Nvidia steht kurz vor der Veröffentlichung von NVIDIA DGX Spark - einem kleinen AI-Supercomputer auf Blackwell-Architektur mit 128+GB einheitlichem RAM und 1 PFLOPS AI-Leistung. Eine schöne Vorrichtung, um LLMs auszuführen.

Dokumente mit Ollama und Qwen3 Reranker-Modell neu bewerten – in Go

Da das standardmäßige Ollama keinen direkten Rerank-API-Anschluss hat, müssen Sie Reranking mit Qwen3 Reranker in GO implementieren, indem Sie Embeddings für Abfrage-Dokument-Paare generieren und sie bewerten.