NVidia

Qwen 3.6 27B und 35B MTP gegenüber Standard auf 16-GB-GPU

Ich habe die Leistung von spekulativem Decoding (Multi-Token Prediction, MTP) bei Qwen 3.6 27B und 35B auf einer RTX 4080 mit 16 GB VRAM getestet.

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für die Selbsthosting-Nutzung aus.

RTX 5090 in Australien: Preis, Verfügbarkeit und Realität im März 2026

Australien verfügt über RTX 5090-Lagerbestände. Kaum. Und wenn Sie eine finden, zahlen Sie einen Aufpreis, der sich von der Realität zu lösen scheint.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

Das lokale Ausführen großer Sprachmodelle bietet Datenschutz, Offline-Funktionalität und null API-Kosten. Dieser Benchmark zeigt genau auf, was man von 14 beliebten LLMs auf Ollama mit einer RTX 4080 erwarten kann.

Beste Linux-Terminal-Emulatoren: Vergleich 2026

Eines der wichtigsten Werkzeuge für Linux-Benutzer ist der Terminal-Emulator.

DGX Spark AU-Preisgestaltung: 6.249–7.999 USD bei großen Einzelhändlern

Die NVIDIA DGX Spark (GB10 Grace Blackwell) ist in Australien bei großen PC-Händlern mit lokaler Lagerbestellung erhältlich. Wenn Sie die globalen Preise und die Verfügbarkeit des DGX Spark verfolgt haben, werden Sie wissen wollen, dass die Preise in Australien je nach Speicherkonfiguration und Händler zwischen 6.249 und 7.999 AUD liegen.

Preise für die Nvidia RTX 5080 und RTX 5090 in Australien – November 2025

Vergleichen wir die Preise für High-End-Verbrauchergrafikkarten, die insbesondere für LLMs und allgemein für KI geeignet sind. Konkret betrachte ich die Preise der RTX-5080 und RTX-5090.

Cross-Modal-Einbettungen: Brücken zwischen KI-Modalen

Cross-modale Einbettungen stellen einen Durchbruch in der künstlichen Intelligenz dar und ermöglichen das Verständnis und die Schlussfolgerung über verschiedene Datentypen hinweg in einem einheitlichen Darstellungsraum.

Die Demokratisierung der KI ist da. Mit Open-Source-LLMs wie Llama, Mistral und Qwen, die nun proprietäre Modelle herausfordern, können Teams eine leistungsstarke KI-Infrastruktur mit Consumer-Hardware aufbauen – und dabei die Kosten drastisch senken, während sie die vollständige Kontrolle über Datenschutz und Bereitstellung behalten.

FLUX.1-dev ist ein leistungsstarkes Text-zu-Bild-Modell, das beeindruckende Ergebnisse liefert, aber dessen Speicherbedarf von über 24GB die Nutzung auf vielen Systemen erschwert. GGUF-Quantisierung von FLUX.1-dev bietet eine Lösung, indem sie den Speicherbedarf um etwa 50% reduziert, während die Bildqualität erhalten bleibt.

Docker Model Runner: Kontextgrößen-Konfigurationsleitfaden

Einrichten von Kontextgrößen im Docker Model Runner ist komplexer, als es sein sollte.

FLUX.1-Kontext-dev: KI-Modell zur Bildvergrößerung

Black Forest Labs hat FLUX.1-Kontext-dev veröffentlicht, ein fortschrittliches Bild-zu-Bild-KI-Modell, das bestehende Bilder mithilfe von Textanweisungen erweitert.

Hinzufügen von NVIDIA-GPU-Unterstützung zum Docker-Modell-Runner

Docker Model Runner ist das offizielle Tool von Docker, um KI-Modelle lokal zu verwenden, aber GPU-Beschleunigung mit NVidia in Docker Model Runner erfordert eine spezifische Konfiguration.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Ich habe einige interessante Leistungsbenchmarks von GPT-OSS 120b gefunden, die auf Ollama unter drei verschiedenen Plattformen durchgeführt wurden: NVIDIA DGX Spark, Mac Studio und RTX 4080. Der GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass er nicht in die 16 GB VRAM des RTX 4080 (oder der neueren RTX 5080) passt.

Docker Model Runner Cheatsheet: Befehle & Beispiele

Docker Model Runner (DMR) ist Docks offizielle Lösung zur lokalen Ausführung von KI-Modellen, eingeführt im April 2025. Dieses Cheat Sheet bietet eine schnelle Referenz für alle wesentlichen Befehle, Konfigurationen und Best Practices.

NVidia

Qwen 3.6 27B und 35B MTP gegenüber Standard auf 16-GB-GPU

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

RTX 5090 in Australien: Preis, Verfügbarkeit und Realität im März 2026

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

Beste Linux-Terminal-Emulatoren: Vergleich 2026

DGX Spark AU-Preisgestaltung: 6.249–7.999 USD bei großen Einzelhändlern

Preise für die Nvidia RTX 5080 und RTX 5090 in Australien – November 2025

Cross-Modal-Einbettungen: Brücken zwischen KI-Modalen

KI-Infrastruktur auf Consumer-Hardware

FLUX.1-dev mit GGUF Q8 ausführen

Docker Model Runner: Kontextgrößen-Konfigurationsleitfaden

FLUX.1-Kontext-dev: KI-Modell zur Bildvergrößerung

Hinzufügen von NVIDIA-GPU-Unterstützung zum Docker-Modell-Runner

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Docker Model Runner Cheatsheet: Befehle & Beispiele