Kann die RTX 4080 GPT-OSS 120b effektiv ausführen?

Ja, überraschend gut. Die RTX 4080 erreicht 969 Tokens/s für die Prompt-Auswertung und 12,45 Tokens/s für die Generierung, obwohl das Modell zu 78 % auf der CPU und nur zu 22 % auf der GPU läuft, da die Modellgröße von 65 GB den 16 GB VRAM übersteigt.

Wie schneidet der Mac Studio mit GPT-OSS 120b ab?

Der Mac Studio beginnt bei 34 Tokens/Sekunde, aber die Leistung verschlechtert sich deutlich auf 6 Tokens/Sekunde, wenn die Kontextgröße zunimmt, was ihn für Aufgaben mit langen Kontexten weniger geeignet macht.

Lohnt sich NVIDIA DGX Spark für den Betrieb großer Sprachmodelle?

Bei GPT-OSS 120b liefert DGX Spark eine hervorragende Leistung mit 41 Tokens pro Sekunde. Für mittelgroße bis große Modelle wie Qwen3:32b und Llama3.1:70b ist die Leistung jedoch nicht so beeindruckend, was darauf hindeutet, dass es sich am meisten für sehr große Modelle eignet, die tatsächlich die hohe RAM-Kapazität benötigen.

Was ist GPT-OSS 120b und warum ist es bedeutend?

GPT-OSS 120b ist ein MoE-Modell (Mixture-of-Experts) mit 117 Milliarden Parametern und 5,1 Milliarden aktiven Parametern pro Durchlauf, das MXFP4-Quantisierung verwendet. Mit 65 GB gehört es zu den größten öffentlich verfügbaren Modellen und eignet sich daher gut als Benchmark für den Test von leistungsstarker KI-Hardware.

Kann ich GPT-OSS 120b auf einem System mit nur 16 GB VRAM ausführen?

Nicht vollständig auf der GPU. Mit 16GB VRAM wird das Modell stark auf CPU-Offloading angewiesen sein. Sie benötigen mindestens 64GB Arbeitsspeicher für eine vernünftige Leistung, auch wenn es nicht produktionsbereit sein wird. Das Modell läuft am besten auf Systemen mit hohem VRAM oder einheitlichen Speicherarchitekturen.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

GPT-OSS 120b Benchmarks auf drei KI-Plattformen

Inhaltsverzeichnis

Ich habe einige interessante Leistungsuntersuchungen zu GPT-OSS 120b ausgegraben, das auf Ollama auf drei verschiedenen Plattformen läuft: NVIDIA DGX Spark, Mac Studio und RTX 4080. Das GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass es nicht in die 16 GB VRAM einer RTX 4080 (oder der neueren RTX 5080) passt.

Ja, das Modell kann mit teilweiser Auslagerung auf die CPU laufen, und wenn Sie 64 GB System-RAM haben (wie ich), können Sie es ausprobieren. Diese Konfiguration würde jedoch nicht als irgendwie produktionsreif betrachtet werden. Für wirklich anspruchsvolle Workloads benötigen Sie möglicherweise etwas wie den NVIDIA DGX Spark, der speziell für hochkapazitive KI-Workloads entwickelt wurde.

7 Lamas

Ich erwartete, dass dieses LLM deutlich von der Ausführung auf einem “High-RAM-AI-Gerät” wie dem DGX Spark profitieren würde. Während die Ergebnisse gut sind, sind sie nicht so dramatisch besser, wie man angesichts des Preisunterschieds zwischen DGX Spark und günstigeren Optionen erwarten könnte.

TL;DR

Ollama mit GPT-OSS 120b Leistungsvergleich über drei Plattformen:

Gerät	Prompt-Auswertungsleistung (Tokens/Sekunde)	Generierungsleistung (Tokens/Sekunde)	Hinweise
NVIDIA DGX Spark	1159	41	Beste Gesamtleistung, vollständig GPU-beschleunigt
Mac Studio	Unbekannt	34 → 6	Ein Test zeigte eine Verschlechterung mit zunehmender Kontextgröße
RTX 4080	969	12.45	78% CPU / 22% GPU-Aufteilung aufgrund von VRAM-Grenzen

Modellspezifikationen:

Modell: GPT-OSS 120b
Parameter: 117B (Mixture-of-Experts-Architektur)
Aktive Parameter pro Durchlauf: 5.1B
Quantisierung: MXFP4
Modellgröße: 65GB

Dies ist ähnlich in der Architektur zu anderen MoE-Modellen wie Qwen3:30b, aber in einem viel größeren Maßstab.

GPT-OSS 120b auf NVIDIA DGX Spark

Die LLM-Leistungsdaten für NVIDIA DGX Spark stammen aus dem offiziellen Ollama-Blogbeitrag (verlinkt unten im Abschnitt Nützliche Links). Der DGX Spark stellt NVIDIAs Einstieg in den Markt für persönliche KI-Supercomputer dar und verfügt über 128 GB gemeinsamen Speicher, der speziell für das Ausführen großer Sprachmodelle entwickelt wurde.

ollama auf dgx spark leistungstabelle

Die Leistung von GPT-OSS 120b sieht beeindruckend aus mit 41 Tokens/Sekunde für die Generierung. Dies macht es zum klaren Gewinner für dieses bestimmte Modell und zeigt, dass die zusätzliche Speicherkapazität einen echten Unterschied für extrem große Modelle machen kann.

Allerdings sieht die Leistung von mittelgroßen bis großen LLMs nicht so überzeugend aus. Dies ist besonders auffällig bei Qwen3:32b und Llama3.1:70b - genau die Modelle, bei denen man erwarten würde, dass die hohe RAM-Kapazität glänzt. Die Leistung auf DGX Spark für diese Modelle ist nicht inspirierend im Vergleich zum Preisaufschlag. Wenn Sie hauptsächlich mit Modellen im Bereich von 30-70B Parametern arbeiten, sollten Sie möglicherweise Alternativen wie einen gut konfigurierten Arbeitsplatzrechner) oder sogar eine Quadro RTX 5880 Ada mit ihren 48GB VRAM in Betracht ziehen.

GPT-OSS 120b auf Mac Studio Max

Der Slinging Bits YouTube-Kanal führte umfassende Tests mit GPT-OSS 120b auf Ollama mit unterschiedlichen Kontextgrößen durch. Die Ergebnisse zeigen ein erhebliches Leistungsproblem: Die Generierungsgeschwindigkeit des Modells sank dramatisch von 34 Tokens/s auf nur noch 6 Tokens/s, wenn die Kontextgröße zunahm.

Diese Leistungsverschlechterung ist wahrscheinlich auf Speicherdruck und die Art und Weise zurückzuführen, wie macOS die Architektur des gemeinsamen Speichers verwaltet. Obwohl das Mac Studio Max beeindruckenden gemeinsamen Speicher (bis zu 192GB in der M2 Ultra-Konfiguration) hat, unterscheidet sich die Art und Weise, wie es sehr große Modelle unter zunehmender Kontextlast behandelt, deutlich von dediziertem GPU-VRAM.

ollama mit gpt-oss 120b auf mac studio

ollama-gpt-oss-120b-on-mac-studio-summary

Für Anwendungen, die eine konsistente Leistung über unterschiedliche Kontextlängen hinweg erfordern, macht das Mac Studio weniger ideal für GPT-OSS 120b, trotz seiner ansonsten hervorragenden Fähigkeiten für KI-Workloads. Sie könnten mit kleineren Modellen bessere Ergebnisse erzielen oder die Ollama-Parallelanfragen-Verarbeitung nutzen, um die Durchsatzleistung in Produktionsszenarien zu maximieren.

GPT-OSS 120b auf RTX 4080

Ich dachte zunächst, dass das Ausführen von Ollama mit GPT-OSS 120b auf meinem Consumer-PC nicht besonders aufregend sein würde, aber die Ergebnisse haben mich positiv überrascht. Hier ist, was passiert ist, als ich es mit dieser Abfrage getestet habe:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia

Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the
numbers, but the broad patterns remain unchanged.*

total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Jetzt kommt der interessante Teil - Ollama mit diesem LLM lief hauptsächlich auf der CPU! Das Modell passt einfach nicht in die 16GB VRAM, also hat Ollama intelligent den größten Teil davon in den System-RAM ausgelagert. Sie können dieses Verhalten mit dem Befehl ollama ps sehen:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Trotz des Laufens mit einer 78% CPU / 22% GPU-Aufteilung liefert die RTX 4080 eine respektable Leistung für ein Modell dieser Größe. Die Prompt-Auswertung ist blitzschnell mit 969 Tokens/s, und selbst die Generierungsgeschwindigkeit von 12.45 Tokens/s ist für viele Anwendungen brauchbar.

Dies ist besonders beeindruckend, wenn man bedenkt, dass:

Das Modell fast 4-mal größer ist als der verfügbare VRAM
Der größte Teil der Berechnung auf der CPU stattfindet (die von meinem 64GB System-RAM profitiert)
Das Verständnis wie Ollama CPU-Kerne nutzt kann diese Einrichtung weiter optimieren

Wer hätte gedacht, dass eine Consumer-GPU ein 117B-Parameter-Modell überhaupt verarbeiten kann, geschweige denn mit brauchbarer Leistung? Dies demonstriert die Macht der intelligenten Speicherverwaltung von Ollama und die Bedeutung von ausreichend System-RAM. Wenn Sie daran interessiert sind, Ollama in Ihre Anwendungen zu integrieren, werfen Sie einen Blick auf diese Anleitung zur Verwendung von Ollama mit Python.

Hinweis: Während dies für Experimente und Tests funktioniert, werden Sie feststellen, dass GPT-OSS einige Eigenheiten hat, insbesondere mit strukturierten Ausgabeformaten.

Primäre Quellen

Ollama auf NVIDIA DGX Spark: Leistungsbenchmarks - Offizieller Ollama-Blogbeitrag mit umfassenden DGX Spark-Leistungsdaten
GPT-OSS 120B auf Mac Studio - Slinging Bits YouTube - Detailliertes Video-Testing von GPT-OSS 120b mit unterschiedlichen Kontextgrößen

Weiterführende Literatur

Hardware-Vergleiche & Preise

DGX Spark vs. Mac Studio: Ein praktischer, preisgeprüfter Blick auf NVIDIAs persönlichen KI-Supercomputer - Detaillierte Erklärung der DGX Spark-Konfigurationen, globale Preise und direkter Vergleich mit Mac Studio für lokale KI-Arbeit
NVIDIA DGX Spark - Erwartungen - Frühe Berichterstattung über DGX Spark: Verfügbarkeit, Preise und technische Spezifikationen
NVidia RTX 5080 und RTX 5090 Preise in Australien - Oktober 2025 - Aktuelle Marktpreise für Next-Gen-Consumer-GPUs
Ist die Quadro RTX 5880 Ada 48GB gut? - Bewertung der 48GB-Workstation-GPU-Alternative für KI-Workloads

Ollama-Anleitungen & Leistung

Ollama-Cheatsheet - Umfassender Befehlsreferenz und Tipps für Ollama
Wie Ollama Parallelanfragen verarbeitet - Verständnis der parallelen Anfragenverarbeitung in der Produktion
Wie Ollama Intel CPU Performance und Efficient Cores nutzt - Tiefgehende Analyse der CPU-Kernnutzungsmuster
Integration von Ollama mit Python: REST-API- und Python-Client-Beispiele - Praktische Python-Integration mit REST-API und offiziellen Client

Modellvergleiche

LLMs Vergleich: Qwen3:30b vs GPT-OSS:20b - Technischer Vergleich zweier beliebter MoE-Modelle
Ollama GPT-OSS Structured Output Issues - Bekannte Einschränkungen bei der Verwendung von GPT-OSS für die Erzeugung strukturierter Daten