NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

GPT-OSS 120b Benchmarks auf drei KI-Plattformen

Inhaltsverzeichnis

Ich habe einige interessante Leistungsuntersuchungen zu GPT-OSS 120b ausgegraben, das auf Ollama auf drei verschiedenen Plattformen läuft: NVIDIA DGX Spark, Mac Studio und RTX 4080. Das GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass es nicht in die 16 GB VRAM einer RTX 4080 (oder der neueren RTX 5080) passt.

Ja, das Modell kann mit teilweiser Auslagerung auf die CPU laufen, und wenn Sie 64 GB System-RAM haben (wie ich), können Sie es ausprobieren. Diese Konfiguration würde jedoch nicht als irgendwie produktionsreif betrachtet werden. Für wirklich anspruchsvolle Workloads benötigen Sie möglicherweise etwas wie den NVIDIA DGX Spark, der speziell für hochkapazitive KI-Workloads entwickelt wurde.

7 Lamas

Ich erwartete, dass dieses LLM deutlich von der Ausführung auf einem “High-RAM-AI-Gerät” wie dem DGX Spark profitieren würde. Während die Ergebnisse gut sind, sind sie nicht so dramatisch besser, wie man angesichts des Preisunterschieds zwischen DGX Spark und günstigeren Optionen erwarten könnte.

TL;DR

Ollama mit GPT-OSS 120b Leistungsvergleich über drei Plattformen:

Gerät Prompt-Auswertungsleistung (Tokens/Sekunde) Generierungsleistung (Tokens/Sekunde) Hinweise
NVIDIA DGX Spark 1159 41 Beste Gesamtleistung, vollständig GPU-beschleunigt
Mac Studio Unbekannt 34 → 6 Ein Test zeigte eine Verschlechterung mit zunehmender Kontextgröße
RTX 4080 969 12.45 78% CPU / 22% GPU-Aufteilung aufgrund von VRAM-Grenzen

Modellspezifikationen:

  • Modell: GPT-OSS 120b
  • Parameter: 117B (Mixture-of-Experts-Architektur)
  • Aktive Parameter pro Durchlauf: 5.1B
  • Quantisierung: MXFP4
  • Modellgröße: 65GB

Dies ist ähnlich in der Architektur zu anderen MoE-Modellen wie Qwen3:30b, aber in einem viel größeren Maßstab.

GPT-OSS 120b auf NVIDIA DGX Spark

Die LLM-Leistungsdaten für NVIDIA DGX Spark stammen aus dem offiziellen Ollama-Blogbeitrag (verlinkt unten im Abschnitt Nützliche Links). Der DGX Spark stellt NVIDIAs Einstieg in den Markt für persönliche KI-Supercomputer dar und verfügt über 128 GB gemeinsamen Speicher, der speziell für das Ausführen großer Sprachmodelle entwickelt wurde.

ollama auf dgx spark leistungstabelle

Die Leistung von GPT-OSS 120b sieht beeindruckend aus mit 41 Tokens/Sekunde für die Generierung. Dies macht es zum klaren Gewinner für dieses bestimmte Modell und zeigt, dass die zusätzliche Speicherkapazität einen echten Unterschied für extrem große Modelle machen kann.

Allerdings sieht die Leistung von mittelgroßen bis großen LLMs nicht so überzeugend aus. Dies ist besonders auffällig bei Qwen3:32b und Llama3.1:70b - genau die Modelle, bei denen man erwarten würde, dass die hohe RAM-Kapazität glänzt. Die Leistung auf DGX Spark für diese Modelle ist nicht inspirierend im Vergleich zum Preisaufschlag. Wenn Sie hauptsächlich mit Modellen im Bereich von 30-70B Parametern arbeiten, sollten Sie möglicherweise Alternativen wie einen gut konfigurierten Arbeitsplatzrechner) oder sogar eine Quadro RTX 5880 Ada mit ihren 48GB VRAM in Betracht ziehen.

GPT-OSS 120b auf Mac Studio Max

Der Slinging Bits YouTube-Kanal führte umfassende Tests mit GPT-OSS 120b auf Ollama mit unterschiedlichen Kontextgrößen durch. Die Ergebnisse zeigen ein erhebliches Leistungsproblem: Die Generierungsgeschwindigkeit des Modells sank dramatisch von 34 Tokens/s auf nur noch 6 Tokens/s, wenn die Kontextgröße zunahm.

Diese Leistungsverschlechterung ist wahrscheinlich auf Speicherdruck und die Art und Weise zurückzuführen, wie macOS die Architektur des gemeinsamen Speichers verwaltet. Obwohl das Mac Studio Max beeindruckenden gemeinsamen Speicher (bis zu 192GB in der M2 Ultra-Konfiguration) hat, unterscheidet sich die Art und Weise, wie es sehr große Modelle unter zunehmender Kontextlast behandelt, deutlich von dediziertem GPU-VRAM.

ollama mit gpt-oss 120b auf mac studio

ollama-gpt-oss-120b-on-mac-studio-summary

Für Anwendungen, die eine konsistente Leistung über unterschiedliche Kontextlängen hinweg erfordern, macht das Mac Studio weniger ideal für GPT-OSS 120b, trotz seiner ansonsten hervorragenden Fähigkeiten für KI-Workloads. Sie könnten mit kleineren Modellen bessere Ergebnisse erzielen oder die Ollama-Parallelanfragen-Verarbeitung nutzen, um die Durchsatzleistung in Produktionsszenarien zu maximieren.

GPT-OSS 120b auf RTX 4080

Ich dachte zunächst, dass das Ausführen von Ollama mit GPT-OSS 120b auf meinem Consumer-PC nicht besonders aufregend sein würde, aber die Ergebnisse haben mich positiv überrascht. Hier ist, was passiert ist, als ich es mit dieser Abfrage getestet habe:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia

Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the
numbers, but the broad patterns remain unchanged.*

total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Jetzt kommt der interessante Teil - Ollama mit diesem LLM lief hauptsächlich auf der CPU! Das Modell passt einfach nicht in die 16GB VRAM, also hat Ollama intelligent den größten Teil davon in den System-RAM ausgelagert. Sie können dieses Verhalten mit dem Befehl ollama ps sehen:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Trotz des Laufens mit einer 78% CPU / 22% GPU-Aufteilung liefert die RTX 4080 eine respektable Leistung für ein Modell dieser Größe. Die Prompt-Auswertung ist blitzschnell mit 969 Tokens/s, und selbst die Generierungsgeschwindigkeit von 12.45 Tokens/s ist für viele Anwendungen brauchbar.

Dies ist besonders beeindruckend, wenn man bedenkt, dass:

  1. Das Modell fast 4-mal größer ist als der verfügbare VRAM
  2. Der größte Teil der Berechnung auf der CPU stattfindet (die von meinem 64GB System-RAM profitiert)
  3. Das Verständnis wie Ollama CPU-Kerne nutzt kann diese Einrichtung weiter optimieren

Wer hätte gedacht, dass eine Consumer-GPU ein 117B-Parameter-Modell überhaupt verarbeiten kann, geschweige denn mit brauchbarer Leistung? Dies demonstriert die Macht der intelligenten Speicherverwaltung von Ollama und die Bedeutung von ausreichend System-RAM. Wenn Sie daran interessiert sind, Ollama in Ihre Anwendungen zu integrieren, werfen Sie einen Blick auf diese Anleitung zur Verwendung von Ollama mit Python.

Hinweis: Während dies für Experimente und Tests funktioniert, werden Sie feststellen, dass GPT-OSS einige Eigenheiten hat, insbesondere mit strukturierten Ausgabeformaten.

Primäre Quellen

Weiterführende Literatur

Hardware-Vergleiche & Preise

Ollama-Anleitungen & Leistung

Modellvergleiche