NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst
GPT-OSS 120b benchmarks op drie AI-platforms
Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).
Ja, het model kan draaien met gedeeltelijke uitlating naar de CPU, en als je 64 GB systeemgeheugen hebt (zoals ik), kun je het proberen. Echter, deze opstelling zou nergens in de buurt komen van productie-klare prestaties. Voor echt intensieve werkbelastingen zou je iets nodig hebben zoals de NVIDIA DGX Spark, die specifiek is ontworpen voor hoge-capaciteit AI werkbelastingen.

Ik verwachtte dat deze LLM significant zou profiteren van het draaien op een “hoog-RAM AI apparaat” zoals de DGX Spark. Hoewel de resultaten goed zijn, zijn ze niet zo dramatisch beter als je zou verwachten gezien de prijsverschillen tussen DGX Spark en betaalbare opties.
TL;DR
Ollama met GPT-OSS 120b prestatievergelijking over drie platforms:
| Apparaat | Prompt Eval Prestaties (tokens/sec) | Generatieprestaties (tokens/sec) | Opmerkingen |
|---|---|---|---|
| NVIDIA DGX Spark | 1159 | 41 | Beste overzichtelijke prestaties, volledig GPU-geaccelereerd |
| Mac Studio | Onbekend | 34 → 6 | Een test toonde afname bij grotere contextgrootte |
| RTX 4080 | 969 | 12,45 | 78% CPU / 22% GPU splitsing vanwege VRAM beperkingen |
Model specificaties:
- Model: GPT-OSS 120b
- Parameters: 117B (Mixture-of-Experts architectuur)
- Actieve parameters per pass: 5,1B
- Quantisatie: MXFP4
- Modelgrootte: 65 GB
Dit is vergelijkbaar in architectuur met andere MoE modellen zoals Qwen3:30b, maar op een veel grotere schaal.
GPT-OSS 120b op NVIDIA DGX Spark
De LLM prestatiedata voor NVIDIA DGX Spark komt uit de officiële Ollama blogpost (vermeld onderaan in de nuttige linkssectie). De DGX Spark vertegenwoordigt NVIDIA’s invloed op de persoonlijke AI supercomputer markt, met 128 GB geheugen specifiek ontworpen voor het draaien van grote taalmodellen.

De prestaties van GPT-OSS 120b zien er indrukwekkend uit met 41 tokens/sec voor generatie. Dit maakt het duidelijk winnaar voor dit specifieke model, wat aantoont dat de extra geheugencapaciteit echt een verschil kan maken voor zeer grote modellen.
De prestaties van medium- tot grote LLMs zien er echter minder overtuigend uit. Dit is vooral merkbaar bij Qwen3:32b en Llama3.1:70b—precies de modellen waarbij je zou verwachten dat de hoge RAM capaciteit zou schitteren. De prestaties op DGX Spark voor deze modellen zijn niet inspirerend in vergelijking met de prijspremium. Als je vooral werkt met modellen in de 30-70B parameterbereik, zou je misschien overwegen alternatieven zoals een goed ingestelde werkstation) of zelfs een Quadro RTX 5880 Ada met zijn 48 GB VRAM.
GPT-OSS 120b op Mac Studio Max
Het Slinging Bits YouTube-kanaal heeft uitgebreide tests uitgevoerd met GPT-OSS 120b op Ollama met verschillende contextgroottes. De resultaten tonen een aanzienlijk prestatieprobleem: de generatiesnelheid van het model daalde dramatisch van 34 tokens/s naar slechts 6 tokens/s bij toenemende contextgrootte.
Deze prestatieafname is waarschijnlijk te wijten aan geheugendruk en de manier waarop macOS de geïntegreerde geheugenarchitectuur beheert. Hoewel Mac Studio Max indrukwekkende geïntegreerde geheugen heeft (tot 192 GB in de M2 Ultra configuratie), is de manier waarop het zeer grote modellen onder toenemende contextbelastingen behandelt, aanzienlijk anders dan bij specifieke GPU VRAM.


Voor toepassingen die consistente prestaties vereisen over verschillende contextlengtes, maakt dit de Mac Studio minder ideaal voor GPT-OSS 120b, ondanks zijn overige uitstekende mogelijkheden voor AI werkbelastingen. Je zou betere kans hebben met kleinere modellen of overwegen Ollama’s parallelle aanvraagbehandeling kenmerken om doorstroming te maximaliseren in productiescenario’s.
GPT-OSS 120b op RTX 4080
Ik dacht aanvankelijk dat het draaien van Ollama met GPT-OSS 120b op mijn consumentenpc niet erg opvallend zou zijn, maar de resultaten hebben me aangenaam verrast. Hier is wat er gebeurde toen ik het testte met deze query:
$ ollama run gpt-oss:120b --verbose Vergelijk het weer in de staatshoofdsteden van Australië
Denkend...
We moeten het weer in de staatshoofdsteden van Australië vergelijken. Geef een vergelijking, misschien inclusief
...
*Alle gegevens toegankelijk in september 2024; eventuele updates van de BOM na die datum kunnen de getallen licht aanpassen, maar de brede patronen blijven onveranderd.*
totaal duur: 4m39.942105769s
laadduur: 75.843974ms
prompt eval tellen: 75 token(s)
prompt eval duur: 77.341981ms
prompt eval snelheid: 969.72 tokens/s
eval tellen: 3483 token(s)
eval duur: 4m39.788119563s
eval snelheid: 12.45 tokens/s
Nu hier is het interessante deel—Ollama met deze LLM draait vooral op CPU! Het model past eenvoudigweg niet in de 16 GB VRAM, dus Ollama verlaadt intelligent de meeste van het model naar systeemgeheugen. Je kunt dit gedrag zien met de ollama ps opdracht:
$ ollama ps
NAAM ID GROOTTE VERWERKER CONTEXT
gpt-oss:120b a951a23b46a1 65 GB 78%/22% CPU/GPU 4096
Hoewel het draait met een 78% CPU / 22% GPU splitsing, levert de RTX 4080 toch respectabele prestaties voor een model van deze grootte. De prompt evaluatie is razendsnel met 969 tokens/s, en zelfs de generatiesnelheid van 12,45 tokens/s is bruikbaar voor veel toepassingen.
Dit is vooral indrukwekkend als je bedenkt dat:
- Het model bijna 4x groter is dan de beschikbare VRAM
- De meeste berekeningen plaatsvinden op CPU (wat voordelen heeft van mijn 64 GB systeemgeheugen)
- Het begrijpen van hoe Ollama CPU-kernen gebruikt kan helpen bij het optimaliseren van deze opstelling verder
Wie had gedacht dat een consumenten GPU überhaupt een 117B parametermodel zou kunnen verwerken, laat staan met bruikbare prestaties? Dit toont de kracht van Ollama’s intelligente geheugenbeheer en de belangrijkheid van voldoende systeemgeheugen te hebben. Als je geïnteresseerd bent in het integreren van Ollama in je toepassingen, bekijk dan deze gids over het gebruik van Ollama met Python.
Opmerking: Hoewel dit werkt voor experimenten en testen, zul je merken dat GPT-OSS enkele kanttekeningen kan hebben, vooral met gestructureerde uitvoerformaten.
Primair bronmateriaal
- [Ollama op NVIDIA DGX Spark: Prestatietests] (https://ollama.com/blog/nvidia-spark-performance) - Officiële Ollama blogpost met uitgebreide DGX Spark prestatiedata
- [GPT-OSS 120B op Mac Studio - Slinging Bits YouTube] (https://youtu.be/HsKqIB93YaY?si=fFldcdgL60nq8ixj) - Gedetailleerde video die GPT-OSS 120b test met verschillende contextgroottes
Gerelateerde lezing
Hardwarevergelijkingen & Prijzen
- [DGX Spark vs. Mac Studio: Een praktische, prijsgecontroleerde kijk op NVIDIA’s persoonlijke AI supercomputer] (https://www.glukhov.org/nl/post/2025/10/nvidia-dgx-spark-prices/) - Gedetailleerde uitleg van DGX Spark configuraties, wereldwijde prijzen en directe vergelijking met Mac Studio voor lokale AI werk
- [NVIDIA DGX Spark - Verwachtingen] (https://www.glukhov.org/nl/post/2025/07/nvidia-dgx-spark/) - Vroege dekking van DGX Spark: beschikbaarheid, prijzen en technische specificaties
- [NVidia RTX 5080 en RTX 5090 prijzen in Australië - oktober 2025] (https://www.glukhov.org/nl/post/2025/10/nvidia-rtx-5080-rtx-5090-prices-october-2025/) - Huidige marktprijzen voor de volgende generatie consumenten GPUs
- [Is de Quadro RTX 5880 Ada 48GB van nut?] (https://www.glukhov.org/nl/post/2025/06/rtx-5880-ada/) - Beoordeling van de 48GB werkstation GPU alternatief voor AI werkbelastingen
Ollama Gidsen & Prestaties
- [Ollama cheatsheet] (https://www.glukhov.org/nl/post/2024/12/ollama-cheatsheet/) - Uitgebreid commandoreferentie en tips voor Ollama
- [Hoe Ollama Parallelle Aanvragen Behandelt] (https://www.glukhov.org/nl/post/2025/05/how-ollama-handles-parallel-requests/) - Begrip van gelijktijdige aanvraagverwerking in productie
- [Hoe Ollama Intel CPU Prestatie- en Efficiënte Kernen Gebruikt] (https://www.glukhov.org/nl/post/2025/05/ollama-cpu-cores-usage/) - Diepgaande analyse van CPU-kerngebruikpatronen
- [Integratie van Ollama met Python: REST API en Python Client Voorbeelden] (https://www.glukhov.org/nl/post/2025/10/ollama-python-examples/) - Praktische Python-integratie met REST API en officiële client
Modelvergelijkingen
- [LLMs Vergelijking: Qwen3:30b vs GPT-OSS:20b] (https://www.glukhov.org/nl/post/2025/10/qwen3-30b-vs-gpt-oss-20b/) - Technische vergelijking van twee populaire MoE modellen
- [Ollama GPT-OSS Structured Output Issues] (https://www.glukhov.org/nl/post/2025/10/ollama-gpt-oss-structured-output-issues/) - Bekende beperkingen bij het gebruik van GPT-OSS voor gestructureerde data generatie