NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Prestandajämförelse

GPT-OSS 120b-benchmarks på tre AI-plattformar

Sidinnehåll

Jag grävde fram några intressanta prestandatester av GPT-OSS 120b som körs på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65GB, vilket innebär att den inte passar i de 16GB VRAM som finns i en RTX 4080 (eller den nyare RTX 5080).

Ja, modellen kan köra med delvis avlastning till CPU, och om du har 64GB systemminne (som jag har), kan du testa den. Den här konfigurationen skulle dock inte anses vara nära produktionsklar prestanda. För verkligt krävande arbetsbelastningar kan du behöva något som NVIDIA DGX Spark, som är speciellt utformad för högkapacitets-AI-arbetsbelastningar.

7 llamas

Jag förväntade mig att den här LLM:n skulle dra stor nytta av att köra på en “högminnes-AI-enhet” som DGX Spark. Resultaten är bra, men de är inte lika dramatiskt bättre som man kanske skulle förvänta sig med tanke på pris skillnaden mellan DGX Spark och mer prisvärda alternativ.

TL;DR

Ollama körande GPT-OSS 120b prestandajämförelse över tre plattformar:

Enhet Prompt Eval Prestanda (tokens/sec) Genereringsprestanda (tokens/sec) Anteckningar
NVIDIA DGX Spark 1159 41 Bäst totalprestanda, helt GPU-accelererad
Mac Studio Okänt 34 → 6 Ett test visade försämring med ökad kontextstorlek
RTX 4080 969 12.45 78% CPU / 22% GPU-fördelning på grund av VRAM-begränsningar

Modellspecifikationer:

  • Modell: GPT-OSS 120b
  • Parametrar: 117B (Mixture-of-Experts-arkitektur)
  • Aktiva parametrar per pass: 5.1B
  • Kvantisering: MXFP4
  • Modellstorlek: 65GB

Detta är liknande i arkitektur till andra MoE-modeller som Qwen3:30b, men i mycket större skala.

GPT-OSS 120b på NVIDIA DGX Spark

LLM-prestandadatan för NVIDIA DGX Spark kommer från den officiella Ollama-bloggposten (länken nedan i Användbara länkar). DGX Spark representerar NVIDIA:s inträde på marknaden för personliga AI-superdatorer, med 128GB enhetligt minne som är speciellt utformat för att köra stora språkmodeller.

ollama på dgx spark prestandatabell

GPT-OSS 120bs prestanda ser imponerande ut med 41 tokens/sekund för generering. Detta gör den till den klara vinnaren för den här specifika modellen, vilket visar att den extra minneskapaciteten kan göra en verklig skillnad för extremt stora modeller.

Dock ser inte prestandan för medelstora-stora LLMs lika övertygande ut. Detta är särskilt märkbart med Qwen3:32b och Llama3.1:70b - exakt de modeller där man skulle förvänta sig att den höga minneskapaciteten skulle skina. Prestandan på DGX Spark för dessa modeller är inte inspirerande när man jämför med prispremien. Om du främst arbetar med modeller i 30-70B-parametrar, kan du överväga alternativ som en välkonfigurerad arbetsstation eller till och med en Quadro RTX 5880 Ada med dess 48GB VRAM.

GPT-OSS 120b på Mac Studio Max

Slinging Bits YouTube-kanalen genomförde omfattande tester med att köra GPT-OSS 120b på Ollama med varierande kontextstorlekar. Resultaten avslöjar ett betydande prestandaproblem: modellens genereringshastighet föll dramatiskt från 34 tokens/s till bara 6 tokens/s när kontextstorleken ökade.

Den här prestandaförsämringen beror troligen på minnespress och hur macOS hanterar den enhetliga minnesarkitekturen. Även om Mac Studio Max har imponerande enhetligt minne (upp till 192GB i M2 Ultra-konfigurationen) skiljer sig sättet det hanterar mycket stora modeller under ökande kontextbelastningar betydligt från dedikerad GPU-VRAM.

ollama med gpt-oss 120b på mac studio

ollama-gpt-oss-120b-on-mac-studio-summary

För applikationer som kräver konsekvent prestanda över varierande kontextlängder gör detta Mac Studio mindre idealisk för GPT-OSS 120b, trots dess annars utmärkta kapaciteter för AI-arbetsbelastningar. Du kan ha bättre lycka med mindre modeller eller överväga att använda Ollamas parallella begärhantering för att maximera genomflödet i produktionsscenarier.

GPT-OSS 120b på RTX 4080

Jag trodde initialt att att köra Ollama med GPT-OSS 120b på min konsument-PC inte skulle vara särskilt spännande, men resultaten överraskade mig positivt. Här är vad som hände när jag testade det med den här frågan:

$ ollama run gpt-oss:120b --verbose Jämför vädret i Australiens delstatshuvudstäder

Tänk på...
Vi måste jämföra vädret i Australiens delstatshuvudstäder. Ge en jämförelse, kanske inkludera
...
*Alla data hämtade september 2024; eventuella uppdateringar från BOM efter det datumet kan något justera siffrorna, men de breda mönstren förblir oförändrade.*


total tid:       4m39.942105769s
laddningstid:    75.843974ms
prompt eval antal:    75 token(s)
prompt eval tid: 77.341981ms
prompt eval hastighet:     969.72 tokens/s
eval antal:      3483 token(s)
eval tid:        4m39.788119563s
eval hastighet:  12.45 tokens/s

Nu kommer det intressanta - Ollama med den här LLM:n körde huvudsakligen på CPU! Modellen passar helt enkelt inte i de 16GB VRAM, så Ollama laddade ner den intelligently till systemminnet. Du kan se detta beteende med ollama ps-kommandot:

$ ollama ps

NAMN            ID              STORLEK    PROCESSOR          KONTEXT
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Trots att den körs med en 78% CPU / 22% GPU-fördelning levererar RTX 4080 fortfarande respektabel prestanda för en modell av den här storleken. Promptutvärderingen är blåslåga snabb på 969 tokens/s, och även genereringshastigheten på 12.45 tokens/s är användbar för många applikationer.

Det här är särskilt imponerande när man tänker på att:

  1. Modellen är nästan 4 gånger större än tillgänglig VRAM
  2. Huvuddelen av beräkningarna sker på CPU (som drabbas av mitt 64GB systemminne)
  3. Att förstå hur Ollama använder CPU-kärnor kan hjälpa till att optimera den här konfigurationen ytterligare

Vem skulle ha trott att en konsument-GPU skulle kunna hantera en modell med 117B parametrar överhuvudtaget, för att inte tala om med användbar prestanda? Detta demonstrerar Ollamas intelligenta minneshantering och vikten av att ha tillräckligt med systemminne. Om du är intresserad av att integrera Ollama i dina applikationer, kolla in den här guiden om att använda Ollama med Python.

Anteckning: Även om detta fungerar för experiment och tester kommer du att märka att GPT-OSS kan ha vissa egendomligheter, särskilt med strukturerade utdataformat.

Primära källor

Relaterad läsning

Hårdvarujämförelser & priser

Ollama-guider & prestanda

Modelljämförelser


P.S. Ny data.

Redan efter att jag hade publicerat den här posten hittade jag på NVIDIA:s webbplats några fler statistik om LLM-inferens på DGX Spark:

nvidia-spark-inferrence.png

Bättre, men inte särskilt motsägelsefullt till vad som sades ovan (55 tokens vs 41) men det är en intressant tillägg, särskilt om Qwen3 235B (på dubbla DGX Spark) som producerar 11+ tokens/sekund

https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/