NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

GPT-OSS 120b-benchmärkningar på tre AI-plattformar

Sidinnehåll

Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).

Ja, modellen kan köras med delvis avlastning till CPU, och om du har 64 GB systemminne (som jag har), kan du prova det. Dock skulle denna konfiguration inte anses vara nära produktionssäker. För verkligen krävande arbetsbelastningar kan du behöva något som NVIDIA DGX Spark, som är specifikt designad för högkapacitets AI-arbetsbelastningar. För mer om LLM-prestanda – genomflöde mot latens, VRAM-gränser och jämförelser över olika körningar och hårdvara – se LLM-prestanda: Jämförelser, fläckar och optimering.

7 llamas

Jag förväntade mig att denna LLM skulle ha stor nytta av att köras på en “hög-RAM AI-enhet” som DGX Spark. Även om resultaten är goda, är de inte så dramatiskt bättre än vad du kanske förväntar dig givet prisförskottet mellan DGX Spark och billigare alternativ.

TL;DR

Ollama som kör GPT-OSS 120b prestandajämförelse över tre plattformar:

Enhetsnamn Promptutvärderingsprestanda (tokens/s) Genereringsprestanda (tokens/s) Anteckningar
NVIDIA DGX Spark 1159 41 Bästa allmänna prestanda, helt GPU-accelererad
Mac Studio Okänd 34 → 6 En test visade försämring vid ökad kontextstorlek
RTX 4080 969 12,45 78% CPU / 22% GPU delning pga VRAM-gränser

Modellspecifikationer:

  • Modell: GPT-OSS 120b
  • Parametrar: 117B (Mixture-of-Experts arkitektur)
  • Aktiva parametrar per pass: 5,1B
  • Kvantisering: MXFP4
  • Modellstorlek: 65 GB

Detta är liknande i arkitektur till andra MoE-modeller som Qwen3:30b, men på en mycket större skala.

GPT-OSS 120b på NVIDIA DGX Spark

LLM-prestandadatat för NVIDIA DGX Spark kommer från den officiella Ollama-bloggposten (länkad nedan i avsnittet “Nyttiga länkar”). DGX Spark representerar NVIDIAs inträde på marknaden för personliga AI-superdatorer, med 128 GB enhetsminne specifikt designat för att köras med stora språkmodeller.

ollama on dgx spark performance table

GPT-OSS 120b:s prestanda ser imponerande ut med 41 tokens/s för generering. Detta gör den tydligt till vinnaren för denna modell, vilket visar att den extra minneskapaciteten kan göra en verklig skillnad för extremt stora modeller.

Dock ser prestandan för medel- till stora LLM:s inte lika imponerande ut. Detta är särskilt tydligt med Qwen3:32b och Llama3.1:70b – exakt de modeller där du skulle förvänta dig att den höga RAM-kapaciteten skulle skina. Prestandan på DGX Spark för dessa modeller är inte inspirerande jämfört med prisförskottet. Om du huvudsakligen arbetar med modeller i 30-70B parametrarområdet, kan du vilja överväga alternativ som en välkonfigurerad arbetsstation) eller till och med en Quadro RTX 5880 Ada med dess 48 GB VRAM.

GPT-OSS 120b på Mac Studio Max

Youtubekanalen Slinging Bits har utfört omfattande tester med GPT-OSS 120b som kör på Ollama med olika kontextstorlekar. Resultaten visar en betydande prestandafråga: modellens genereringshastighet sjönk dramatiskt från 34 tokens/s till bara 6 tokens/s när kontextstorleken ökade.

Den här prestandaförsämringen är sannolikt pga minnespress och hur macOS hanterar enhetsminnesarkitekturen. Även om Mac Studio Max har imponerande enhetsminne (upp till 192 GB i M2 Ultra-konfigurationen), så hanterar den mycket stora modeller vid ökande kontextbelastningar på ett särskilt sätt jämfört med dedikerad GPU VRAM.

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

För tillämpningar som kräver konsekvent prestanda över olika kontextlängder gör detta Mac Studio mindre idealt för GPT-OSS 120b, trots dess annars utmärkta förmåga för AI-belastningar. Du kan få bättre lycka med mindre modeller eller överväga att använda Ollama:s parallella förfråganshantering funktioner för att maximera genomflöde i produktionsscenarier.

GPT-OSS 120b på RTX 4080

Jag tänkte först att körande Ollama med GPT-OSS 120b på min konsumentdator inte skulle vara särskilt spännande, men resultaten förvånade mig positivt. Här är vad som hände när jag testade det med denna fråga:

$ ollama run gpt-oss:120b --verbose Jämför väder i statshuvudstäder i Australien


Tänkande...
Vi behöver jämföra väder i statshuvudstäder i Australien. Ge en jämförelse, kanske inkludera 
...
*Alla data tillgängliga september 2024; eventuella uppdateringar från BOM efter den datum kan lätt justera 
siffrorna, men de breda mönster förblir oförändrade.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Här är det intressanta – Ollama med denna LLM körde främst på CPU! Modellen passar helt enkelt inte in i den 16 GB VRAM, så Ollama avlastade intelligently mest av den till systemminnet. Du kan se detta beteende med hjälp av kommandot ollama ps:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Trots att den kördes med en 78% CPU / 22% GPU-delning, levererar RTX 4080 ändå ansenlig prestanda för en modell av denna storlek. Promptutvärderingen är extremt snabb på 969 tokens/s, och även genereringshastigheten på 12,45 tokens/s är användbar för många tillämpningar.

Detta är särskilt imponerande när man tänker på att:

  1. Modellen är nästan 4 gånger större än den tillgängliga VRAM
  2. De flesta beräkningarna sker på CPU (vilket gynnas av mina 64 GB systemminne)
  3. Förståelsen av hur Ollama använder CPU-kärnor kan hjälpa till att optimera denna konfiguration ytterligare

Vem skulle ha trott att en konsument GPU kunde hantera en modell med 117B parametrar överhuvudtaget, låt bli med användbar prestanda? Detta visar kraften i Ollamas intelligenta minhantering och vikten av att ha tillräckligt mycket systemminne. Om du är intresserad av att integrera Ollama i dina tillämpningar, se denna guide om att använda Ollama med Python.

Notera: Även om detta fungerar för experiment och testning, kommer du att märka att GPT-OSS kan ha vissa egenskaper, särskilt med strukturerade utdataformat.

För att utforska fler jämförelser, VRAM- och CPU-avlastningstransaktioner, och prestandatuning över olika plattformar, se vår LLM-prestanda: Jämförelser, fläckar och optimering hub.

Primära källor

Relaterad läsning om hårdvarajämförelser och Ollama


P.S. Ny data

Redan efter att jag hade publicerat denna post hittade jag på NVIDIAs webbplats några fler statistik om LLM-inferens på DGX Spark:

nvidia-spark-inferrence.png

Bättre, men inte mycket kontrasterande till det som sagts ovan (55 tokens vs 41), men det är ett intressant tillägg, särskilt om Qwen3 235B (på dubbel DGX Spark) producerar 11+ tokens per sekund

https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/