Kan RTX 4080 köra GPT-OSS 120b effektivt?

Ja, förvånansvärt bra. RTX 4080 uppnår 969 tokens/sekund för promptutvärdering och 12,45 tokens/sekund för generering, även om modellen körs 78% på CPU och endast 22% på GPU på grund av att modellstorleken på 65GB överstiger den 16GB VRAM.

Hur presterar Mac Studio med GPT-OSS 120b?

Mac Studio börjar på 34 tokens/sekund men prestandan försämras betydligt till 6 tokens/sekund när kontextstorleken ökar, vilket gör den mindre lämplig för uppgifter med lång kontext med denna modell.

Är NVIDIA DGX Spark värd att köpa för att köra stora språkmodeller?

För GPT-OSS 120b levererar DGX Spark utmärkt prestanda med 41 tokens/sekund. För medelstora till stora modeller som Qwen3:32b och Llama3.1:70b är dock prestandan inte lika imponerande, vilket tyder på att den är mest fördelaktig för mycket stora modeller som verkligen behöver den höga RAM-kapaciteten.

Vad är GPT-OSS 120b och varför är det betydelsefullt?

GPT-OSS 120b är en Mixture-of-Experts (MoE)-modell med 117 miljarder parametrar och 5,1 miljarder aktiva parametrar per pass, med MXFP4-kvantisering. Med en storlek på 65 GB är det en av de största öppet tillgängliga modellerna, vilket gör den till en bra referens för att testa högkapacitets-AI-hårdvara.

Kan jag köra GPT-OSS 120b på ett system med endast 16GB VRAM?

Icke helt på GPU. Med 16GB VRAM kommer modellen att till stor del förlita sig på CPU-offloading. Du behöver minst 64GB systemminne för acceptabel prestanda, även om det inte kommer att vara produktionsklart. Modellen presterar bäst på system med hög VRAM eller enhetligt minnesarkitektur.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Prestandajämförelse

GPT-OSS 120b-benchmarks på tre AI-plattformar

Sidinnehåll

Jag grävde fram några intressanta prestandatester av GPT-OSS 120b som körs på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65GB, vilket innebär att den inte passar i de 16GB VRAM som finns i en RTX 4080 (eller den nyare RTX 5080).

Ja, modellen kan köra med delvis avlastning till CPU, och om du har 64GB systemminne (som jag har), kan du testa den. Den här konfigurationen skulle dock inte anses vara nära produktionsklar prestanda. För verkligt krävande arbetsbelastningar kan du behöva något som NVIDIA DGX Spark, som är speciellt utformad för högkapacitets-AI-arbetsbelastningar.

7 llamas

Jag förväntade mig att den här LLM:n skulle dra stor nytta av att köra på en “högminnes-AI-enhet” som DGX Spark. Resultaten är bra, men de är inte lika dramatiskt bättre som man kanske skulle förvänta sig med tanke på pris skillnaden mellan DGX Spark och mer prisvärda alternativ.

TL;DR

Ollama körande GPT-OSS 120b prestandajämförelse över tre plattformar:

Enhet	Prompt Eval Prestanda (tokens/sec)	Genereringsprestanda (tokens/sec)	Anteckningar
NVIDIA DGX Spark	1159	41	Bäst totalprestanda, helt GPU-accelererad
Mac Studio	Okänt	34 → 6	Ett test visade försämring med ökad kontextstorlek
RTX 4080	969	12.45	78% CPU / 22% GPU-fördelning på grund av VRAM-begränsningar

Modellspecifikationer:

Modell: GPT-OSS 120b
Parametrar: 117B (Mixture-of-Experts-arkitektur)
Aktiva parametrar per pass: 5.1B
Kvantisering: MXFP4
Modellstorlek: 65GB

Detta är liknande i arkitektur till andra MoE-modeller som Qwen3:30b, men i mycket större skala.

GPT-OSS 120b på NVIDIA DGX Spark

LLM-prestandadatan för NVIDIA DGX Spark kommer från den officiella Ollama-bloggposten (länken nedan i Användbara länkar). DGX Spark representerar NVIDIA:s inträde på marknaden för personliga AI-superdatorer, med 128GB enhetligt minne som är speciellt utformat för att köra stora språkmodeller.

ollama på dgx spark prestandatabell

GPT-OSS 120bs prestanda ser imponerande ut med 41 tokens/sekund för generering. Detta gör den till den klara vinnaren för den här specifika modellen, vilket visar att den extra minneskapaciteten kan göra en verklig skillnad för extremt stora modeller.

Dock ser inte prestandan för medelstora-stora LLMs lika övertygande ut. Detta är särskilt märkbart med Qwen3:32b och Llama3.1:70b - exakt de modeller där man skulle förvänta sig att den höga minneskapaciteten skulle skina. Prestandan på DGX Spark för dessa modeller är inte inspirerande när man jämför med prispremien. Om du främst arbetar med modeller i 30-70B-parametrar, kan du överväga alternativ som en välkonfigurerad arbetsstation eller till och med en Quadro RTX 5880 Ada med dess 48GB VRAM.

GPT-OSS 120b på Mac Studio Max

Slinging Bits YouTube-kanalen genomförde omfattande tester med att köra GPT-OSS 120b på Ollama med varierande kontextstorlekar. Resultaten avslöjar ett betydande prestandaproblem: modellens genereringshastighet föll dramatiskt från 34 tokens/s till bara 6 tokens/s när kontextstorleken ökade.

Den här prestandaförsämringen beror troligen på minnespress och hur macOS hanterar den enhetliga minnesarkitekturen. Även om Mac Studio Max har imponerande enhetligt minne (upp till 192GB i M2 Ultra-konfigurationen) skiljer sig sättet det hanterar mycket stora modeller under ökande kontextbelastningar betydligt från dedikerad GPU-VRAM.

ollama med gpt-oss 120b på mac studio

ollama-gpt-oss-120b-on-mac-studio-summary

För applikationer som kräver konsekvent prestanda över varierande kontextlängder gör detta Mac Studio mindre idealisk för GPT-OSS 120b, trots dess annars utmärkta kapaciteter för AI-arbetsbelastningar. Du kan ha bättre lycka med mindre modeller eller överväga att använda Ollamas parallella begärhantering för att maximera genomflödet i produktionsscenarier.

GPT-OSS 120b på RTX 4080

Jag trodde initialt att att köra Ollama med GPT-OSS 120b på min konsument-PC inte skulle vara särskilt spännande, men resultaten överraskade mig positivt. Här är vad som hände när jag testade det med den här frågan:

$ ollama run gpt-oss:120b --verbose Jämför vädret i Australiens delstatshuvudstäder

Tänk på...
Vi måste jämföra vädret i Australiens delstatshuvudstäder. Ge en jämförelse, kanske inkludera
...
*Alla data hämtade september 2024; eventuella uppdateringar från BOM efter det datumet kan något justera siffrorna, men de breda mönstren förblir oförändrade.*


total tid:       4m39.942105769s
laddningstid:    75.843974ms
prompt eval antal:    75 token(s)
prompt eval tid: 77.341981ms
prompt eval hastighet:     969.72 tokens/s
eval antal:      3483 token(s)
eval tid:        4m39.788119563s
eval hastighet:  12.45 tokens/s

Nu kommer det intressanta - Ollama med den här LLM:n körde huvudsakligen på CPU! Modellen passar helt enkelt inte i de 16GB VRAM, så Ollama laddade ner den intelligently till systemminnet. Du kan se detta beteende med ollama ps-kommandot:

$ ollama ps

NAMN            ID              STORLEK    PROCESSOR          KONTEXT
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Trots att den körs med en 78% CPU / 22% GPU-fördelning levererar RTX 4080 fortfarande respektabel prestanda för en modell av den här storleken. Promptutvärderingen är blåslåga snabb på 969 tokens/s, och även genereringshastigheten på 12.45 tokens/s är användbar för många applikationer.

Det här är särskilt imponerande när man tänker på att:

Modellen är nästan 4 gånger större än tillgänglig VRAM
Huvuddelen av beräkningarna sker på CPU (som drabbas av mitt 64GB systemminne)
Att förstå hur Ollama använder CPU-kärnor kan hjälpa till att optimera den här konfigurationen ytterligare

Vem skulle ha trott att en konsument-GPU skulle kunna hantera en modell med 117B parametrar överhuvudtaget, för att inte tala om med användbar prestanda? Detta demonstrerar Ollamas intelligenta minneshantering och vikten av att ha tillräckligt med systemminne. Om du är intresserad av att integrera Ollama i dina applikationer, kolla in den här guiden om att använda Ollama med Python.

Anteckning: Även om detta fungerar för experiment och tester kommer du att märka att GPT-OSS kan ha vissa egendomligheter, särskilt med strukturerade utdataformat.

Primära källor

Ollama på NVIDIA DGX Spark: Prestandabenchmarks - Officiell Ollama-bloggpost med omfattande DGX Spark-prestandadata
GPT-OSS 120B på Mac Studio - Slinging Bits YouTube - Detaljerad video som testar GPT-OSS 120b med varierande kontextstorlekar

Relaterad läsning

Hårdvarujämförelser & priser

DGX Spark vs. Mac Studio: En praktisk, pris-kontrollerad titt på NVIDIA:s personliga AI-superdator - Detaljerad förklaring av DGX Spark-konfigurationer, globala priser och direkt jämförelse med Mac Studio för lokal AI-arbete
NVIDIA DGX Spark - Förväntan - Tidig täckning av DGX Spark: tillgänglighet, priser och tekniska specifikationer
NVidia RTX 5080 och RTX 5090-priser i Australien - oktober 2025 - Aktuella marknadspriser för nästa generations konsument-GPUs
Är Quadro RTX 5880 Ada 48GB någon bra? - Recension av 48GB arbetsstation-GPU-alternativ för AI-arbetsbelastningar

Ollama-guider & prestanda

Ollama cheatsheet - Omfattande kommandoreferens och tips för Ollama
Hur Ollama hanterar parallella begär - Förstå samtidig begärsbehandling i produktion
Hur Ollama använder Intel CPU-prestanda och effektiva kärnor - Djupdykning i CPU-kärnutiliseringsmönster
Integrera Ollama med Python: REST API och Python-klientexempel - Praktisk Python-integration med REST API och officiell klient

Modelljämförelser

LLMs-jämförelse: Qwen3:30b vs GPT-OSS:20b - Teknisk jämförelse av två populära MoE-modeller
Ollama GPT-OSS Structured Output Issues - Kända begränsningar när man använder GPT-OSS för strukturerad datagenerering

P.S. Ny data.

Redan efter att jag hade publicerat den här posten hittade jag på NVIDIA:s webbplats några fler statistik om LLM-inferens på DGX Spark:

Bättre, men inte särskilt motsägelsefullt till vad som sades ovan (55 tokens vs 41) men det är en intressant tillägg, särskilt om Qwen3 235B (på dubbla DGX Spark) som producerar 11+ tokens/sekund

https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/