NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama
Benchmark GPT-OSS 120b su tre piattaforme AI
Ho trovato alcuni interessanti test di prestazioni su GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio e RTX 4080. Il modello GPT-OSS 120b della libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).
Sì, il modello può essere eseguito con un offloading parziale alla CPU, e se hai 64 GB di RAM del sistema (come ho io), puoi provarlo. Tuttavia, questa configurazione non sarebbe considerata nemmeno lontanamente pronta per la produzione. Per carichi di lavoro veramente impegnativi, potresti aver bisogno di qualcosa come il NVIDIA DGX Spark, progettato specificamente per carichi di lavoro AI ad alta capacità.

Avevo previsto che questo LLM potesse trarre significativi vantaggi dall’esecuzione su un dispositivo “ad alta RAM per l’AI” come il DGX Spark. Sebbene i risultati siano buoni, non sono così nettamente migliori come potresti aspettarti considerando la differenza di prezzo tra DGX Spark e opzioni più economiche.
TL;DR
Ollama in esecuzione con GPT-OSS 120b confronto delle prestazioni su tre piattaforme:
| Dispositivo | Prestazioni di valutazione del prompt (token/sec) | Prestazioni di generazione (token/sec) | Note |
|---|---|---|---|
| NVIDIA DGX Spark | 1159 | 41 | Prestazioni complessive migliori, completamente accelerato da GPU |
| Mac Studio | Sconosciuto | 34 → 6 | Un test ha mostrato una degradazione con l’aumento della dimensione del contesto |
| RTX 4080 | 969 | 12,45 | Divisione 78% CPU / 22% GPU a causa dei limiti di VRAM |
Specifiche del modello:
- Modello: GPT-OSS 120b
- Parametri: 117B (architettura Mixture-of-Experts)
- Parametri attivi per passata: 5,1B
- Quantizzazione: MXFP4
- Dimensione del modello: 65 GB
Questo è simile ad altre architetture MoE come Qwen3:30b, ma su una scala molto maggiore.
GPT-OSS 120b su NVIDIA DGX Spark
I dati sulle prestazioni del LLM su NVIDIA DGX Spark provengono dal post ufficiale del blog Ollama (vedi sezione “Link utili” di seguito). Il DGX Spark rappresenta l’ingresso di NVIDIA nel mercato dei supercomputer personali per l’AI, con 128 GB di memoria unificata specificamente progettata per l’esecuzione di modelli linguistici di grandi dimensioni.

Le prestazioni di GPT-OSS 120b sembrano impressionanti con 41 token/sec per la generazione. Questo lo rende chiaramente il vincitore per questo particolare modello, dimostrando che la capacità aggiuntiva di memoria può davvero fare la differenza per modelli estremamente grandi.
Tuttavia, le prestazioni dei modelli LLM di dimensioni medie e grandi non sembrano così convincenti. Questo è particolarmente evidente con Qwen3:32b e Llama3.1:70b—esattamente i modelli in cui ti aspetteresti che la capacità di RAM elevata brillasse. Le prestazioni su DGX Spark per questi modelli non sono ispiratrici quando si confrontano con il premio di prezzo. Se stai principalmente lavorando con modelli nella gamma di parametri 30-70B, potresti voler considerare alternative come un workstation ben configurato o addirittura un Quadro RTX 5880 Ada con i suoi 48 GB di VRAM.
GPT-OSS 120b su Mac Studio Max
Il canale YouTube Slinging Bits ha condotto test completi sull’esecuzione di GPT-OSS 120b su Ollama con dimensioni del contesto variabili. I risultati rivelano un problema significativo di prestazioni: la velocità di generazione del modello è caduta drasticamente da 34 token/s a soli 6 token/s all’aumentare della dimensione del contesto.
Questo degrado delle prestazioni è probabilmente dovuto alla pressione sulla memoria e al modo in cui macOS gestisce l’architettura della memoria unificata. Sebbene il Mac Studio Max abbia una memoria unificata impressionante (fino a 192 GB nella configurazione M2 Ultra), il modo in cui gestisce modelli molto grandi sotto carichi di contesto crescenti differisce significativamente da una VRAM dedicata.


Per applicazioni che richiedono prestazioni costanti su lunghezze di contesto variabili, questo rende il Mac Studio meno ideale per GPT-OSS 120b, nonostante le sue eccellenti capacità per carichi di lavoro AI. Potresti avere maggiori successi con modelli più piccoli o considerare l’uso delle funzionalità di gestione delle richieste parallele di Ollama per massimizzare il throughput in scenari di produzione.
GPT-OSS 120b su RTX 4080
Inizialmente pensavo che l’esecuzione di Ollama con GPT-OSS 120b sul mio PC consumer non sarebbe stata particolarmente eccitante, ma i risultati mi hanno sorpreso positivamente. Ecco cosa è successo quando l’ho testato con questa query:
$ ollama run gpt-oss:120b --verbose Confronta il clima nelle capitali degli stati dell'Australia
Sto pensando...
Dobbiamo confrontare il clima nelle capitali degli stati dell'Australia. Fornisci un confronto, forse includi
...
*Tutti i dati accessibili a settembre 2024; eventuali aggiornamenti del BOM dopo questa data potrebbero leggermente modificare i
numeri, ma i pattern generali rimangono invariati.*
durata totale: 4m39.942105769s
durata di caricamento: 75.843974ms
contatore di valutazione del prompt: 75 token
durata di valutazione del prompt: 77.341981ms
velocità di valutazione del prompt: 969.72 token/s
contatore di valutazione: 3483 token
durata di valutazione: 4m39.788119563s
velocità di valutazione: 12.45 token/s
Ora qui c’è l’aspetto interessante—Ollama con questo LLM stava eseguendo quasi interamente sulla CPU! Il modello semplicemente non si adatta alla VRAM da 16 GB, quindi Ollama ha offloaded intelligentemente la maggior parte di esso alla RAM del sistema. Puoi vedere questo comportamento utilizzando il comando ollama ps:
$ ollama ps
NOME ID DIMENSIONE PROCESSORE CONTESTO
gpt-oss:120b a951a23b46a1 65 GB 78%/22% CPU/GPU 4096
Nonostante l’uso di una divisione 78% CPU / 22% GPU, l’RTX 4080 fornisce comunque prestazioni rispettabili per un modello di questa dimensione. La valutazione del prompt è estremamente veloce a 969 token/s, e anche la velocità di generazione di 12,45 token/s è utilizzabile per molte applicazioni.
Questo è particolarmente impressionante quando si considera che:
- Il modello è quasi 4 volte più grande della VRAM disponibile
- La maggior parte del calcolo avviene sulla CPU (che beneficia dei miei 64 GB di RAM del sistema)
- Comprendere come Ollama utilizza i core CPU può aiutare a ottimizzare ulteriormente questa configurazione
Chi avrebbe mai pensato che una GPU consumer potesse gestire un modello con 117B parametri, tanto meno con prestazioni utilizzabili? Questo dimostra la potenza della gestione intelligente della memoria di Ollama e l’importanza di disporre di una sufficiente RAM del sistema. Se sei interessato all’integrazione di Ollama nelle tue applicazioni, consulta questa guida su l’uso di Ollama con Python.
Nota: Sebbene questo funzioni per sperimentazione e test, noterai che GPT-OSS può avere alcune peculiarità, in particolare con formati di output strutturati.
Fonti principali
- Ollama su NVIDIA DGX Spark: Benchmark delle prestazioni - Post ufficiale del blog Ollama con dati completi sulle prestazioni del DGX Spark
- GPT-OSS 120B su Mac Studio - Canale YouTube Slinging Bits - Video dettagliato che testa GPT-OSS 120b con dimensioni del contesto variabili
Lettura correlata
Confronti hardware e prezzi
- DGX Spark vs. Mac Studio: Una panoramica pratica e verificata dei prezzi del supercomputer personale NVIDIA - Spiegazione dettagliata delle configurazioni DGX Spark, prezzi globali e confronto diretto con il Mac Studio per il lavoro locale sull’AI
- NVIDIA DGX Spark - Anticipazioni - Copertura iniziale del DGX Spark: disponibilità, prezzi e specifiche tecniche
- Prezzi in Australia del NVidia RTX 5080 e RTX 5090 - Ottobre 2025 - Prezzi attuali di mercato per le nuove GPU consumer
- Il Quadro RTX 5880 Ada 48GB è buono? - Recensione della GPU da 48 GB alternativa per carichi di lavoro sull’AI
Guide Ollama e prestazioni
- Ollama cheatsheet - Riferimento completo ai comandi e suggerimenti per Ollama
- Come Ollama gestisce le richieste parallele - Comprendere il processo di elaborazione parallela delle richieste in produzione
- Come Ollama utilizza i core CPU Intel di prestazione ed efficienti - Analisi approfondita dei modelli di utilizzo dei core CPU
- Integrare Ollama con Python: Esempi API REST e client Python - Integrazione pratica di Ollama con API REST e client ufficiale
Confronti tra modelli
- Confronto tra LLM: Qwen3:30b vs GPT-OSS:20b - Confronto tecnico tra due popolari modelli MoE
- Problemi di output strutturato di Ollama GPT-OSS - Limitazioni note quando si utilizza GPT-OSS per la generazione di dati strutturati