Può l’RTX 4080 eseguire efficacemente GPT-OSS 120b?

Sì, sorprendentemente bene. L’RTX 4080 raggiunge 969 token/s per l’analisi del prompt e 12,45 token/s per la generazione, anche se il modello funziona per l'82% su CPU e solo per il 22% su GPU a causa della dimensione del modello di 65 GB che supera i 16 GB di VRAM.

Come si comporta Mac Studio con GPT-OSS 120b?

Il Mac Studio inizia con un rendimento di 34 token/s, ma le prestazioni diminuiscono significativamente fino a 6 token/s all’aumentare della dimensione del contesto, rendendolo meno adatto a compiti con contesti lunghi con questo modello.

È conveniente utilizzare NVIDIA DGX Spark per l’esecuzione di modelli linguistici di grandi dimensioni?

Per GPT-OSS 120b, DGX Spark fornisce un’ottima prestazione di 41 token/s. Tuttavia, per modelli di dimensioni medio-grandi come Qwen3:32b e Llama3.1:70b, le prestazioni non sono altrettanto impressionanti, suggerendo che è più vantaggioso per i modelli molto grandi che realmente necessitano della capacità di RAM elevata.

Cos’è GPT-OSS 120b e perché è significativo?

GPT-OSS 120b è un modello Mixture-of-Experts (MoE) con 117B parametri, di cui 5,1B attivi per passata, utilizzando la quantizzazione MXFP4. Con un peso di 65 GB, è uno dei modelli più grandi disponibili pubblicamente, rendendolo un buon riferimento per il test di hardware AI ad alta capacità.

È possibile eseguire GPT-OSS 120b su un sistema con solo 16 GB di VRAM?

Non interamente sulla GPU. Con 16 GB di VRAM, il modello farà un uso pesante del trasferimento alla CPU. Avrai bisogno di almeno 64 GB di RAM del sistema per una prestazione decente, anche se non sarà pronta per la produzione. Il modello si comporta meglio sui sistemi con una elevata VRAM o architetture a memoria unificata.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

Benchmark GPT-OSS 120b su tre piattaforme AI

Indice

Ho trovato alcuni interessanti test di prestazioni su GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio e RTX 4080. Il modello GPT-OSS 120b della libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).

Sì, il modello può essere eseguito con un offloading parziale alla CPU, e se hai 64 GB di RAM del sistema (come ho io), puoi provarlo. Tuttavia, questa configurazione non sarebbe considerata nemmeno lontanamente pronta per la produzione. Per carichi di lavoro veramente impegnativi, potresti aver bisogno di qualcosa come il NVIDIA DGX Spark, progettato specificamente per carichi di lavoro AI ad alta capacità.

7 llamas

Avevo previsto che questo LLM potesse trarre significativi vantaggi dall’esecuzione su un dispositivo “ad alta RAM per l’AI” come il DGX Spark. Sebbene i risultati siano buoni, non sono così nettamente migliori come potresti aspettarti considerando la differenza di prezzo tra DGX Spark e opzioni più economiche.

TL;DR

Ollama in esecuzione con GPT-OSS 120b confronto delle prestazioni su tre piattaforme:

Dispositivo	Prestazioni di valutazione del prompt (token/sec)	Prestazioni di generazione (token/sec)	Note
NVIDIA DGX Spark	1159	41	Prestazioni complessive migliori, completamente accelerato da GPU
Mac Studio	Sconosciuto	34 → 6	Un test ha mostrato una degradazione con l’aumento della dimensione del contesto
RTX 4080	969	12,45	Divisione 78% CPU / 22% GPU a causa dei limiti di VRAM

Specifiche del modello:

Modello: GPT-OSS 120b
Parametri: 117B (architettura Mixture-of-Experts)
Parametri attivi per passata: 5,1B
Quantizzazione: MXFP4
Dimensione del modello: 65 GB

Questo è simile ad altre architetture MoE come Qwen3:30b, ma su una scala molto maggiore.

GPT-OSS 120b su NVIDIA DGX Spark

I dati sulle prestazioni del LLM su NVIDIA DGX Spark provengono dal post ufficiale del blog Ollama (vedi sezione “Link utili” di seguito). Il DGX Spark rappresenta l’ingresso di NVIDIA nel mercato dei supercomputer personali per l’AI, con 128 GB di memoria unificata specificamente progettata per l’esecuzione di modelli linguistici di grandi dimensioni.

ollama su dgx spark performance table

Le prestazioni di GPT-OSS 120b sembrano impressionanti con 41 token/sec per la generazione. Questo lo rende chiaramente il vincitore per questo particolare modello, dimostrando che la capacità aggiuntiva di memoria può davvero fare la differenza per modelli estremamente grandi.

Tuttavia, le prestazioni dei modelli LLM di dimensioni medie e grandi non sembrano così convincenti. Questo è particolarmente evidente con Qwen3:32b e Llama3.1:70b—esattamente i modelli in cui ti aspetteresti che la capacità di RAM elevata brillasse. Le prestazioni su DGX Spark per questi modelli non sono ispiratrici quando si confrontano con il premio di prezzo. Se stai principalmente lavorando con modelli nella gamma di parametri 30-70B, potresti voler considerare alternative come un workstation ben configurato o addirittura un Quadro RTX 5880 Ada con i suoi 48 GB di VRAM.

GPT-OSS 120b su Mac Studio Max

Il canale YouTube Slinging Bits ha condotto test completi sull’esecuzione di GPT-OSS 120b su Ollama con dimensioni del contesto variabili. I risultati rivelano un problema significativo di prestazioni: la velocità di generazione del modello è caduta drasticamente da 34 token/s a soli 6 token/s all’aumentare della dimensione del contesto.

Questo degrado delle prestazioni è probabilmente dovuto alla pressione sulla memoria e al modo in cui macOS gestisce l’architettura della memoria unificata. Sebbene il Mac Studio Max abbia una memoria unificata impressionante (fino a 192 GB nella configurazione M2 Ultra), il modo in cui gestisce modelli molto grandi sotto carichi di contesto crescenti differisce significativamente da una VRAM dedicata.

ollama con gpt-oss 120b su mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

Per applicazioni che richiedono prestazioni costanti su lunghezze di contesto variabili, questo rende il Mac Studio meno ideale per GPT-OSS 120b, nonostante le sue eccellenti capacità per carichi di lavoro AI. Potresti avere maggiori successi con modelli più piccoli o considerare l’uso delle funzionalità di gestione delle richieste parallele di Ollama per massimizzare il throughput in scenari di produzione.

GPT-OSS 120b su RTX 4080

Inizialmente pensavo che l’esecuzione di Ollama con GPT-OSS 120b sul mio PC consumer non sarebbe stata particolarmente eccitante, ma i risultati mi hanno sorpreso positivamente. Ecco cosa è successo quando l’ho testato con questa query:

$ ollama run gpt-oss:120b --verbose Confronta il clima nelle capitali degli stati dell'Australia


Sto pensando...
Dobbiamo confrontare il clima nelle capitali degli stati dell'Australia. Fornisci un confronto, forse includi 
...
*Tutti i dati accessibili a settembre 2024; eventuali aggiornamenti del BOM dopo questa data potrebbero leggermente modificare i 
numeri, ma i pattern generali rimangono invariati.*


durata totale:       4m39.942105769s
durata di caricamento:        75.843974ms
contatore di valutazione del prompt:    75 token
durata di valutazione del prompt: 77.341981ms
velocità di valutazione del prompt:     969.72 token/s
contatore di valutazione:           3483 token
durata di valutazione:        4m39.788119563s
velocità di valutazione:            12.45 token/s

Ora qui c’è l’aspetto interessante—Ollama con questo LLM stava eseguendo quasi interamente sulla CPU! Il modello semplicemente non si adatta alla VRAM da 16 GB, quindi Ollama ha offloaded intelligentemente la maggior parte di esso alla RAM del sistema. Puoi vedere questo comportamento utilizzando il comando ollama ps:

$ ollama ps

NOME            ID              DIMENSIONE     PROCESSORE          CONTESTO 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Nonostante l’uso di una divisione 78% CPU / 22% GPU, l’RTX 4080 fornisce comunque prestazioni rispettabili per un modello di questa dimensione. La valutazione del prompt è estremamente veloce a 969 token/s, e anche la velocità di generazione di 12,45 token/s è utilizzabile per molte applicazioni.

Questo è particolarmente impressionante quando si considera che:

Il modello è quasi 4 volte più grande della VRAM disponibile
La maggior parte del calcolo avviene sulla CPU (che beneficia dei miei 64 GB di RAM del sistema)
Comprendere come Ollama utilizza i core CPU può aiutare a ottimizzare ulteriormente questa configurazione

Chi avrebbe mai pensato che una GPU consumer potesse gestire un modello con 117B parametri, tanto meno con prestazioni utilizzabili? Questo dimostra la potenza della gestione intelligente della memoria di Ollama e l’importanza di disporre di una sufficiente RAM del sistema. Se sei interessato all’integrazione di Ollama nelle tue applicazioni, consulta questa guida su l’uso di Ollama con Python.

Nota: Sebbene questo funzioni per sperimentazione e test, noterai che GPT-OSS può avere alcune peculiarità, in particolare con formati di output strutturati.

Fonti principali

Ollama su NVIDIA DGX Spark: Benchmark delle prestazioni - Post ufficiale del blog Ollama con dati completi sulle prestazioni del DGX Spark
GPT-OSS 120B su Mac Studio - Canale YouTube Slinging Bits - Video dettagliato che testa GPT-OSS 120b con dimensioni del contesto variabili

Lettura correlata

Confronti hardware e prezzi

DGX Spark vs. Mac Studio: Una panoramica pratica e verificata dei prezzi del supercomputer personale NVIDIA - Spiegazione dettagliata delle configurazioni DGX Spark, prezzi globali e confronto diretto con il Mac Studio per il lavoro locale sull’AI
NVIDIA DGX Spark - Anticipazioni - Copertura iniziale del DGX Spark: disponibilità, prezzi e specifiche tecniche
Prezzi in Australia del NVidia RTX 5080 e RTX 5090 - Ottobre 2025 - Prezzi attuali di mercato per le nuove GPU consumer
Il Quadro RTX 5880 Ada 48GB è buono? - Recensione della GPU da 48 GB alternativa per carichi di lavoro sull’AI

Guide Ollama e prestazioni

Ollama cheatsheet - Riferimento completo ai comandi e suggerimenti per Ollama
Come Ollama gestisce le richieste parallele - Comprendere il processo di elaborazione parallela delle richieste in produzione
Come Ollama utilizza i core CPU Intel di prestazione ed efficienti - Analisi approfondita dei modelli di utilizzo dei core CPU
Integrare Ollama con Python: Esempi API REST e client Python - Integrazione pratica di Ollama con API REST e client ufficiale

Confronti tra modelli

Confronto tra LLM: Qwen3:30b vs GPT-OSS:20b - Confronto tecnico tra due popolari modelli MoE
Problemi di output strutturato di Ollama GPT-OSS - Limitazioni note quando si utilizza GPT-OSS per la generazione di dati strutturati