Confronto: Qwen3:30b vs GPT-OSS:20b
Confronto di velocità, parametri e prestazioni di questi due modelli
Ecco un confronto tra Qwen3:30b e GPT-OSS:20b con un focus sul rispetto delle istruzioni e sui parametri di prestazione, specifiche e velocità.
Per ulteriori informazioni su throughput, latenza, VRAM e benchmark su diversi runtime e hardware, consultare Prestazioni LLM: Benchmark, Colli di Bottiglia & Ottimizzazione.

Per i valori predefiniti di campionamento orientati ai loop agentic per la linea più recente di Qwen (inclusi penalità e preset per il ragionamento rispetto alla codifica), consultare il riferimento consolidato sui parametri di inferenza agentic per Qwen e Gemma.
Architettura e Parametri
| Caratteristica | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Parametri Totali | 30,5 miliardi | 21 miliardi |
| Parametri Attivati | ~3,3 miliardi | ~3,6 miliardi |
| Numero di Layer | 48 | 24 |
| Esperti MoE per Layer | 128 (8 attivi per token) | 32 (4 attivi per token) |
| Meccanismo di Attention | Grouped Query Attention (32Q / 4KV) | Grouped Multi-Query Attention (64Q / 8KV) |
| Finestra di Contesto | 32.768 nativa; fino a 262.144 estesa | 128.000 tokens |
| Tokenizer | Basato su BPE, vocabolario 151.936 | Basato su GPT, ≈ 200k vocabolario |
Rispetto delle Istruzioni
- Qwen3:30b-instruct è ottimizzato per il rispetto delle istruzioni con un forte allineamento alle preferenze umane. Eccelle nella scrittura creativa, nel role-playing, nei dialoghi multi-turno e nel rispetto delle istruzioni multilingue. Questa variante è affinata specificamente per fornire risposte più naturali, controllate e coinvolgenti, allineate alle istruzioni dell’utente.
- GPT-OSS:20b supporta il rispetto delle istruzioni ma è generalmente valutato leggermente dietro Qwen3:30b-instruct nella sintonizzazione sfumata delle istruzioni. Fornisce modalità di chiamata di funzioni, output strutturato e ragionamento comparabili, ma potrebbe essere indietro nell’allineamento conversazionale e nel dialogo creativo.
Prestazioni ed Efficienza
- Qwen3:30b-instruct eccelle nel ragionamento matematico, nella codifica, nei compiti logici complessi e negli scenari multilingue che coprono 119 lingue e dialetti. La sua modalità “thinking” (ragionamento) permette un ragionamento potenziato ma a costo di un maggiore consumo di memoria.
- GPT-OSS:20b raggiunge prestazioni paragonabili al modello o3-mini di OpenAI. Utilizza meno layer ma esperti più ampi per layer e quantizzazione nativa MXFP4 per un’inferenza efficiente su hardware consumer con requisiti di memoria inferiori (~16GB rispetto a quelli superiori per Qwen3).
- GPT-OSS è approssimativamente il 33% più efficiente in termini di memoria e più veloce su determinate configurazioni hardware, specialmente sulle GPU consumer, ma Qwen3 spesso fornisce un migliore allineamento e profondità di ragionamento, specialmente in casi d’uso complessi.
- Qwen3 ha un’opzione di lunghezza del contesto estesa disponibile più lunga (fino a 262.144 tokens) rispetto ai 128.000 tokens di GPT-OSS, beneficiando compiti che richiedono una comprensione del contesto molto lunga.
Raccomandazione d’Uso
- Scegliere Qwen3:30b-instruct per casi d’uso che richiedono un superiore rispetto delle istruzioni, generazione creativa, supporto multilingue e ragionamento complesso.
- Scegliere GPT-OSS:20b se l’efficienza della memoria, la velocità di inferenza sull’hardware consumer e prestazioni di base competitive con meno parametri sono la priorità.
Questo confronto evidenzia Qwen3:30b-instruct come un modello più profondo e capace, con un’affinamento avanzato delle istruzioni, mentre GPT-OSS:20b offre un’alternativa più compatta ed efficiente con prestazioni competitive nei benchmark standard.
I punteggi dei benchmark che confrontano specificamente Qwen3:30b-instruct e GPT-OSS:20b per il rispetto delle istruzioni e i parametri chiave di prestazione (MMLU, LMEval, HumanEval) non sono direttamente disponibili nei risultati di ricerca. Tuttavia, basandosi su report di benchmark multilingue e multitask pubblicati esistenti:
MMLU (Massive Multitask Language Understanding)
Difficile trovare i dettagli, solo:
- I modelli della serie Qwen3, specialmente alla scala di 30B e superiori, dimostrano punteggi MMLU forti, tipicamente superiori all'89%, indicando capacità di comprensione delle conoscenze e di ragionamento molto competitive in 57 domini diversi.
- GPT-OSS:20b si comporta bene anche nei benchmark MMLU ma di solito ottiene punteggi inferiori rispetto ai modelli Qwen più grandi a causa del minor numero di parametri e di un’enfasi minore sull’affinamento delle istruzioni.
LMEval (Language Model Evaluation Toolkit)
Non molti dettagli al momento:
- I modelli Qwen3 mostrano un miglioramento significativo nei compiti di ragionamento e codifica all’interno di LMEval, con punteggi migliorati su logica, ragionamento matematico e capacità generali.
- GPT-OSS:20b fornisce prestazioni di base robuste su LMEval ma generalmente rimane dietro Qwen3:30b-instruct nei sotto-compiti di ragionamento avanzato e rispetto delle istruzioni.
HumanEval (Benchmark di Generazione del Codice)
Pochi dati, solo:
- Qwen3:30b-instruct mostra prestazioni forti nei benchmark di generazione del codice multilingue come HumanEval-XL, supportando oltre 20 linguaggi di programmazione e fornendo una superiorità nell’accuratezza della generazione del codice cross-linguale.
- GPT-OSS:20b, sebbene competitivo, si comporta leggermente peggio rispetto a Qwen3:30b-instruct nei benchmark HumanEval, specialmente in contesti di programmazione multilingue e multi-lingua a causa di un training multilingue meno esteso.
Tabella Riassuntiva (trend approssimativi dalla letteratura):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Note |
|---|---|---|---|
| Accuratezza MMLU | ~89-91% | ~80-85% | Qwen3 più forte in conoscenze ampie e ragionamento |
| Punteggi LMEval | Alti, ragionamento avanzato & codice | Moderati, ragionamento di base | Qwen3 eccelle in matematica e logica |
| HumanEval | Alte prestazioni di generazione codice multilingue | Moderati | Qwen3 migliore nella generazione codice cross-linguale |
Se sono necessari numeri esatti dei benchmark, benchmark multilingue su larga scala specializzati come P-MMEval e HumanEval-XL citati nei recenti paper di ricerca forniscono punteggi dettagliati per modelli inclusi Qwen3 e varianti GPT-OSS comparabili, ma questi non sono attualmente resi disponibili in modo streamlinato per il recupero diretto dei punteggi fianco a fianco.
Confronto di Velocità tra Qwen3:30b e GPT-OSS:20b
Sul mio hardware (16GB VRAM) ottengo Qwen3:30b e GPT-OSS:20b in esecuzione con una finestra di contesto 4000, e producono:
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
E per confronto ho anche testato qwen3:14b e gpt-oss:120b
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Su finestre di contesto più lunghe la velocità sarà inferiore, nel caso di qwen3:30b-a3b probabilmente molto inferiore. Questo, ripeto, sul mio PC. Dettagli tecnici presi dall’output verbose e memoria allocata sono di seguito, comandi da provare:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps mostrando l’allocazione della memoria su contesto 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Varianti di Qwen3:30b
Sono disponibili tre varianti del modello qwen3:30b: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.
Differenze Chiave & Raccomandazioni
- qwen3:30b-instruct è il migliore per conversazioni in cui le istruzioni dell’utente, la chiarezza e il dialogo naturale sono prioritari.
- qwen3:30b è il modello base generale, adatto se sia il rispetto delle istruzioni che l’uso degli strumenti sono importanti in compiti diversi.
- qwen3:30b-thinking eccelle quando il ragionamento profondo, la matematica e la codifica sono il focus principale. Supera gli altri in compiti che misurano la rigore logico/matematico ma non è necessariamente migliore per la scrittura creativa o le conversazioni casuali.
Confronto Diretto dei Benchmark
| Modello | Ragionamento (AIME25) | Codifica (LiveCodeBench) | Conoscenza Generale (MMLU Redux) | Velocità & Contesto | Caso d’Uso Ideale |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K tokens; Veloce | Lingua generale/agenti/multilingua |
| qwen3:30b-instruct | N/A (Previsto vicino a 30b) | N/A | ~Stesso come 30b | 256K tokens | Rispetto delle istruzioni, allineamento |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K tokens | Matematica, codice, ragionamento, documenti lunghi |
Per ulteriori benchmark, scelte hardware e tuning delle prestazioni, consultare il nostro hub Prestazioni LLM: Benchmark, Colli di Bottiglia & Ottimizzazione.
Link Utili
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Installare e configurare Ollama
- Ollama cheatsheet - comandi più utili
- Vincolare LLM con Output Strutturato: Ollama, Qwen3 & Python o Go
- Integrazione di Ollama con Python: Esempi REST API e Client Python