Confronto: Qwen3:30b vs GPT-OSS:20b
Confronto della velocità, dei parametri e delle prestazioni di questi due modelli
Ecco un confronto tra Qwen3:30b e GPT-OSS:20b
che si concentra su seguire le istruzioni e sulle prestazioni, specifiche e velocità:
Architettura e Parametri
Caratteristica | Qwen3:30b-instruct | GPT-OSS:20b |
---|---|---|
Parametri Totali | 30,5 miliardi | 21 miliardi |
Parametri Attivati | ~3,3 miliardi | ~3,6 miliardi |
Numero di Strati | 48 | 24 |
Esperti MoE per Strato | 128 (8 attivi per token) | 32 (4 attivi per token) |
Meccanismo di Attenzione | Attenzione Gruppi di Query (32Q /4KV) | Attenzione Multi-Query Gruppi (64Q /8KV) |
Finestra di Contesto | 32.768 nativi; Fino a 262.144 estesa | 128.000 token |
Tokenizer | BPE-based, 151.936 vocabolario | GPT-based, ≈ 200k vocabolario |
Seguimento delle Istruzioni
- Qwen3:30b-instruct è ottimizzato per il seguimento delle istruzioni con un forte allineamento alle preferenze umane. Eccelle nella scrittura creativa, nel ruolo di gioco, nei dialoghi multi-turno e nel seguire le istruzioni multilingue. Questa variante è sottoposta a fine-tuning specifico per fornire risposte più naturali, controllate e coinvolgenti allineate alle istruzioni dell’utente.
- GPT-OSS:20b supporta il seguimento delle istruzioni ma è in genere valutato leggermente inferiore rispetto a Qwen3:30b-instruct nell’addestramento raffinato delle istruzioni. Fornisce prestazioni paragonabili per la chiamata delle funzioni, l’output strutturato e i modi di ragionamento ma potrebbe ritardare nell’allineamento conversazionale e nei dialoghi creativi.
Prestazioni ed Efficienza
- Qwen3:30b-instruct eccelle nel ragionamento matematico, nella programmazione, in compiti logici complessi e in scenari multilingue che coprono 119 lingue e dialetti. Il suo “modo di pensare” permette un ragionamento migliorato ma comporta costi di memoria più elevati.
- GPT-OSS:20b raggiunge prestazioni paragonabili al modello o3-mini di OpenAI. Utilizza meno strati ma esperti più ampi per strato e quantizzazione nativa MXFP4 per un’inferenza efficiente su hardware consumer con requisiti di memoria più bassi (~16 GB rispetto a quelli più elevati di Qwen3).
- GPT-OSS è circa il 33% più efficiente in termini di memoria e più veloce su determinate configurazioni hardware, specialmente su GPU consumer, ma Qwen3 spesso fornisce un allineamento migliore e una profondità di ragionamento superiore, specialmente in casi d’uso complessi.
- Qwen3 ha un’opzione di lunghezza estesa del contesto disponibile più lunga (fino a 262.144 token) rispetto a GPT-OSS 128.000 token, beneficiando compiti che richiedono una comprensione del contesto molto lungo.
Consigli per l’Utilizzo
- Scegli Qwen3:30b-instruct per casi d’uso che richiedono un eccellente seguito delle istruzioni, generazione creativa, supporto multilingue e ragionamento complesso.
- Scegli GPT-OSS:20b se l’efficienza della memoria, la velocità dell’inferenza su hardware consumer e le prestazioni competitive con un numero inferiore di parametri sono la priorità.
Questo confronto evidenzia Qwen3:30b-instruct come un modello più profondo e capace con un avanzato addestramento alle istruzioni, mentre GPT-OSS:20b offre un’alternativa più compatta ed efficiente con prestazioni competitive sui benchmark standard.
I punteggi specifici che confrontano direttamente Qwen3:30b-instruct e GPT-OSS:20b per il seguito delle istruzioni e i parametri chiave di prestazione (MMLU, LMEval, HumanEval) non sono disponibili direttamente nei risultati della ricerca. Tuttavia, basandosi su rapporti pubblicati su benchmark multilingue e multitask esistenti:
MMLU (Massive Multitask Language Understanding)
Difficile trovare i dettagli, solo:
- I modelli della serie Qwen3, specialmente a scala 30B e superiore, mostrano punteggi MMLU forti, generalmente superiori all'89%, indicando una comprensione e capacità di ragionamento molto competitive su 57 domini diversi.
- GPT-OSS:20b si comporta bene sui benchmark MMLU ma di solito ottiene punteggi inferiori rispetto ai modelli Qwen più grandi a causa del numero inferiore di parametri e dell’accento minore sull’addestramento alle istruzioni.
LMEval (Language Model Evaluation Toolkit)
Non ci sono molti dettagli al momento:
- I modelli Qwen3 mostrano un miglioramento significativo in compiti di ragionamento e di codice all’interno di LMEval, con punteggi migliorati in logica, ragionamento matematico e capacità generali.
- GPT-OSS:20b fornisce prestazioni robuste di base su LMEval ma in genere si ritarda rispetto a Qwen3:30b-instruct in sottocompiti avanzati di ragionamento e seguito delle istruzioni.
HumanEval (Benchmark per la Generazione di Codice)
Non ci sono molti dati, solo:
- Qwen3:30b-instruct mostra prestazioni forti nei benchmark multilingue di generazione di codice come HumanEval-XL, supportando più di 20 linguaggi di programmazione e fornendo un’accuratezza superiore nella generazione di codice cross-linguistico.
- GPT-OSS:20b, sebbene competitivo, si comporta leggermente peggio rispetto a Qwen3:30b-instruct nei benchmark HumanEval, specialmente in contesti multilingue e di programmazione multilingue a causa di un addestramento multilingue meno esteso.
Tabella Riassuntiva (tendenze approssimative dalla letteratura):
Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Note |
---|---|---|---|
Accuratezza MMLU | ~89-91% | ~80-85% | Qwen3 più forte in conoscenza e ragionamento generali |
Punteggi LMEval | Elevati, avanzato ragionamento & codice | Moderati, ragionamento base | Qwen3 eccelle in matematica e logica |
HumanEval | Elevata prestazione nella generazione multilingue di codice | Moderata | Qwen3 migliore nella generazione di codice cross-linguistico |
Se sono necessari numeri esatti dei benchmark, benchmark multilingue su larga scala come P-MMEval e HumanEval-XL citati in recenti articoli di ricerca forniscono punteggi dettagliati per modelli che includono Qwen3 e varianti GPT-OSS comparabili, ma non sono attualmente semplificati in modo pubblico per il recupero diretto di punteggi paralleli.
Confronto di Velocità tra Qwen3:30b e GPT-OSS:20b
Sul mio hardware (16 GB VRAM) sto ottenendo Qwen3:30b e GPT-OSS:20b in esecuzione con una finestra di contesto di 4000, e stanno producendo:
- qwen3:30b-a3b => 45,68 token/s
- gpt-oss:20b => 129,52 token/s
E per confronto ho testato anche qwen3:14b e gpt-oss:120b
- qwen3:14b => 60,12 token/s
- gpt-oss:120b => 12,87 token/s
Su finestre di contesto più lunghe la velocità sarà più lenta, nel caso di qwen3:30b-a3b probabilmente molto più lenta. Questo è nuovamente sul mio PC. I dettagli tecnici sono presi dall’output dettagliato e dalla memoria allocata, i comandi da provare sono:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps che mostra l’allocazione della memoria su un contesto di 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minuti da ora
total duration: 28,151133548s
load duration: 1,980696196s
prompt eval count: 16 token(i)
prompt eval duration: 162,58803ms
prompt eval rate: 98,41 token/s
eval count: 1188 token(i)
eval duration: 26,007424856s
eval rate: 45,68 token/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minuti da ora
total duration: 1m8,317354579s
load duration: 1,984986882s
prompt eval count: 18 token(i)
prompt eval duration: 219,657034ms
prompt eval rate: 81,95 token/s
eval count: 2722 token(i)
eval duration: 1m6,11230524s
eval rate: 41,17 token/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minuti da ora
total duration: 31,505397616s
load duration: 13,744361948s
prompt eval count: 75 token(i)
prompt eval duration: 249,363069ms
prompt eval rate: 300,77 token/s
eval count: 2268 token(i)
eval duration: 17,510262884s
eval rate: 129,52 token/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minuti da ora
total duration: 36,902729562s
load duration: 38,669074ms
prompt eval count: 18 token(i)
prompt eval duration: 35,321423ms
prompt eval rate: 509,61 token/s
eval count: 2214 token(i)
eval duration: 36,828268069s
eval rate: 60,12 token/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minuti da ora
49GB RAM + 14,4GB VRAM
total duration: 3m59,967272019s
load duration: 76,758783ms
prompt eval count: 75 token(i)
prompt eval duration: 297,312854ms
prompt eval rate: 252,26 token/s
eval count: 3084 token(i)
eval duration: 3m59,592764501s
eval rate: 12,87 token/s
Varianti di Qwen3:30b
Sono disponibili tre varianti del modello qwen3:30b: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.
Differenze Principali e Consigli
- qwen3:30b-instruct è migliore per conversazioni dove le istruzioni dell’utente, la chiarezza e il dialogo naturale sono prioritari.
- qwen3:30b è la base generale, adatto se sia il seguito delle istruzioni che l’uso degli strumenti sono importanti in compiti diversi.
- qwen3:30b-thinking eccelle quando il ragionamento profondo, la matematica e la programmazione sono l’obiettivo principale. Superiore agli altri in compiti che misurano rigor logico/matematico ma non necessariamente migliore per la scrittura creativa o le conversazioni informali.
Confronto Diretto dei Benchmark
Modello | Ragionamento (AIME25) | Programmazione (LiveCodeBench) | Conoscenza Generale (MMLU Redux) | Velocità e Contesto | Caso d’Uso Ideale |
---|---|---|---|---|---|
qwen3:30b | 70,9 | 57,4 | 89,5 | 256K token; Veloce | Linguaggio generale/agenti/multilingue |
qwen3:30b-instruct | N/A (Pianificato vicino a 30b) | N/A | ~Stesso di 30b | 256K token | Seguimento delle istruzioni, allineamento |
qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K token | Matematica, codice, ragionamento, documenti lunghi |