Confronto: Qwen3:30b vs GPT-OSS:20b

Confronto di velocità, parametri e prestazioni di questi due modelli

Indice

Ecco un confronto tra Qwen3:30b e GPT-OSS:20b con un focus sul rispetto delle istruzioni e sui parametri di prestazione, specifiche e velocità.

Per ulteriori informazioni su throughput, latenza, VRAM e benchmark su diversi runtime e hardware, consultare Prestazioni LLM: Benchmark, Colli di Bottiglia & Ottimizzazione.

7 llamas

Per i valori predefiniti di campionamento orientati ai loop agentic per la linea più recente di Qwen (inclusi penalità e preset per il ragionamento rispetto alla codifica), consultare il riferimento consolidato sui parametri di inferenza agentic per Qwen e Gemma.

Architettura e Parametri

Caratteristica Qwen3:30b-instruct GPT-OSS:20b
Parametri Totali 30,5 miliardi 21 miliardi
Parametri Attivati ~3,3 miliardi ~3,6 miliardi
Numero di Layer 48 24
Esperti MoE per Layer 128 (8 attivi per token) 32 (4 attivi per token)
Meccanismo di Attention Grouped Query Attention (32Q / 4KV) Grouped Multi-Query Attention (64Q / 8KV)
Finestra di Contesto 32.768 nativa; fino a 262.144 estesa 128.000 tokens
Tokenizer Basato su BPE, vocabolario 151.936 Basato su GPT, ≈ 200k vocabolario

Rispetto delle Istruzioni

  • Qwen3:30b-instruct è ottimizzato per il rispetto delle istruzioni con un forte allineamento alle preferenze umane. Eccelle nella scrittura creativa, nel role-playing, nei dialoghi multi-turno e nel rispetto delle istruzioni multilingue. Questa variante è affinata specificamente per fornire risposte più naturali, controllate e coinvolgenti, allineate alle istruzioni dell’utente.
  • GPT-OSS:20b supporta il rispetto delle istruzioni ma è generalmente valutato leggermente dietro Qwen3:30b-instruct nella sintonizzazione sfumata delle istruzioni. Fornisce modalità di chiamata di funzioni, output strutturato e ragionamento comparabili, ma potrebbe essere indietro nell’allineamento conversazionale e nel dialogo creativo.

Prestazioni ed Efficienza

  • Qwen3:30b-instruct eccelle nel ragionamento matematico, nella codifica, nei compiti logici complessi e negli scenari multilingue che coprono 119 lingue e dialetti. La sua modalità “thinking” (ragionamento) permette un ragionamento potenziato ma a costo di un maggiore consumo di memoria.
  • GPT-OSS:20b raggiunge prestazioni paragonabili al modello o3-mini di OpenAI. Utilizza meno layer ma esperti più ampi per layer e quantizzazione nativa MXFP4 per un’inferenza efficiente su hardware consumer con requisiti di memoria inferiori (~16GB rispetto a quelli superiori per Qwen3).
  • GPT-OSS è approssimativamente il 33% più efficiente in termini di memoria e più veloce su determinate configurazioni hardware, specialmente sulle GPU consumer, ma Qwen3 spesso fornisce un migliore allineamento e profondità di ragionamento, specialmente in casi d’uso complessi.
  • Qwen3 ha un’opzione di lunghezza del contesto estesa disponibile più lunga (fino a 262.144 tokens) rispetto ai 128.000 tokens di GPT-OSS, beneficiando compiti che richiedono una comprensione del contesto molto lunga.

Raccomandazione d’Uso

  • Scegliere Qwen3:30b-instruct per casi d’uso che richiedono un superiore rispetto delle istruzioni, generazione creativa, supporto multilingue e ragionamento complesso.
  • Scegliere GPT-OSS:20b se l’efficienza della memoria, la velocità di inferenza sull’hardware consumer e prestazioni di base competitive con meno parametri sono la priorità.

Questo confronto evidenzia Qwen3:30b-instruct come un modello più profondo e capace, con un’affinamento avanzato delle istruzioni, mentre GPT-OSS:20b offre un’alternativa più compatta ed efficiente con prestazioni competitive nei benchmark standard.

I punteggi dei benchmark che confrontano specificamente Qwen3:30b-instruct e GPT-OSS:20b per il rispetto delle istruzioni e i parametri chiave di prestazione (MMLU, LMEval, HumanEval) non sono direttamente disponibili nei risultati di ricerca. Tuttavia, basandosi su report di benchmark multilingue e multitask pubblicati esistenti:

MMLU (Massive Multitask Language Understanding)

Difficile trovare i dettagli, solo:

  • I modelli della serie Qwen3, specialmente alla scala di 30B e superiori, dimostrano punteggi MMLU forti, tipicamente superiori all'89%, indicando capacità di comprensione delle conoscenze e di ragionamento molto competitive in 57 domini diversi.
  • GPT-OSS:20b si comporta bene anche nei benchmark MMLU ma di solito ottiene punteggi inferiori rispetto ai modelli Qwen più grandi a causa del minor numero di parametri e di un’enfasi minore sull’affinamento delle istruzioni.

LMEval (Language Model Evaluation Toolkit)

Non molti dettagli al momento:

  • I modelli Qwen3 mostrano un miglioramento significativo nei compiti di ragionamento e codifica all’interno di LMEval, con punteggi migliorati su logica, ragionamento matematico e capacità generali.
  • GPT-OSS:20b fornisce prestazioni di base robuste su LMEval ma generalmente rimane dietro Qwen3:30b-instruct nei sotto-compiti di ragionamento avanzato e rispetto delle istruzioni.

HumanEval (Benchmark di Generazione del Codice)

Pochi dati, solo:

  • Qwen3:30b-instruct mostra prestazioni forti nei benchmark di generazione del codice multilingue come HumanEval-XL, supportando oltre 20 linguaggi di programmazione e fornendo una superiorità nell’accuratezza della generazione del codice cross-linguale.
  • GPT-OSS:20b, sebbene competitivo, si comporta leggermente peggio rispetto a Qwen3:30b-instruct nei benchmark HumanEval, specialmente in contesti di programmazione multilingue e multi-lingua a causa di un training multilingue meno esteso.

Tabella Riassuntiva (trend approssimativi dalla letteratura):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Note
Accuratezza MMLU ~89-91% ~80-85% Qwen3 più forte in conoscenze ampie e ragionamento
Punteggi LMEval Alti, ragionamento avanzato & codice Moderati, ragionamento di base Qwen3 eccelle in matematica e logica
HumanEval Alte prestazioni di generazione codice multilingue Moderati Qwen3 migliore nella generazione codice cross-linguale

Se sono necessari numeri esatti dei benchmark, benchmark multilingue su larga scala specializzati come P-MMEval e HumanEval-XL citati nei recenti paper di ricerca forniscono punteggi dettagliati per modelli inclusi Qwen3 e varianti GPT-OSS comparabili, ma questi non sono attualmente resi disponibili in modo streamlinato per il recupero diretto dei punteggi fianco a fianco.

Confronto di Velocità tra Qwen3:30b e GPT-OSS:20b

Sul mio hardware (16GB VRAM) ottengo Qwen3:30b e GPT-OSS:20b in esecuzione con una finestra di contesto 4000, e producono:

  • qwen3:30b-a3b => 45,68 tokens/s
  • gpt-oss:20b => 129,52 tokens/s

E per confronto ho anche testato qwen3:14b e gpt-oss:120b

  • qwen3:14b => 60,12 tokens/s
  • gpt-oss:120b => 12,87 tokens/s

Su finestre di contesto più lunghe la velocità sarà inferiore, nel caso di qwen3:30b-a3b probabilmente molto inferiore. Questo, ripeto, sul mio PC. Dettagli tecnici presi dall’output verbose e memoria allocata sono di seguito, comandi da provare:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps mostrando l’allocazione della memoria su contesto 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Varianti di Qwen3:30b

Sono disponibili tre varianti del modello qwen3:30b: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.

Differenze Chiave & Raccomandazioni

  • qwen3:30b-instruct è il migliore per conversazioni in cui le istruzioni dell’utente, la chiarezza e il dialogo naturale sono prioritari.
  • qwen3:30b è il modello base generale, adatto se sia il rispetto delle istruzioni che l’uso degli strumenti sono importanti in compiti diversi.
  • qwen3:30b-thinking eccelle quando il ragionamento profondo, la matematica e la codifica sono il focus principale. Supera gli altri in compiti che misurano la rigore logico/matematico ma non è necessariamente migliore per la scrittura creativa o le conversazioni casuali.

Confronto Diretto dei Benchmark

Modello Ragionamento (AIME25) Codifica (LiveCodeBench) Conoscenza Generale (MMLU Redux) Velocità & Contesto Caso d’Uso Ideale
qwen3:30b 70,9 57,4 89,5 256K tokens; Veloce Lingua generale/agenti/multilingua
qwen3:30b-instruct N/A (Previsto vicino a 30b) N/A ~Stesso come 30b 256K tokens Rispetto delle istruzioni, allineamento
qwen3:30b-thinking 85,0 66,0 91,4 256K tokens Matematica, codice, ragionamento, documenti lunghi

Per ulteriori benchmark, scelte hardware e tuning delle prestazioni, consultare il nostro hub Prestazioni LLM: Benchmark, Colli di Bottiglia & Ottimizzazione.

Iscriviti

Ricevi nuovi articoli su sistemi, infrastruttura e ingegneria AI.