Confronto: Qwen3:30b vs GPT-OSS:20b

Confronto della velocità, dei parametri e delle prestazioni di questi due modelli

Indice

Ecco un confronto tra Qwen3:30b e GPT-OSS:20b
che si concentra su seguire le istruzioni e sulle prestazioni, specifiche e velocità:

7 llamas

Architettura e Parametri

Caratteristica Qwen3:30b-instruct GPT-OSS:20b
Parametri Totali 30,5 miliardi 21 miliardi
Parametri Attivati ~3,3 miliardi ~3,6 miliardi
Numero di Strati 48 24
Esperti MoE per Strato 128 (8 attivi per token) 32 (4 attivi per token)
Meccanismo di Attenzione Attenzione Gruppi di Query (32Q /4KV) Attenzione Multi-Query Gruppi (64Q /8KV)
Finestra di Contesto 32.768 nativi; Fino a 262.144 estesa 128.000 token
Tokenizer BPE-based, 151.936 vocabolario GPT-based, ≈ 200k vocabolario

Seguimento delle Istruzioni

  • Qwen3:30b-instruct è ottimizzato per il seguimento delle istruzioni con un forte allineamento alle preferenze umane. Eccelle nella scrittura creativa, nel ruolo di gioco, nei dialoghi multi-turno e nel seguire le istruzioni multilingue. Questa variante è sottoposta a fine-tuning specifico per fornire risposte più naturali, controllate e coinvolgenti allineate alle istruzioni dell’utente.
  • GPT-OSS:20b supporta il seguimento delle istruzioni ma è in genere valutato leggermente inferiore rispetto a Qwen3:30b-instruct nell’addestramento raffinato delle istruzioni. Fornisce prestazioni paragonabili per la chiamata delle funzioni, l’output strutturato e i modi di ragionamento ma potrebbe ritardare nell’allineamento conversazionale e nei dialoghi creativi.

Prestazioni ed Efficienza

  • Qwen3:30b-instruct eccelle nel ragionamento matematico, nella programmazione, in compiti logici complessi e in scenari multilingue che coprono 119 lingue e dialetti. Il suo “modo di pensare” permette un ragionamento migliorato ma comporta costi di memoria più elevati.
  • GPT-OSS:20b raggiunge prestazioni paragonabili al modello o3-mini di OpenAI. Utilizza meno strati ma esperti più ampi per strato e quantizzazione nativa MXFP4 per un’inferenza efficiente su hardware consumer con requisiti di memoria più bassi (~16 GB rispetto a quelli più elevati di Qwen3).
  • GPT-OSS è circa il 33% più efficiente in termini di memoria e più veloce su determinate configurazioni hardware, specialmente su GPU consumer, ma Qwen3 spesso fornisce un allineamento migliore e una profondità di ragionamento superiore, specialmente in casi d’uso complessi.
  • Qwen3 ha un’opzione di lunghezza estesa del contesto disponibile più lunga (fino a 262.144 token) rispetto a GPT-OSS 128.000 token, beneficiando compiti che richiedono una comprensione del contesto molto lungo.

Consigli per l’Utilizzo

  • Scegli Qwen3:30b-instruct per casi d’uso che richiedono un eccellente seguito delle istruzioni, generazione creativa, supporto multilingue e ragionamento complesso.
  • Scegli GPT-OSS:20b se l’efficienza della memoria, la velocità dell’inferenza su hardware consumer e le prestazioni competitive con un numero inferiore di parametri sono la priorità.

Questo confronto evidenzia Qwen3:30b-instruct come un modello più profondo e capace con un avanzato addestramento alle istruzioni, mentre GPT-OSS:20b offre un’alternativa più compatta ed efficiente con prestazioni competitive sui benchmark standard.

I punteggi specifici che confrontano direttamente Qwen3:30b-instruct e GPT-OSS:20b per il seguito delle istruzioni e i parametri chiave di prestazione (MMLU, LMEval, HumanEval) non sono disponibili direttamente nei risultati della ricerca. Tuttavia, basandosi su rapporti pubblicati su benchmark multilingue e multitask esistenti:

MMLU (Massive Multitask Language Understanding)

Difficile trovare i dettagli, solo:

  • I modelli della serie Qwen3, specialmente a scala 30B e superiore, mostrano punteggi MMLU forti, generalmente superiori all'89%, indicando una comprensione e capacità di ragionamento molto competitive su 57 domini diversi.
  • GPT-OSS:20b si comporta bene sui benchmark MMLU ma di solito ottiene punteggi inferiori rispetto ai modelli Qwen più grandi a causa del numero inferiore di parametri e dell’accento minore sull’addestramento alle istruzioni.

LMEval (Language Model Evaluation Toolkit)

Non ci sono molti dettagli al momento:

  • I modelli Qwen3 mostrano un miglioramento significativo in compiti di ragionamento e di codice all’interno di LMEval, con punteggi migliorati in logica, ragionamento matematico e capacità generali.
  • GPT-OSS:20b fornisce prestazioni robuste di base su LMEval ma in genere si ritarda rispetto a Qwen3:30b-instruct in sottocompiti avanzati di ragionamento e seguito delle istruzioni.

HumanEval (Benchmark per la Generazione di Codice)

Non ci sono molti dati, solo:

  • Qwen3:30b-instruct mostra prestazioni forti nei benchmark multilingue di generazione di codice come HumanEval-XL, supportando più di 20 linguaggi di programmazione e fornendo un’accuratezza superiore nella generazione di codice cross-linguistico.
  • GPT-OSS:20b, sebbene competitivo, si comporta leggermente peggio rispetto a Qwen3:30b-instruct nei benchmark HumanEval, specialmente in contesti multilingue e di programmazione multilingue a causa di un addestramento multilingue meno esteso.

Tabella Riassuntiva (tendenze approssimative dalla letteratura):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Note
Accuratezza MMLU ~89-91% ~80-85% Qwen3 più forte in conoscenza e ragionamento generali
Punteggi LMEval Elevati, avanzato ragionamento & codice Moderati, ragionamento base Qwen3 eccelle in matematica e logica
HumanEval Elevata prestazione nella generazione multilingue di codice Moderata Qwen3 migliore nella generazione di codice cross-linguistico

Se sono necessari numeri esatti dei benchmark, benchmark multilingue su larga scala come P-MMEval e HumanEval-XL citati in recenti articoli di ricerca forniscono punteggi dettagliati per modelli che includono Qwen3 e varianti GPT-OSS comparabili, ma non sono attualmente semplificati in modo pubblico per il recupero diretto di punteggi paralleli.

Confronto di Velocità tra Qwen3:30b e GPT-OSS:20b

Sul mio hardware (16 GB VRAM) sto ottenendo Qwen3:30b e GPT-OSS:20b in esecuzione con una finestra di contesto di 4000, e stanno producendo:

  • qwen3:30b-a3b => 45,68 token/s
  • gpt-oss:20b => 129,52 token/s

E per confronto ho testato anche qwen3:14b e gpt-oss:120b

  • qwen3:14b => 60,12 token/s
  • gpt-oss:120b => 12,87 token/s

Su finestre di contesto più lunghe la velocità sarà più lenta, nel caso di qwen3:30b-a3b probabilmente molto più lenta. Questo è nuovamente sul mio PC. I dettagli tecnici sono presi dall’output dettagliato e dalla memoria allocata, i comandi da provare sono:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps che mostra l’allocazione della memoria su un contesto di 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minuti da ora
total duration:       28,151133548s
load duration:        1,980696196s
prompt eval count:    16 token(i)
prompt eval duration: 162,58803ms
prompt eval rate:     98,41 token/s
eval count:           1188 token(i)
eval duration:        26,007424856s
eval rate:            45,68 token/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minuti da ora
total duration:       1m8,317354579s
load duration:        1,984986882s
prompt eval count:    18 token(i)
prompt eval duration: 219,657034ms
prompt eval rate:     81,95 token/s
eval count:           2722 token(i)
eval duration:        1m6,11230524s
eval rate:            41,17 token/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minuti da ora
total duration:       31,505397616s
load duration:        13,744361948s
prompt eval count:    75 token(i)
prompt eval duration: 249,363069ms
prompt eval rate:     300,77 token/s
eval count:           2268 token(i)
eval duration:        17,510262884s
eval rate:            129,52 token/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minuti da ora    
total duration:       36,902729562s
load duration:        38,669074ms
prompt eval count:    18 token(i)
prompt eval duration: 35,321423ms
prompt eval rate:     509,61 token/s
eval count:           2214 token(i)
eval duration:        36,828268069s
eval rate:            60,12 token/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minuti da ora
49GB RAM + 14,4GB VRAM
total duration:       3m59,967272019s
load duration:        76,758783ms
prompt eval count:    75 token(i)
prompt eval duration: 297,312854ms
prompt eval rate:     252,26 token/s
eval count:           3084 token(i)
eval duration:        3m59,592764501s
eval rate:            12,87 token/s

Varianti di Qwen3:30b

Sono disponibili tre varianti del modello qwen3:30b: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.

Differenze Principali e Consigli

  • qwen3:30b-instruct è migliore per conversazioni dove le istruzioni dell’utente, la chiarezza e il dialogo naturale sono prioritari.
  • qwen3:30b è la base generale, adatto se sia il seguito delle istruzioni che l’uso degli strumenti sono importanti in compiti diversi.
  • qwen3:30b-thinking eccelle quando il ragionamento profondo, la matematica e la programmazione sono l’obiettivo principale. Superiore agli altri in compiti che misurano rigor logico/matematico ma non necessariamente migliore per la scrittura creativa o le conversazioni informali.

Confronto Diretto dei Benchmark

Modello Ragionamento (AIME25) Programmazione (LiveCodeBench) Conoscenza Generale (MMLU Redux) Velocità e Contesto Caso d’Uso Ideale
qwen3:30b 70,9 57,4 89,5 256K token; Veloce Linguaggio generale/agenti/multilingue
qwen3:30b-instruct N/A (Pianificato vicino a 30b) N/A ~Stesso di 30b 256K token Seguimento delle istruzioni, allineamento
qwen3:30b-thinking 85,0 66,0 91,4 256K token Matematica, codice, ragionamento, documenti lunghi