Hur jämförs Qwen3 30b med GPT-OSS 20b?

Qwen3 30b erbjuder vanligtvis starkare följande av instruktioner, resonemang och multilingualprestanda. GPT-OSS 20b är snabbare och minneseffektivare på konsument-GPUs (t.ex. cirka 33 procent lägre VRAM och fler token per sekund i många konfigurationer).

Vilket modell är snabbare, Qwen3 30b eller GPT-OSS 20b?

GPT-OSS 20b är vanligtvis snabbare. På 16GB VRAM med en 4K-kontext kan GPT-OSS 20b nå cirka 130 token per sekund, jämfört med ungefär 46 token per sekund för Qwen3 30b a3b, även om exakta siffrorna beror på hårdvara och kontextstorlek.

När bör jag välja Qwen3 30b framför GPT-OSS 20b?

Välj Qwen3 30b när du behöver bättre följande av instruktioner, kreativ eller flerspråkig utdata, komplex resonemang eller längre kontext (t.ex. upp till 262 000 token). Välj GPT-OSS 20b när hastighet och lägre VRAM-användning på konsumenthårdvara är viktigare.

Vad VRAM behöver Qwen3 30b och GPT-OSS 20b?

Qwen3 30b a3b kan köras på 16GB VRAM med CPU-avlastning (t.ex. modell på ca 20GB). GPT-OSS 20b passar bättre på 16GB GPU (t.ex. ca 14GB tilldelat) och kan köras helt på GPU.

Var kan jag hitta mer information om LLM-prestanda och benchmarkar?

Vårt LLM-prestandahub täcker genomströmningshastighet mot latens, VRAM-gränser, parallella begäranden och jämförelser av prestanda över olika körningar och hårdvara.

Jämförelse: Qwen3:30b vs GPT-OSS:20b

Jämföra hastighet, parametrar och prestanda hos dessa två modeller

Sidinnehåll

Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b fokuserande på instruktionssäljning och prestandaparametrar, specifikationer och hastighet.

För mer information om genomströmning, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, fläskpunkter & optimering.

7 llamas

Arkitektur och parametrar

Funktion	Qwen3:30b-instruct	GPT-OSS:20b
Totala parametrar	30,5 miljarder	21 miljarder
Aktiverade parametrar	~3,3 miljarder	~3,6 miljarder
Antal lager	48	24
MoE-ekspert per lager	128 (8 aktiva per token)	32 (4 aktiva per token)
Uppmärksamhetsmekanism	Grupperad frågefokus (32Q /4KV)	Grupperad flerfrågefokus (64Q /8KV)
Kontextfönster	32 768 inbyggda; Upp till 262 144 utökade	128 000 token
Tokenisator	BPE-baserad, 151 936 ordlista	GPT-baserad, ≈ 200k ordlista

Instruktionssäljning

Qwen3:30b-instruct är optimerad för instruktionssäljning med stark humanpreferensjustering. Den utmärker sig i kreativ skrivning, rollspel, flertrådiga dialoger och flerspråkig instruktionssäljning. Den här varianten är finjusterad specifikt för att ge mer naturliga, kontrollerade och engagerande svar som är justerade efter användarinstruktioner.
GPT-OSS:20b stöder instruktionssäljning men bedöms generellt vara något sämre än Qwen3:30b-instruct i finjustering av instruktioner. Den ger jämförliga funktionsskall, strukturerade utdata och resonemod, men kan försenas i konversationens justering och kreativ dialog.

Prestanda och effektivitet

Qwen3:30b-instruct utmärker sig i matematiskt resonemang, kodning, komplexa logiska uppgifter och flerspråkiga scenarier som täcker 119 språk och dialekter. Dess “tänkande"läge möjliggör förbättrad resonemang men med högre minneskostnader.
GPT-OSS:20b uppnår prestanda jämförlig med OpenAI:s o3-mini-modell. Den använder färre lager men bredare experter per lager och MXFP4-kvantifiering för effektiv inferens på konsumenhårdvara med lägre minneskrav (~16 GB vs högre för Qwen3).
GPT-OSS är ungefär 33% mer minneseffektiv och snabbare på vissa hårdvarukonfigurationer, särskilt på konsument-GPU:er, men Qwen3 ger ofta bättre justering och resonemangsdjup, särskilt på komplexa användningsfall.
Qwen3 har en längre tillgänglig utökad kontextlängd (upp till 262 144 token) jämfört med GPT-OSS 128 000 token, vilket gynnar uppgifter som kräver mycket lång kontextförståelse.

Användningsspecifikationer

Välj Qwen3:30b-instruct för användningsfall som kräver överlägsen instruktionssäljning, kreativ generering, flerspråkig stöd och komplex resonemang.
Välj GPT-OSS:20b om minneseffektivitet, inferenshastighet på konsumenhårdvara och konkurrenskraftig grundläggande prestanda med färre parametrar är prioritering.

Denna jämförelse visar Qwen3:30b-instruct som en djupare, mer förmögen modell med avancerad instruktionsskärmning, medan GPT-OSS:20b erbjuder en mer kompakt, effektiv alternativ med konkurrenskraftig prestanda på standardbenchmarkar.

Benchmarkresultat som specifikt jämför Qwen3:30b-instruct och GPT-OSS:20b för instruktionssäljning och viktiga prestandaparametrar (MMLU, LMEval, HumanEval) är inte direkt tillgängliga i sökresultaten. Men utifrån befintliga publicerade flerspråkiga och flermålsbenchmarkrapporter:

MMLU (Massive Multitask Language Understanding)

Svårt att hitta detaljerna, bara:

Qwen3-seriens modeller, särskilt på 30B-skal och ovanför, visar starka MMLU-poäng som ofta överstiger 89%, vilket indikerar mycket konkurrenskraftig kunskapsförståelse och resonemangsförmåga över 57 olika områden.
GPT-OSS:20b presterar också bra på MMLU-benchmarkar men poängar vanligtvis lägre än större Qwen-modeller på grund av mindre antal parametrar och mindre fokus på instruktionsskärmning.

LMEval (Language Model Evaluation Toolkit)

Inga många detaljer just nu:

Qwen3-modeller visar betydande förbättring i resonemang och kodrelaterade uppgifter inom LMEval, med förbättrade poäng på logik, matematiskt resonemang och allmänna förmågor.
GPT-OSS:20b ger robust grundläggande prestanda på LMEval men ligger generellt bakom Qwen3:30b-instruct på avancerat resonemang och instruktionsskärmningssubuppgifter.

HumanEval (Code Generation Benchmark)

Ingen mycket data, bara:

Qwen3:30b-instruct visar stark prestanda på flerspråkiga kodgenereringsbenchmarkar som HumanEval-XL, som stöder över 20 programmeringsspråk och ger överlägsen flerspråkig kodgenereringsnoggrannhet.
GPT-OSS:20b, även om den är konkurrenskraftig, presterar något sämre än Qwen3:30b-instruct i HumanEval-benchmarkar, särskilt i flerspråkiga och flerspråkiga programmeringskontexter på grund av mindre omfattande flerspråkigt träning.

Sammanfattningstabell (approximativa trender från litteraturen):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Noteringar
MMLU-noggrannhet	~89-91%	~80-85%	Qwen3 starkare i bred kunskap och resonemang
LMEval-poäng	Hög, avancerat resonemang & kod	Måttlig, grundläggande resonemang	Qwen3 utmärker sig i matematik och logik
HumanEval	Hög flerspråkig kodgenerering	Måttlig	Qwen3 bättre i flerspråkig kodgenerering

Om exakta benchmarknummer krävs, ger specialiserade flerspråkiga stora benchmarkar som P-MMEval och HumanEval-XL som hänvisas till i nyliga forskningsartiklar detaljerade poäng för modeller inklusive Qwen3 och jämförbara GPT-OSS-variant, men dessa är inte allmänt optimerade för direkt sida-vid-sida poänghämtning just nu.

Hastighetsjämförelse mellan Qwen3:30b och GPT-OSS:20b

På min hårdvara (16 GB VRAM) får jag Qwen3:30b och GPT-OSS:20b att köras med 4000 kontextfönster, och de producerar:

qwen3:30b-a3b => 45,68 token/s
gpt-oss:20b => 129,52 token/s

Och för jämförelse har jag också testat qwen3:14b och gpt-oss:120b

qwen3:14b => 60,12 token/s
gpt-oss:120b => 12,87 token/s

På längre kontextfönster kommer hastigheten att vara långsammare, i fallet med qwen3:30b-a3b sannolikt mycket långsammare. Det är igen på min dator. Tekniska detaljer tagits från detaljerade utdata och minnesallokering visas nedan, kommandon att prova:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps visar minnesallokering på 4K kontext

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minuter från nu
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minuter från nu
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minuter från nu
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minuter från nu    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minuter från nu
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b-variant

Det finns tre variant av qwen3:30b-modellen tillgängliga: qwen3:30b, qwen3:30b-instruct och qwen3:30b-thinking.

Viktiga skillnader & rekommendationer

qwen3:30b-instruct är bäst för samtal där användarinstruktioner, tydlighet och naturlig dialog är prioriterade.
qwen3:30b är den allmänna grunden, lämplig om både instruktionssäljning och verktygsanvändning är viktiga över olika uppgifter.
qwen3:30b-thinking utmärker sig när djup resonemang, matematik och kodning är huvudsakligt fokus. Den överträffar andra i uppgifter som mäter logisk/matematisk rigor men är inte nödvändigtvis bättre för kreativ skrivning eller informella samtal.

Direkt benchmarkjämförelse

Modell	Resonemang (AIME25)	Kodning (LiveCodeBench)	Allmän kunskap (MMLU Redux)	Hastighet & kontext	Ideal användningsfall
qwen3:30b	70.9	57.4	89.5	256K token; Snabb	Allmän språk/agent/flerspråkig
qwen3:30b-instruct	N/A (Släppt nära 30b)	N/A	~Samma som 30b	256K token	Instruktionssäljning, justering
qwen3:30b-thinking	85.0	66.0	91.4	256K token	Matematik, kod, resonemang, långa dokument

För mer benchmarkar, hårdvaruväljningar och prestandatuning, se vår LLM-prestanda: Benchmarkar, fläskpunkter & optimering hub.