Hur jämför sig Qwen3 30b med GPT-OSS 20b?

Qwen3 30b erbjuder generellt sett starkare förmåga att följa instruktioner, resonera och prestera på flera språk. GPT-OSS 20b är snabbare och mer minneseffektiv på konsument GPUs (t.ex. cirka 33 % lägre VRAM-krav och högre antal tokens per sekund i många konfigurationer).

Vilken modell är snabbare, Qwen3 30b eller GPT-OSS 20b?

GPT-OSS 20b är typiskt sett snabbare. Med 16 GB VRAM och en 4K-kontext kan GPT-OSS 20b uppnå cirka 130 tokens per sekund, jämfört med cirka 46 tokens per sekund för Qwen3 30b a3b, även om exakta värden beror på hårdvara och kontextstorlek.

När ska jag välja Qwen3 30b framför GPT-OSS 20b?

Välj Qwen3 30b när du behöver bättre följsamhet av instruktioner, kreativ eller flerspråkig output, komplex resonemang eller längre kontext (t.ex. upp till 262K tokens). Välj GPT-OSS 20b när hastighet och lägre VRAM-åtgång på konsumenthardware är viktigare.

Hur mycket VRAM krävs för Qwen3 30b och GPT-OSS 20b?

Qwen3 30B A3B kan köras på 16 GB VRAM med CPU-offload (t.ex. modell på cirka 20 GB). GPT-OSS 20B passar mer bekvämt på 16 GB GPU (t.ex. cirka 14 GB allokerat) och kan köras helt på GPU.

Var kan jag hitta mer information om LLM-prestanda och benchmark?

Vårt LLM Performance-hub behandlar genomströmning kontra latens, VRAM-gränser, parallella begäranden och prestandamätningar över olika runtime-miljöer och hårdvara.

Jämförelse: Qwen3:30b vs GPT-OSS:20b

Jämförelse av hastighet, parametrar och prestanda hos dessa två modeller

Sidinnehåll

Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b med fokus på instruktionföljande och prestandaparametrar, specifikationer och hastighet.

För mer information om genomströmning, latens, VRAM och benchmarkresultat över olika runtime-miljöer och hårdvara, se LLM-prestanda: Benchmark, flaskhals & optimering.

7 llamas

För standardvärden för sampling riktade mot agenter i den nyare Qwen-serien (inklusive straff och förinställningar för tänkande respektive kodning), se agenterinferensparametrar för Qwen och Gemma.

Arkitektur och parametrar

Egenskap	Qwen3:30b-instruct	GPT-OSS:20b
Totala parametrar	30,5 miljarder	21 miljarder
Aktiverade parametrar	~3,3 miljarder	~3,6 miljarder
Antal lager	48	24
MoE-experter per lager	128 (8 aktiva per token)	32 (4 aktiva per token)
Upmärksamhetsmekanism	Grouped Query Attention (32Q /4KV)	Grouped Multi-Query Attention (64Q /8KV)
Kontextfönster	32 768 inbyggt; upp till 262 144 utökad	128 000 tokens
Tokenizer	BPE-baserad, 151 936 ordning	GPT-baserad, ≈ 200k ordning

Instruktionföljande

Qwen3:30b-instruct är optimerad för instruktionföljande med stark anpassning till mänskliga preferenser. Den excellerar i kreativt skrivande, rollspel, dialoger med flera omgångar och flerspråkigt instruktionföljande. Denna variant är finjusterad specifikt för att ge mer naturliga, kontrollerade och engagerande svar som följer användarens instruktioner.
GPT-OSS:20b stöder instruktionföljande men bedöms generellt något sämre än Qwen3:30b-instruct vad gäller nyanserad instruktionjustering. Den erbjuder jämförbar funktionsanropning, strukturerad output och resonemangsmoder men kan hänga efter i konversationell anpassning och kreativ dialog.

Prestanda och effektivitet

Qwen3:30b-instruct excellerar i matematiskt resonemang, kodning, komplexa logiska uppgifter och flerspråkiga scenarioer som täcker 119 språk och dialekter. Dess “tänkande”-läge möjliggör förbättrat resonemang men med högre minneskostnader.
GPT-OSS:20b uppnår prestanda jämförbar med OpenAIs o3-mini-modell. Den använder färre lager men bredare experter per lager och inbyggd MXFP4-kvantisering för effektiv inferens på konsumenthårdvara med lägre minneskrav (~16 GB jämfört med högre för Qwen3).
GPT-OSS är cirka 33 % mer minneseffektiv och snabbare på vissa hårdvarukonfigurationer, särskilt på konsument-GPU:er, men Qwen3 ger ofta bättre anpassning och djupare resonemang, särskilt vid komplexa användningsfall.
Qwen3 har en längre tillgänglig utökad kontextlängd (upp till 262 144 tokens) jämfört med GPT-OSS 128 000 tokens, vilket gynnar uppgifter som kräver förståelse av mycket lång kontext.

Användningsrekommendation

Välj Qwen3:30b-instruct för användningsfall som kräver överlägsen instruktionföljande, kreativ generering, flerspråkigt stöd och komplexa resonemang.
Välj GPT-OSS:20b om minneseffektivitet, inferenshastighet på konsumenthårdvara och konkurrenskraftig basprestanda med färre parametrar är prioritet.

Denna jämförelse lyfter fram Qwen3:30b-instruct som en djupare, mer kapabel modell med avancerad instruktionjustering, medan GPT-OSS:20b erbjuder ett mer kompakt och effektivt alternativ med konkurrenskraftig prestanda på standardbenchmarkar.

Benchmarkresultat som specifikt jämför Qwen3:30b-instruct och GPT-OSS:20b för instruktionföljande och nyckelparametrar (MMLU, LMEval, HumanEval) finns inte direkt tillgängliga i sökresultaten. Baseras på befintliga publicerade flerspråkiga och multitask-benchmarkrapporter:

MMLU (Massive Multitask Language Understanding)

Det är svårt att hitta detaljerna, endast:

Qwen3-seriens modeller, särskilt i 30B-skala och uppåt, visar starka MMLU-resultat som vanligtvis överstiger 89 %, vilket indikerar mycket konkurrenskraftiga kunskapsförståelse- och resonemangsförmågor över 57 olika domäner.
GPT-OSS:20b presterar också bra på MMLU-benchmarkar men får vanligtvis lägre poäng än större Qwen-modeller på grund av färre parametrar och mindre betoning på instruktionjustering.

LMEval (Language Model Evaluation Toolkit)

Inte många detaljer just nu:

Qwen3-modellerna visar avsevärd förbättring i resonemang och kodrelaterade uppgifter inom LMEval, med förbättrade poäng på logik, matematiskt resonemang och allmänna förmågor.
GPT-OSS:20b ger robust basprestanda på LMEval men hänger generellt efter Qwen3:30b-instruct på avancerade resonemang- och instruktionföljandesubuppgifter.

HumanEval (Kodgenereringsbenchmark)

Inte mycket data, endast:

Qwen3:30b-instruct visar stark prestanda på flerspråkiga kodgenereringsbenchmarkar som HumanEval-XL, med stöd för över 20 programmeringsspråk och överlägsen noggrannhet i korslingvistisk kodgenerering.
GPT-OSS:20b, även om konkurrenskraftig, presterar något sämre än Qwen3:30b-instruct i HumanEval-benchmarkar, särskilt i flerspråkiga och multi-språkliga programmeringskontexter på grund av mindre omfattande flerspråkig träning.

Sammanfattningstabell (ungefärliga trender från litteraturen):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Noteringar
MMLU-noggrannhet	~89-91%	~80-85%	Qwen3 starkare vid bred kunskap och resonemang
LMEval-poäng	Höga, avancerat resonemang & kod	Medel, basresonemang	Qwen3 excellerar i matematik och logik
HumanEval	Hög flerspråkig kodgenprestanda	Medel	Qwen3 bättre vid korslingvistisk kodgenerering

Om exakta benchmarknummer behövs, ger specialiserade flerspråkiga storskaliga benchmarkar som P-MMEval och HumanEval-XL, refererade i senaste forskningsartiklar, detaljerade poäng för modeller inklusive Qwen3 och jämförbara GPT-OSS-variationer, men dessa är inte offentligt strömlinjeformade för direkt sida-vid-sida-poänghämtning just nu.

Qwen3:30b och GPT-OSS:20b hastighetsjämförelse

På min hårdvara (16 GB VRAM) får jag Qwen3:30b och GPT-OSS:20b att köra med 4000 tokens kontextfönster, och de producerar:

qwen3:30b-a3b => 45,68 tokens/s
gpt-oss:20b => 129,52 tokens/s

Och för jämförelse har jag också testat qwen3:14b och gpt-oss:120b

qwen3:14b => 60,12 tokens/s
gpt-oss:120b => 12,87 tokens/s

Vid längre kontextfönster kommer hastigheten att vara långsammare, i fallet med qwen3:30b-a3b troligen mycket långsammare. Detta gäller dock bara på min dator. Tekniska detaljer från verbose-output och allokerat minne visas nedan, kommandon att prova:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps som visar minnesallokering vid 4K-kontext

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b-variationer

Det finns tre variationer av qwen3:30b-modellen tillgängliga: qwen3:30b, qwen3:30b-instruct och qwen3:30b-thinking.

Viktiga skillnader & rekommendationer

qwen3:30b-instruct är bäst för konversationer där användarinstruktioner, tydlighet och naturlig dialog prioriteras.
qwen3:30b är den allmänna grunden, lämplig om både instruktionföljande och verktygsanvändning är viktigt över olika uppgifter.
qwen3:30b-thinking excellerar när djupt resonemang, matematik och kodning är huvudfokus. Den överträffar de andra i uppgifter som mäter logisk/matematisk rigor men är inte nödvändigtvis bättre för kreativt skrivande eller avslappnade konversationer.

Direkt benchmarkjämförelse

Modell	Resonemang (AIME25)	Kodning (LiveCodeBench)	Allmän kunskap (MMLU Redux)	Hastighet & kontext	Idealiskt användningsfall
qwen3:30b	70.9	57.4	89.5	256K tokens; Snabbt	Allmänt språk/agent/flerspråkigt
qwen3:30b-instruct	N/A (Planeras nära 30b)	N/A	~Samma som 30b	256K tokens	Instruktionföljande, anpassning
qwen3:30b-thinking	85.0	66.0	91.4	256K tokens	Matematik, kod, resonemang, långa dokument

För fler benchmarkresultat, hårdvaroval och prestandastyning, kolla vår LLM-prestanda: Benchmark, flaskhals & optimering hub.