Jämförelse: Qwen3:30b vs GPT-OSS:20b

Jämföra hastighet, parametrar och prestanda hos dessa två modeller

Sidinnehåll

Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b fokuserande på instruktionssäljning och prestandaparametrar, specifikationer och hastighet.

För mer information om genomströmning, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, fläskpunkter & optimering.

7 llamas

Arkitektur och parametrar

Funktion Qwen3:30b-instruct GPT-OSS:20b
Totala parametrar 30,5 miljarder 21 miljarder
Aktiverade parametrar ~3,3 miljarder ~3,6 miljarder
Antal lager 48 24
MoE-ekspert per lager 128 (8 aktiva per token) 32 (4 aktiva per token)
Uppmärksamhetsmekanism Grupperad frågefokus (32Q /4KV) Grupperad flerfrågefokus (64Q /8KV)
Kontextfönster 32 768 inbyggda; Upp till 262 144 utökade 128 000 token
Tokenisator BPE-baserad, 151 936 ordlista GPT-baserad, ≈ 200k ordlista

Instruktionssäljning

  • Qwen3:30b-instruct är optimerad för instruktionssäljning med stark humanpreferensjustering. Den utmärker sig i kreativ skrivning, rollspel, flertrådiga dialoger och flerspråkig instruktionssäljning. Den här varianten är finjusterad specifikt för att ge mer naturliga, kontrollerade och engagerande svar som är justerade efter användarinstruktioner.
  • GPT-OSS:20b stöder instruktionssäljning men bedöms generellt vara något sämre än Qwen3:30b-instruct i finjustering av instruktioner. Den ger jämförliga funktionsskall, strukturerade utdata och resonemod, men kan försenas i konversationens justering och kreativ dialog.

Prestanda och effektivitet

  • Qwen3:30b-instruct utmärker sig i matematiskt resonemang, kodning, komplexa logiska uppgifter och flerspråkiga scenarier som täcker 119 språk och dialekter. Dess “tänkande"läge möjliggör förbättrad resonemang men med högre minneskostnader.
  • GPT-OSS:20b uppnår prestanda jämförlig med OpenAI:s o3-mini-modell. Den använder färre lager men bredare experter per lager och MXFP4-kvantifiering för effektiv inferens på konsumenhårdvara med lägre minneskrav (~16 GB vs högre för Qwen3).
  • GPT-OSS är ungefär 33% mer minneseffektiv och snabbare på vissa hårdvarukonfigurationer, särskilt på konsument-GPU:er, men Qwen3 ger ofta bättre justering och resonemangsdjup, särskilt på komplexa användningsfall.
  • Qwen3 har en längre tillgänglig utökad kontextlängd (upp till 262 144 token) jämfört med GPT-OSS 128 000 token, vilket gynnar uppgifter som kräver mycket lång kontextförståelse.

Användningsspecifikationer

  • Välj Qwen3:30b-instruct för användningsfall som kräver överlägsen instruktionssäljning, kreativ generering, flerspråkig stöd och komplex resonemang.
  • Välj GPT-OSS:20b om minneseffektivitet, inferenshastighet på konsumenhårdvara och konkurrenskraftig grundläggande prestanda med färre parametrar är prioritering.

Denna jämförelse visar Qwen3:30b-instruct som en djupare, mer förmögen modell med avancerad instruktionsskärmning, medan GPT-OSS:20b erbjuder en mer kompakt, effektiv alternativ med konkurrenskraftig prestanda på standardbenchmarkar.

Benchmarkresultat som specifikt jämför Qwen3:30b-instruct och GPT-OSS:20b för instruktionssäljning och viktiga prestandaparametrar (MMLU, LMEval, HumanEval) är inte direkt tillgängliga i sökresultaten. Men utifrån befintliga publicerade flerspråkiga och flermålsbenchmarkrapporter:

MMLU (Massive Multitask Language Understanding)

Svårt att hitta detaljerna, bara:

  • Qwen3-seriens modeller, särskilt på 30B-skal och ovanför, visar starka MMLU-poäng som ofta överstiger 89%, vilket indikerar mycket konkurrenskraftig kunskapsförståelse och resonemangsförmåga över 57 olika områden.
  • GPT-OSS:20b presterar också bra på MMLU-benchmarkar men poängar vanligtvis lägre än större Qwen-modeller på grund av mindre antal parametrar och mindre fokus på instruktionsskärmning.

LMEval (Language Model Evaluation Toolkit)

Inga många detaljer just nu:

  • Qwen3-modeller visar betydande förbättring i resonemang och kodrelaterade uppgifter inom LMEval, med förbättrade poäng på logik, matematiskt resonemang och allmänna förmågor.
  • GPT-OSS:20b ger robust grundläggande prestanda på LMEval men ligger generellt bakom Qwen3:30b-instruct på avancerat resonemang och instruktionsskärmningssubuppgifter.

HumanEval (Code Generation Benchmark)

Ingen mycket data, bara:

  • Qwen3:30b-instruct visar stark prestanda på flerspråkiga kodgenereringsbenchmarkar som HumanEval-XL, som stöder över 20 programmeringsspråk och ger överlägsen flerspråkig kodgenereringsnoggrannhet.
  • GPT-OSS:20b, även om den är konkurrenskraftig, presterar något sämre än Qwen3:30b-instruct i HumanEval-benchmarkar, särskilt i flerspråkiga och flerspråkiga programmeringskontexter på grund av mindre omfattande flerspråkigt träning.

Sammanfattningstabell (approximativa trender från litteraturen):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Noteringar
MMLU-noggrannhet ~89-91% ~80-85% Qwen3 starkare i bred kunskap och resonemang
LMEval-poäng Hög, avancerat resonemang & kod Måttlig, grundläggande resonemang Qwen3 utmärker sig i matematik och logik
HumanEval Hög flerspråkig kodgenerering Måttlig Qwen3 bättre i flerspråkig kodgenerering

Om exakta benchmarknummer krävs, ger specialiserade flerspråkiga stora benchmarkar som P-MMEval och HumanEval-XL som hänvisas till i nyliga forskningsartiklar detaljerade poäng för modeller inklusive Qwen3 och jämförbara GPT-OSS-variant, men dessa är inte allmänt optimerade för direkt sida-vid-sida poänghämtning just nu.

Hastighetsjämförelse mellan Qwen3:30b och GPT-OSS:20b

På min hårdvara (16 GB VRAM) får jag Qwen3:30b och GPT-OSS:20b att köras med 4000 kontextfönster, och de producerar:

  • qwen3:30b-a3b => 45,68 token/s
  • gpt-oss:20b => 129,52 token/s

Och för jämförelse har jag också testat qwen3:14b och gpt-oss:120b

  • qwen3:14b => 60,12 token/s
  • gpt-oss:120b => 12,87 token/s

På längre kontextfönster kommer hastigheten att vara långsammare, i fallet med qwen3:30b-a3b sannolikt mycket långsammare. Det är igen på min dator. Tekniska detaljer tagits från detaljerade utdata och minnesallokering visas nedan, kommandon att prova:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps visar minnesallokering på 4K kontext

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minuter från nu
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minuter från nu
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minuter från nu
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minuter från nu    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minuter från nu
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b-variant

Det finns tre variant av qwen3:30b-modellen tillgängliga: qwen3:30b, qwen3:30b-instruct och qwen3:30b-thinking.

Viktiga skillnader & rekommendationer

  • qwen3:30b-instruct är bäst för samtal där användarinstruktioner, tydlighet och naturlig dialog är prioriterade.
  • qwen3:30b är den allmänna grunden, lämplig om både instruktionssäljning och verktygsanvändning är viktiga över olika uppgifter.
  • qwen3:30b-thinking utmärker sig när djup resonemang, matematik och kodning är huvudsakligt fokus. Den överträffar andra i uppgifter som mäter logisk/matematisk rigor men är inte nödvändigtvis bättre för kreativ skrivning eller informella samtal.

Direkt benchmarkjämförelse

Modell Resonemang (AIME25) Kodning (LiveCodeBench) Allmän kunskap (MMLU Redux) Hastighet & kontext Ideal användningsfall
qwen3:30b 70.9 57.4 89.5 256K token; Snabb Allmän språk/agent/flerspråkig
qwen3:30b-instruct N/A (Släppt nära 30b) N/A ~Samma som 30b 256K token Instruktionssäljning, justering
qwen3:30b-thinking 85.0 66.0 91.4 256K token Matematik, kod, resonemang, långa dokument

För mer benchmarkar, hårdvaruväljningar och prestandatuning, se vår LLM-prestanda: Benchmarkar, fläskpunkter & optimering hub.

Nytta länkar