Jämförelse: Qwen3:30b vs GPT-OSS:20b
Jämförelse av hastighet, parametrar och prestanda hos dessa två modeller
Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b med fokus på instruktionföljande och prestandaparametrar, specifikationer och hastighet.
För mer information om genomströmning, latens, VRAM och benchmarkresultat över olika runtime-miljöer och hårdvara, se LLM-prestanda: Benchmark, flaskhals & optimering.

För standardvärden för sampling riktade mot agenter i den nyare Qwen-serien (inklusive straff och förinställningar för tänkande respektive kodning), se agenterinferensparametrar för Qwen och Gemma.
Arkitektur och parametrar
| Egenskap | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Totala parametrar | 30,5 miljarder | 21 miljarder |
| Aktiverade parametrar | ~3,3 miljarder | ~3,6 miljarder |
| Antal lager | 48 | 24 |
| MoE-experter per lager | 128 (8 aktiva per token) | 32 (4 aktiva per token) |
| Upmärksamhetsmekanism | Grouped Query Attention (32Q /4KV) | Grouped Multi-Query Attention (64Q /8KV) |
| Kontextfönster | 32 768 inbyggt; upp till 262 144 utökad | 128 000 tokens |
| Tokenizer | BPE-baserad, 151 936 ordning | GPT-baserad, ≈ 200k ordning |
Instruktionföljande
- Qwen3:30b-instruct är optimerad för instruktionföljande med stark anpassning till mänskliga preferenser. Den excellerar i kreativt skrivande, rollspel, dialoger med flera omgångar och flerspråkigt instruktionföljande. Denna variant är finjusterad specifikt för att ge mer naturliga, kontrollerade och engagerande svar som följer användarens instruktioner.
- GPT-OSS:20b stöder instruktionföljande men bedöms generellt något sämre än Qwen3:30b-instruct vad gäller nyanserad instruktionjustering. Den erbjuder jämförbar funktionsanropning, strukturerad output och resonemangsmoder men kan hänga efter i konversationell anpassning och kreativ dialog.
Prestanda och effektivitet
- Qwen3:30b-instruct excellerar i matematiskt resonemang, kodning, komplexa logiska uppgifter och flerspråkiga scenarioer som täcker 119 språk och dialekter. Dess “tänkande”-läge möjliggör förbättrat resonemang men med högre minneskostnader.
- GPT-OSS:20b uppnår prestanda jämförbar med OpenAIs o3-mini-modell. Den använder färre lager men bredare experter per lager och inbyggd MXFP4-kvantisering för effektiv inferens på konsumenthårdvara med lägre minneskrav (~16 GB jämfört med högre för Qwen3).
- GPT-OSS är cirka 33 % mer minneseffektiv och snabbare på vissa hårdvarukonfigurationer, särskilt på konsument-GPU:er, men Qwen3 ger ofta bättre anpassning och djupare resonemang, särskilt vid komplexa användningsfall.
- Qwen3 har en längre tillgänglig utökad kontextlängd (upp till 262 144 tokens) jämfört med GPT-OSS 128 000 tokens, vilket gynnar uppgifter som kräver förståelse av mycket lång kontext.
Användningsrekommendation
- Välj Qwen3:30b-instruct för användningsfall som kräver överlägsen instruktionföljande, kreativ generering, flerspråkigt stöd och komplexa resonemang.
- Välj GPT-OSS:20b om minneseffektivitet, inferenshastighet på konsumenthårdvara och konkurrenskraftig basprestanda med färre parametrar är prioritet.
Denna jämförelse lyfter fram Qwen3:30b-instruct som en djupare, mer kapabel modell med avancerad instruktionjustering, medan GPT-OSS:20b erbjuder ett mer kompakt och effektivt alternativ med konkurrenskraftig prestanda på standardbenchmarkar.
Benchmarkresultat som specifikt jämför Qwen3:30b-instruct och GPT-OSS:20b för instruktionföljande och nyckelparametrar (MMLU, LMEval, HumanEval) finns inte direkt tillgängliga i sökresultaten. Baseras på befintliga publicerade flerspråkiga och multitask-benchmarkrapporter:
MMLU (Massive Multitask Language Understanding)
Det är svårt att hitta detaljerna, endast:
- Qwen3-seriens modeller, särskilt i 30B-skala och uppåt, visar starka MMLU-resultat som vanligtvis överstiger 89 %, vilket indikerar mycket konkurrenskraftiga kunskapsförståelse- och resonemangsförmågor över 57 olika domäner.
- GPT-OSS:20b presterar också bra på MMLU-benchmarkar men får vanligtvis lägre poäng än större Qwen-modeller på grund av färre parametrar och mindre betoning på instruktionjustering.
LMEval (Language Model Evaluation Toolkit)
Inte många detaljer just nu:
- Qwen3-modellerna visar avsevärd förbättring i resonemang och kodrelaterade uppgifter inom LMEval, med förbättrade poäng på logik, matematiskt resonemang och allmänna förmågor.
- GPT-OSS:20b ger robust basprestanda på LMEval men hänger generellt efter Qwen3:30b-instruct på avancerade resonemang- och instruktionföljandesubuppgifter.
HumanEval (Kodgenereringsbenchmark)
Inte mycket data, endast:
- Qwen3:30b-instruct visar stark prestanda på flerspråkiga kodgenereringsbenchmarkar som HumanEval-XL, med stöd för över 20 programmeringsspråk och överlägsen noggrannhet i korslingvistisk kodgenerering.
- GPT-OSS:20b, även om konkurrenskraftig, presterar något sämre än Qwen3:30b-instruct i HumanEval-benchmarkar, särskilt i flerspråkiga och multi-språkliga programmeringskontexter på grund av mindre omfattande flerspråkig träning.
Sammanfattningstabell (ungefärliga trender från litteraturen):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Noteringar |
|---|---|---|---|
| MMLU-noggrannhet | ~89-91% | ~80-85% | Qwen3 starkare vid bred kunskap och resonemang |
| LMEval-poäng | Höga, avancerat resonemang & kod | Medel, basresonemang | Qwen3 excellerar i matematik och logik |
| HumanEval | Hög flerspråkig kodgenprestanda | Medel | Qwen3 bättre vid korslingvistisk kodgenerering |
Om exakta benchmarknummer behövs, ger specialiserade flerspråkiga storskaliga benchmarkar som P-MMEval och HumanEval-XL, refererade i senaste forskningsartiklar, detaljerade poäng för modeller inklusive Qwen3 och jämförbara GPT-OSS-variationer, men dessa är inte offentligt strömlinjeformade för direkt sida-vid-sida-poänghämtning just nu.
Qwen3:30b och GPT-OSS:20b hastighetsjämförelse
På min hårdvara (16 GB VRAM) får jag Qwen3:30b och GPT-OSS:20b att köra med 4000 tokens kontextfönster, och de producerar:
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
Och för jämförelse har jag också testat qwen3:14b och gpt-oss:120b
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Vid längre kontextfönster kommer hastigheten att vara långsammare, i fallet med qwen3:30b-a3b troligen mycket långsammare. Detta gäller dock bara på min dator. Tekniska detaljer från verbose-output och allokerat minne visas nedan, kommandon att prova:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps som visar minnesallokering vid 4K-kontext
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Qwen3:30b-variationer
Det finns tre variationer av qwen3:30b-modellen tillgängliga: qwen3:30b, qwen3:30b-instruct och qwen3:30b-thinking.
Viktiga skillnader & rekommendationer
- qwen3:30b-instruct är bäst för konversationer där användarinstruktioner, tydlighet och naturlig dialog prioriteras.
- qwen3:30b är den allmänna grunden, lämplig om både instruktionföljande och verktygsanvändning är viktigt över olika uppgifter.
- qwen3:30b-thinking excellerar när djupt resonemang, matematik och kodning är huvudfokus. Den överträffar de andra i uppgifter som mäter logisk/matematisk rigor men är inte nödvändigtvis bättre för kreativt skrivande eller avslappnade konversationer.
Direkt benchmarkjämförelse
| Modell | Resonemang (AIME25) | Kodning (LiveCodeBench) | Allmän kunskap (MMLU Redux) | Hastighet & kontext | Idealiskt användningsfall |
|---|---|---|---|---|---|
| qwen3:30b | 70.9 | 57.4 | 89.5 | 256K tokens; Snabbt | Allmänt språk/agent/flerspråkigt |
| qwen3:30b-instruct | N/A (Planeras nära 30b) | N/A | ~Samma som 30b | 256K tokens | Instruktionföljande, anpassning |
| qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K tokens | Matematik, kod, resonemang, långa dokument |
För fler benchmarkresultat, hårdvaroval och prestandastyning, kolla vår LLM-prestanda: Benchmark, flaskhals & optimering hub.
Användbara länkar
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Installera och konfigurera Ollama
- Ollama-fusk - de mest användbara kommandona
- Begränsa LLM:er med strukturerad output: Ollama, Qwen3 & Python eller Go
- Integrera Ollama med Python: REST API och Python-klientexempel