Vergelijking: Qwen3:30b vs GPT-OSS:20b
Vergelijking van snelheid, parameters en prestaties van deze twee modellen
Hier is een vergelijking tussen Qwen3:30b en GPT-OSS:20b
met aandacht voor instructievolgzaamheid en prestatieparameters, specificaties en snelheid:
Architectuur en parameters
Kenmerk | Qwen3:30b-instruct | GPT-OSS:20b |
---|---|---|
Totale parameters | 30,5 miljard | 21 miljard |
Geactiveerde parameters | ~3,3 miljard | ~3,6 miljard |
Aantal lagen | 48 | 24 |
MoE experts per laag | 128 (8 actief per token) | 32 (4 actief per token) |
Aandachtmechanisme | Groepsgewijze query-aandacht (32Q /4KV) | Groepsgewijze multi-query-aandacht (64Q /8KV) |
Contextvenster | 32.768 eigen; Tot 262.144 uitgebreid | 128.000 tokens |
Tokenizer | BPE-gebaseerd, 151.936 woordenboek | GPT-gebaseerd, ≈ 200k woordenboek |
Instructievolgzaamheid
- Qwen3:30b-instruct is geoptimaliseerd voor instructievolgzaamheid met sterke overeenstemming met menselijke voorkeuren. Het excelleert in creatief schrijven, rolspelen, meervoudige dialoog en meertalige instructievolgzaamheid. Deze variant is specifiek afgestemd om meer natuurlijke, beheersbare en betrokken reacties te geven die overeenkomen met gebruikersinstructies.
- GPT-OSS:20b ondersteunt instructievolgzaamheid, maar wordt algemeen iets minder goed beoordeeld dan Qwen3:30b-instruct in subtiel instructieafstemmen. Het biedt vergelijkbare functieaanroepen, gestructureerde uitvoer en redeneingsmodi, maar kan achterblijven in dialoogovereenstemming en creatieve dialoog.
Prestaties en efficiëntie
- Qwen3:30b-instruct excelleert in wiskundige redenering, programmeren, complexe logische taken en meertalige scenario’s die 119 talen en dialecten omvatten. Zijn “denk"modus biedt verbeterde redenering, maar met hogere geheugencosten.
- GPT-OSS:20b bereikt prestaties vergelijkbaar met OpenAI’s o3-mini model. Het gebruikt minder lagen, maar breder experts per laag en native MXFP4-quantisatie voor efficiënte inferentie op consumentenhardware met lagere geheugengebruik (~16 GB vs hoger voor Qwen3).
- GPT-OSS is ongeveer 33% geheugenefficiënter en sneller op bepaalde hardwareconfiguraties, vooral op consumentengpu’s, maar Qwen3 biedt vaak betere overeenstemming en redeneingsdiepte, vooral bij complexe toepassingen.
- Qwen3 heeft een langere beschikbare uitgebreide contextlengteoptie (tot 262.144 tokens) vergeleken met GPT-OSS 128.000 tokens, wat taken met zeer lange contextbegrip gunstig is.
Gebruik aanbeveling
- Kies Qwen3:30b-instruct voor toepassingen die superieure instructievolgzaamheid, creatieve generatie, meertalige ondersteuning en complexe redenering vereisen.
- Kies GPT-OSS:20b als geheugenefficiëntie, inferentiesnelheid op consumentenhardware en concurrentiebare basisprestaties met minder parameters prioriteit hebben.
Deze vergelijking benadrukt Qwen3:30b-instruct als een dieper, krachtiger model met geavanceerde instructieafstemming, terwijl GPT-OSS:20b een compactere, efficiëntere alternatief biedt met concurrentiebare prestaties op standaardbenchmarks.
Benchmarkcijfers die specifiek Qwen3:30b-instruct en GPT-OSS:20b vergelijken voor instructievolgzaamheid en belangrijke prestatieparameters (MMLU, LMEval, HumanEval) zijn niet direct beschikbaar in de zoekresultaten. Echter, op basis van bestaande gepubliceerde meertalige en multitask benchmarkrapporten:
MMLU (Massive Multitask Language Understanding)
Moeilijk om details te vinden, alleen:
- Qwen3-seriemodellen, vooral op schaal 30B en hoger, tonen sterke MMLU-cijfers die meestal boven 89% liggen, wat aantoont dat ze zeer concurrentieel zijn in kennisbegrip en redeneercapaciteiten over 57 diverse domeinen.
- GPT-OSS:20b presteert ook goed op MMLU-benchmarks, maar scoort meestal lager dan grotere Qwen-modellen vanwege het kleinere aantal parameters en minder nadruk op instructieafstemming.
LMEval (Language Model Evaluation Toolkit)
Niet veel details op dit moment:
- Qwen3-modellen tonen aanzienlijke verbetering in redenering en codegerelateerde taken binnen LMEval, met verbeterde scores op logica, wiskundige redenering en algemene capaciteiten.
- GPT-OSS:20b biedt robuuste basisprestaties op LMEval, maar ligt algemeen achter Qwen3:30b-instruct op geavanceerde redenering en instructievolgzaamheidssubtaken.
HumanEval (Code Generatiebenchmark)
Niet veel data, alleen:
- Qwen3:30b-instruct toont sterke prestaties op meertalige codegeneratiebenchmarks zoals HumanEval-XL, met ondersteuning voor meer dan 20 programmeertalen en betere kruistalige codegeneratieaccurate.
- GPT-OSS:20b, terwijl concurrentieel, presteert iets lager dan Qwen3:30b-instruct in HumanEval-benchmarks, vooral in meertalige en meertalige programmeercontexten vanwege minder uitgebreide meertalentraining.
Samenvattingstabel (benaderende trends uit de literatuur):
Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Opmerkingen |
---|---|---|---|
MMLU Accuraatheid | ~89-91% | ~80-85% | Qwen3 sterker in brede kennis en redenering |
LMEval Scores | Hoog, geavanceerde redenering & code | Matig, basisredenering | Qwen3 excelleert in wiskunde en logica |
HumanEval | Hoog meertalige code generatieprestatie | Matig | Qwen3 beter in kruistalige codegeneratie |
Als exacte benchmarkcijfers nodig zijn, bieden gespecialiseerde meertalige grote schaalbenchmarks zoals P-MMEval en HumanEval-XL, verwezen in recente onderzoekspublicaties, gedetailleerde scores voor modellen inclusief Qwen3 en vergelijkbare GPT-OSS-varianten, maar deze zijn niet openbaar gestroomlijnd voor directe zij-voor-zij-scoreophaal op dit moment.
Snelheid vergelijking Qwen3:30b en GPT-OSS:20b
Op mijn hardware (16 GB VRAM) krijg ik Qwen3:30b en GPT-OSS:20b draaien met een 4000 context venster, en ze produceren:
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
En voor vergelijking heb ik ook de qwen3:14b en gpt-oss:120b getest:
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Op langere contextvensters zal de snelheid trager zijn, bij qwen3:30b-a3b waarschijnlijk veel trager. Dat is weer op mijn pc. Technische details genomen van uitgebreide uitvoer en toegewezen geheugen is hieronder, opdrachten om te proberen:
- ollama run qwen3:30b-a3b –verbose beschrijf weerstandsverschil tussen staatshoofdsteden in Australië
- ollama ps tonen geheugentoewijzing op 4K context
qwen3:30b-a3b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minuten vanaf nu
totaal duur: 28,151133548s
laadduur: 1,980696196s
prompt eval tellen: 16 token(s)
prompt eval duur: 162,58803ms
prompt eval snelheid: 98,41 tokens/s
eval tellen: 1188 token(s)
eval duur: 26,007424856s
eval snelheid: 45,68 tokens/s
qwen3:30b-thinking
NAAM ID GROOTTE VERWERKER CONTEXT TOT
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minuten vanaf nu
totaal duur: 1m8,317354579s
laadduur: 1,984986882s
prompt eval tellen: 18 token(s)
prompt eval duur: 219,657034ms
prompt eval snelheid: 81,95 tokens/s
eval tellen: 2722 token(s)
eval duur: 1m6,11230524s
eval snelheid: 41,17 tokens/s
gpt-oss:20b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minuten vanaf nu
totaal duur: 31,505397616s
laadduur: 13,744361948s
prompt eval tellen: 75 token(s)
prompt eval duur: 249,363069ms
prompt eval snelheid: 300,77 tokens/s
eval tellen: 2268 token(s)
eval duur: 17,510262884s
eval snelheid: 129,52 tokens/s
qwen3:14b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minuten vanaf nu
totaal duur: 36,902729562s
laadduur: 38,669074ms
prompt eval tellen: 18 token(s)
prompt eval duur: 35,321423ms
prompt eval snelheid: 509,61 tokens/s
eval tellen: 2214 token(s)
eval duur: 36,828268069s
eval snelheid: 60,12 tokens/s
gpt-oss:120b
NAAM ID GROOTTE VERWERKER CONTEXT TOT
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minuten vanaf nu
49GB RAM + 14,4GB VRAM
totaal duur: 3m59,967272019s
laadduur: 76,758783ms
prompt eval tellen: 75 token(s)
prompt eval duur: 297,312854ms
prompt eval snelheid: 252,26 tokens/s
eval tellen: 3084 token(s)
eval duur: 3m59,592764501s
eval snelheid: 12,87 tokens/s
Qwen3:30b varianten
Er zijn drie varianten van het qwen3:30b model beschikbaar: qwen3:30b, qwen3:30b-instruct en qwen3:30b-thinking.
Belangrijkste verschillen & aanbevelingen
- qwen3:30b-instruct is het beste voor gesprekken waarbij gebruikersinstructies, duidelijkheid en natuurlijke dialoog prioriteit hebben.
- qwen3:30b is de algemene basis, geschikt als zowel instructievolgzaamheid als toolgebruik belangrijk zijn over diverse taken.
- qwen3:30b-thinking excelleert wanneer diepe redenering, wiskunde en programmeren het belangrijkste zijn. Het overtreft de anderen in taken die logische/wiskundige strikteheid meten, maar is niet noodzakelijk beter voor creatief schrijven of informele gesprekken.
Directe Benchmarkvergelijking
Model | Redenering (AIME25) | Programmeren (LiveCodeBench) | Algemene kennis (MMLU Redux) | Snelheid & Context | Ideaal gebruikgeval |
---|---|---|---|---|---|
qwen3:30b | 70,9 | 57,4 | 89,5 | 256K tokens; Snel | Algemene taal/agents/meertalig |
qwen3:30b-instruct | Niet beschikbaar (gepland dicht bij 30b) | Niet beschikbaar | ~Zelfde als 30b | 256K tokens | Instructievolgzaamheid, overeenstemming |
qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K tokens | Wiskunde, code, redenering, lange documenten |