Vergelijking: Qwen3:30b vs GPT-OSS:20b
Vergelijking van snelheid, parameters en prestaties van deze twee modellen
Hieronder volgt een vergelijking tussen Qwen3:30b en GPT-OSS:20b, met de nadruk op instructievolging en prestatieparameters, specificaties en snelheid.
Voor meer informatie over doorvoercapaciteit, latentie, VRAM en benchmarks over verschillende runtimes en hardware, zie LLM Prestaties: Benchmarks, Bottlenecks & Optimalisatie.

Voor sampling-standaarden gericht op agent-loops bij de nieuwere Qwen-lijn (inclusief penalties en presets voor denken versus coderen), raadpleeg de inferentieparameters voor Qwen en Gemma.
Architectuur en Parameters
| Kenmerk | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Totaal aantal parameters | 30,5 miljard | 21 miljard |
| Geactiveerde parameters | ~3,3 miljard | ~3,6 miljard |
| Aantal lagen | 48 | 24 |
| MoE-experts per laag | 128 (8 actief per token) | 32 (4 actief per token) |
| Attention-mechanisme | Grouped Query Attention (32Q / 4KV) | Grouped Multi-Query Attention (64Q / 8KV) |
| Contextvenster | 32.768 native; tot 262.144 uitgebreid | 128.000 tokens |
| Tokenizer | BPE-gebaseerd, vocabulaire van 151.936 | GPT-gebaseerd, ≈ 200k vocabulaire |
Instructievolging
- Qwen3:30b-instruct is geoptimaliseerd voor instructievolging met sterke uitlijning op menselijke voorkeuren. Het blinkt uit in creatief schrijven, rollenspel, meerrond gesprekken en meertalige instructievolging. Deze variant is specifiek gefine-tuned om natuurlijkere, gecontroleerdere en boeiendere antwoorden te bieden die beter aansluiten bij de instructies van de gebruiker.
- GPT-OSS:20b ondersteunt instructievolging, maar scoort over het algemeen iets lager dan Qwen3:30b-instruct op het gebied van genuanceerde instructie-finetuning. Het biedt vergelijkbare functionaliteit voor function calling, gestructureerde output en redeneringsmodi, maar kan achterblijven op het gebied van conversatie-uitlijning en creatief dialoogverloop.
Prestaties en Efficiëntie
- Qwen3:30b-instruct blinkt uit in wiskundige redenering, coderen, complexe logische taken en meertalige scenario’s die 119 talen en dialecten omvatten. De “denk”-modus zorgt voor verbeterde redenering, maar gaat ten koste van een hoger geheugengebruik.
- GPT-OSS:20b bereikt prestaties die vergelijkbaar zijn met het o3-mini-model van OpenAI. Het gebruikt minder lagen, maar bredere experts per laag en native MXFP4-kwantificering voor efficiënte inferentie op consumentenhardware met lagere geheugenvereisten (~16GB versus meer voor Qwen3).
- GPT-OSS is ongeveer 33% geheugenefficiënter en sneller op bepaalde hardwareconfiguraties, met name op consumentengrafische kaarten, maar Qwen3 biedt vaak betere uitlijning en redeneringsdiepte, vooral bij complexe use cases.
- Qwen3 heeft een langere beschikbare optie voor uitgebreide contextlengte (tot 262.144 tokens) in vergelijking met GPT-OSS (128.000 tokens), wat voordelen biedt voor taken die zeer lange contextbegrip vereisen.
Gebruiksadvies
- Kies Qwen3:30b-instruct voor use cases die superieure instructievolging, creatieve generatie, meertalige ondersteuning en complexe redenering vereisen.
- Kies GPT-OSS:20b als geheugenefficiëntie, inferentiesnelheid op consumentenhardware en concurrerende basisprestaties met minder parameters prioriteit hebben.
Deze vergelijking benadrukt Qwen3:30b-instruct als een dieper, bekwaamer model met geavanceerde instructie-finetuning, terwijl GPT-OSS:20b een compactere, efficiëntere alternatief biedt met concurrerende prestaties op standaardbenchmarks.
Benchmarkcijfers die specifiek Qwen3:30b-instruct en GPT-OSS:20b vergelijken op het gebied van instructievolging en belangrijke prestatieparameters (MMLU, LMEval, HumanEval) zijn niet direct beschikbaar in de zoekresultaten. Op basis van bestaande gepubliceerde meertalige en multitask-benchmarkrapporten geldt echter het volgende:
MMLU (Massive Multitask Language Understanding)
Het is moeilijk om de details te vinden, kort samengevat:
- Qwen3-modellen, vooral op de 30B-schaal en hoger, laten sterke MMLU-scores zien die typisch boven de 89% uitkomen, wat wijst op zeer concurrerende kennisbegrip- en redeneringscapaciteiten over 57 diverse domeinen.
- GPT-OSS:20b presteert ook goed op MMLU-benchmarks, maar scoort doorgaans lager dan grotere Qwen-modellen vanwege het kleinere aantal parameters en minder nadruk op instructie-finetuning.
LMEval (Language Model Evaluation Toolkit)
Niet veel details op dit moment:
- Qwen3-modellen tonen significante verbetering in redenering en code-gerelateerde taken binnen LMEval, met verbeterde scores op logica, wiskundige redenering en algemene capaciteiten.
- GPT-OSS:20b biedt robuuste basisprestaties op LMEval, maar blijft over het algemeen achter bij Qwen3:30b-instruct op geavanceerde redenering en instructievolging-subtaken.
HumanEval (Code Generatie Benchmark)
Niet veel data, kort samengevat:
- Qwen3:30b-instruct toont sterke prestaties op meertalige codegeneratiebenchmarks zoals HumanEval-XL, ondersteunt meer dan 20 programmeertalen en biedt superieure cross-linguale codegeneratie-accuraatheid.
- GPT-OSS:20b is weliswaar concurrerend, maar presteert enigszins lager dan Qwen3:30b-instruct in HumanEval-benchmarks, vooral in meertalige en multi-taal programmeercontexten vanwege minder uitgebreide meertalige training.
Samenvattende Tabel (benaderende trends uit de literatuur):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Opmerkingen |
|---|---|---|---|
| MMLU-accuraatheid | ~89-91% | ~80-85% | Qwen3 sterker in brede kennis en redenering |
| LMEval-scores | Hoog, geavanceerde redenering & code | Matig, basisredenering | Qwen3 blinkt uit in wiskunde en logica |
| HumanEval | Hoge meertalige codegen-prestaties | Matig | Qwen3 beter in cross-linguale codegeneratie |
Als exacte benchmarkcijfers nodig zijn, bieden gespecialiseerde meertalige grootschalige benchmarks zoals P-MMEval en HumanEval-XL, zoals vermeld in recente onderzoeksartikelen, gedetailleerde scores voor modellen waaronder Qwen3 en vergelijkbare GPT-OSS-varianten, maar deze zijn op dit moment niet publiek gestroomlijnd voor directe zij-aan-zij score-oophaling.
Snelheidsvergelijking Qwen3:30b en GPT-OSS:20b
Op mijn hardware (16GB VRAM) haal ik met Qwen3:30b en GPT-OSS:20b een contextvenster van 4000, en ze produceren:
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
En ter vergelijking heb ik ook qwen3:14b en gpt-oss:120b getest:
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Bij langere contextvensters zal de snelheid langzamer zijn, in het geval van qwen3:30b-a3b waarschijnlijk veel langzamer. Dit geldt overigens voor mijn PC. Technische details zijn afkomstig van de verbose-output en het toegewezen geheugen staat hieronder, commando’s om te proberen:
- ollama run qwen3:30b-a3b –verbose beschrijf het weerverschil tussen de hoofdsteden van de Australische staten
- ollama ps die geheugentoewijzing toont bij 4K context
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minuten vanaf nu
totaal duur: 28.151133548s
laad duur: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minuten vanaf nu
totaal duur: 1m8.317354579s
laad duur: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minuten vanaf nu
totaal duur: 31.505397616s
laad duur: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minuten vanaf nu
totaal duur: 36.902729562s
laad duur: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minuten vanaf nu
49GB RAM + 14.4GB VRAM
totaal duur: 3m59.967272019s
laad duur: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Qwen3:30b varianten
Er zijn drie varianten van het qwen3:30b-model beschikbaar: qwen3:30b, qwen3:30b-instruct en qwen3:30b-thinking.
Belangrijkste Verschillen & Aanbevelingen
- qwen3:30b-instruct is het beste voor gesprekken waarbij gebruikersinstructies, helderheid en natuurlijke dialoog prioriteit hebben.
- qwen3:30b is de algemene basis, geschikt als zowel instructievolging als toolgebruik belangrijk zijn bij diverse taken.
- qwen3:30b-thinking blinkt uit wanneer diepe redenering, wiskunde en coderen de hoofdfocus zijn. Het overtreft de anderen bij taken die logische/wiskundige nauwkeurigheid meten, maar is niet per se beter voor creatief schrijven of informele gesprekken.
Directe Benchmark Vergelijking
| Model | Redenering (AIME25) | Coderen (LiveCodeBench) | Algemene Kennis (MMLU Redux) | Snelheid & Context | Ideale Use Case |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K tokens; Snel | Algemene taal/agenten/meertalig |
| qwen3:30b-instruct | N/A (Verwacht dicht bij 30b) | N/A | ~Hetzelfde als 30b | 256K tokens | Instructievolging, uitlijning |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K tokens | Wiskunde, code, redenering, lange docs |
Voor meer benchmarks, hardwarekeuzes en performance-tuning, bekijk onze LLM Prestaties: Benchmarks, Bottlenecks & Optimalisatie hub.
Nuttige links
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Ollama installeren en configureren
- Ollama cheatsheet - meest gebruikte commando’s
- LLM’s beperken met gestructureerde output: Ollama, Qwen3 & Python of Go
- Ollama integreren met Python: REST API en Python Client voorbeelden