Vergelijking: Qwen3:30b vs GPT-OSS:20b

Vergelijking van snelheid, parameters en prestaties van deze twee modellen

Inhoud

Hieronder volgt een vergelijking tussen Qwen3:30b en GPT-OSS:20b, met de nadruk op instructievolging en prestatieparameters, specificaties en snelheid.

Voor meer informatie over doorvoercapaciteit, latentie, VRAM en benchmarks over verschillende runtimes en hardware, zie LLM Prestaties: Benchmarks, Bottlenecks & Optimalisatie.

7 llamas

Voor sampling-standaarden gericht op agent-loops bij de nieuwere Qwen-lijn (inclusief penalties en presets voor denken versus coderen), raadpleeg de inferentieparameters voor Qwen en Gemma.

Architectuur en Parameters

Kenmerk Qwen3:30b-instruct GPT-OSS:20b
Totaal aantal parameters 30,5 miljard 21 miljard
Geactiveerde parameters ~3,3 miljard ~3,6 miljard
Aantal lagen 48 24
MoE-experts per laag 128 (8 actief per token) 32 (4 actief per token)
Attention-mechanisme Grouped Query Attention (32Q / 4KV) Grouped Multi-Query Attention (64Q / 8KV)
Contextvenster 32.768 native; tot 262.144 uitgebreid 128.000 tokens
Tokenizer BPE-gebaseerd, vocabulaire van 151.936 GPT-gebaseerd, ≈ 200k vocabulaire

Instructievolging

  • Qwen3:30b-instruct is geoptimaliseerd voor instructievolging met sterke uitlijning op menselijke voorkeuren. Het blinkt uit in creatief schrijven, rollenspel, meerrond gesprekken en meertalige instructievolging. Deze variant is specifiek gefine-tuned om natuurlijkere, gecontroleerdere en boeiendere antwoorden te bieden die beter aansluiten bij de instructies van de gebruiker.
  • GPT-OSS:20b ondersteunt instructievolging, maar scoort over het algemeen iets lager dan Qwen3:30b-instruct op het gebied van genuanceerde instructie-finetuning. Het biedt vergelijkbare functionaliteit voor function calling, gestructureerde output en redeneringsmodi, maar kan achterblijven op het gebied van conversatie-uitlijning en creatief dialoogverloop.

Prestaties en Efficiëntie

  • Qwen3:30b-instruct blinkt uit in wiskundige redenering, coderen, complexe logische taken en meertalige scenario’s die 119 talen en dialecten omvatten. De “denk”-modus zorgt voor verbeterde redenering, maar gaat ten koste van een hoger geheugengebruik.
  • GPT-OSS:20b bereikt prestaties die vergelijkbaar zijn met het o3-mini-model van OpenAI. Het gebruikt minder lagen, maar bredere experts per laag en native MXFP4-kwantificering voor efficiënte inferentie op consumentenhardware met lagere geheugenvereisten (~16GB versus meer voor Qwen3).
  • GPT-OSS is ongeveer 33% geheugenefficiënter en sneller op bepaalde hardwareconfiguraties, met name op consumentengrafische kaarten, maar Qwen3 biedt vaak betere uitlijning en redeneringsdiepte, vooral bij complexe use cases.
  • Qwen3 heeft een langere beschikbare optie voor uitgebreide contextlengte (tot 262.144 tokens) in vergelijking met GPT-OSS (128.000 tokens), wat voordelen biedt voor taken die zeer lange contextbegrip vereisen.

Gebruiksadvies

  • Kies Qwen3:30b-instruct voor use cases die superieure instructievolging, creatieve generatie, meertalige ondersteuning en complexe redenering vereisen.
  • Kies GPT-OSS:20b als geheugenefficiëntie, inferentiesnelheid op consumentenhardware en concurrerende basisprestaties met minder parameters prioriteit hebben.

Deze vergelijking benadrukt Qwen3:30b-instruct als een dieper, bekwaamer model met geavanceerde instructie-finetuning, terwijl GPT-OSS:20b een compactere, efficiëntere alternatief biedt met concurrerende prestaties op standaardbenchmarks.

Benchmarkcijfers die specifiek Qwen3:30b-instruct en GPT-OSS:20b vergelijken op het gebied van instructievolging en belangrijke prestatieparameters (MMLU, LMEval, HumanEval) zijn niet direct beschikbaar in de zoekresultaten. Op basis van bestaande gepubliceerde meertalige en multitask-benchmarkrapporten geldt echter het volgende:

MMLU (Massive Multitask Language Understanding)

Het is moeilijk om de details te vinden, kort samengevat:

  • Qwen3-modellen, vooral op de 30B-schaal en hoger, laten sterke MMLU-scores zien die typisch boven de 89% uitkomen, wat wijst op zeer concurrerende kennisbegrip- en redeneringscapaciteiten over 57 diverse domeinen.
  • GPT-OSS:20b presteert ook goed op MMLU-benchmarks, maar scoort doorgaans lager dan grotere Qwen-modellen vanwege het kleinere aantal parameters en minder nadruk op instructie-finetuning.

LMEval (Language Model Evaluation Toolkit)

Niet veel details op dit moment:

  • Qwen3-modellen tonen significante verbetering in redenering en code-gerelateerde taken binnen LMEval, met verbeterde scores op logica, wiskundige redenering en algemene capaciteiten.
  • GPT-OSS:20b biedt robuuste basisprestaties op LMEval, maar blijft over het algemeen achter bij Qwen3:30b-instruct op geavanceerde redenering en instructievolging-subtaken.

HumanEval (Code Generatie Benchmark)

Niet veel data, kort samengevat:

  • Qwen3:30b-instruct toont sterke prestaties op meertalige codegeneratiebenchmarks zoals HumanEval-XL, ondersteunt meer dan 20 programmeertalen en biedt superieure cross-linguale codegeneratie-accuraatheid.
  • GPT-OSS:20b is weliswaar concurrerend, maar presteert enigszins lager dan Qwen3:30b-instruct in HumanEval-benchmarks, vooral in meertalige en multi-taal programmeercontexten vanwege minder uitgebreide meertalige training.
Benchmark Qwen3:30b-instruct GPT-OSS:20b Opmerkingen
MMLU-accuraatheid ~89-91% ~80-85% Qwen3 sterker in brede kennis en redenering
LMEval-scores Hoog, geavanceerde redenering & code Matig, basisredenering Qwen3 blinkt uit in wiskunde en logica
HumanEval Hoge meertalige codegen-prestaties Matig Qwen3 beter in cross-linguale codegeneratie

Als exacte benchmarkcijfers nodig zijn, bieden gespecialiseerde meertalige grootschalige benchmarks zoals P-MMEval en HumanEval-XL, zoals vermeld in recente onderzoeksartikelen, gedetailleerde scores voor modellen waaronder Qwen3 en vergelijkbare GPT-OSS-varianten, maar deze zijn op dit moment niet publiek gestroomlijnd voor directe zij-aan-zij score-oophaling.

Snelheidsvergelijking Qwen3:30b en GPT-OSS:20b

Op mijn hardware (16GB VRAM) haal ik met Qwen3:30b en GPT-OSS:20b een contextvenster van 4000, en ze produceren:

  • qwen3:30b-a3b => 45,68 tokens/s
  • gpt-oss:20b => 129,52 tokens/s

En ter vergelijking heb ik ook qwen3:14b en gpt-oss:120b getest:

  • qwen3:14b => 60,12 tokens/s
  • gpt-oss:120b => 12,87 tokens/s

Bij langere contextvensters zal de snelheid langzamer zijn, in het geval van qwen3:30b-a3b waarschijnlijk veel langzamer. Dit geldt overigens voor mijn PC. Technische details zijn afkomstig van de verbose-output en het toegewezen geheugen staat hieronder, commando’s om te proberen:

  • ollama run qwen3:30b-a3b –verbose beschrijf het weerverschil tussen de hoofdsteden van de Australische staten
  • ollama ps die geheugentoewijzing toont bij 4K context

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minuten vanaf nu
totaal duur:       28.151133548s
laad duur:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minuten vanaf nu
totaal duur:       1m8.317354579s
laad duur:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minuten vanaf nu
totaal duur:       31.505397616s
laad duur:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minuten vanaf nu    
totaal duur:       36.902729562s
laad duur:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minuten vanaf nu
49GB RAM + 14.4GB VRAM
totaal duur:       3m59.967272019s
laad duur:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b varianten

Er zijn drie varianten van het qwen3:30b-model beschikbaar: qwen3:30b, qwen3:30b-instruct en qwen3:30b-thinking.

Belangrijkste Verschillen & Aanbevelingen

  • qwen3:30b-instruct is het beste voor gesprekken waarbij gebruikersinstructies, helderheid en natuurlijke dialoog prioriteit hebben.
  • qwen3:30b is de algemene basis, geschikt als zowel instructievolging als toolgebruik belangrijk zijn bij diverse taken.
  • qwen3:30b-thinking blinkt uit wanneer diepe redenering, wiskunde en coderen de hoofdfocus zijn. Het overtreft de anderen bij taken die logische/wiskundige nauwkeurigheid meten, maar is niet per se beter voor creatief schrijven of informele gesprekken.

Directe Benchmark Vergelijking

Model Redenering (AIME25) Coderen (LiveCodeBench) Algemene Kennis (MMLU Redux) Snelheid & Context Ideale Use Case
qwen3:30b 70,9 57,4 89,5 256K tokens; Snel Algemene taal/agenten/meertalig
qwen3:30b-instruct N/A (Verwacht dicht bij 30b) N/A ~Hetzelfde als 30b 256K tokens Instructievolging, uitlijning
qwen3:30b-thinking 85,0 66,0 91,4 256K tokens Wiskunde, code, redenering, lange docs

Voor meer benchmarks, hardwarekeuzes en performance-tuning, bekijk onze LLM Prestaties: Benchmarks, Bottlenecks & Optimalisatie hub.

Abonneren

Ontvang nieuwe berichten over systemen, infrastructuur en AI-engineering.