Vergleich: Qwen3:30b vs. GPT-OSS:20b
Vergleich von Geschwindigkeit, Parametern und Leistung dieser beiden Modelle
Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b, der sich auf die Befehlsausführung und Leistungsparameter, Spezifikationen und Geschwindigkeit konzentriert.
Weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware finden Sie unter LLM-Leistung: Benchmarks, Engpässe & Optimierung.

Für Standardsampling-Einstellungen im Agenten-Loop für die neuere Qwen-Reihe (einschließlich Strafen und Vorlagen für Denken versus Codierung) konsolidieren Sie die Parameter bitte mit Agenten-Inferenzparameter für Qwen und Gemma.
Architektur und Parameter
| Feature | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Gesamtparameter | 30,5 Milliarden | 21 Milliarden |
| Aktivierte Parameter | ~3,3 Milliarden | ~3,6 Milliarden |
| Anzahl der Schichten | 48 | 24 |
| MoE-Experten pro Schicht | 128 (8 aktiv pro Token) | 32 (4 aktiv pro Token) |
| Aufmerksamkeitsmechanismus | Grouped Query Attention (32Q /4KV) | Grouped Multi-Query Attention (64Q /8KV) |
| Kontextfenster | 32.768 nativ; bis zu 262.144 erweitert | 128.000 Tokens |
| Tokenizer | BPE-basiert, 151.936 Vokabeln | GPT-basiert, ≈ 200k Vokabeln |
Befehlsausführung (Instruction Following)
- Qwen3:30b-instruct ist für die Befehlsausführung optimiert und weist eine starke Ausrichtung an menschlichen Präferenzen auf. Es glänzt in kreativem Schreiben, Rollenspielen, mehrstufigen Dialogen und der Befehlsausführung in mehreren Sprachen. Diese Variante wurde speziell feinjustiert, um natürlichere, kontrolliertere und ansprechendere Antworten zu liefern, die mit den Anweisungen des Benutzers übereinstimmen.
- GPT-OSS:20b unterstützt die Befehlsausführung, wird jedoch im Bereich der differenzierten Befehlsjustierung (Instruction Tuning) im Allgemeinen leicht hinter Qwen3:30b-instruct eingestuft. Es bietet vergleichbare Funktionen für Function Calling, strukturierte Ausgabe und Reasoning-Modi, kann jedoch in der konversationellen Ausrichtung und kreativen Dialogführung hinterherhinken.
Leistung und Effizienz
- Qwen3:30b-instruct glänzt in mathematischer Reasoning, Codierung, komplexen logischen Aufgaben und mehrsprachigen Szenarien, die 119 Sprachen und Dialekte abdecken. Sein „Denk-Modus“ ermöglicht erweitertes Reasoning, bringt jedoch höhere Speicherkosten mit sich.
- GPT-OSS:20b erreicht eine Leistung, die mit OpenAIs o3-mini-Modell vergleichbar ist. Es verwendet weniger Schichten, aber breitere Experten pro Schicht und native MXFP4-Quantisierung für eine effiziente Inferenz auf Consumer-Hardware mit geringeren Speicheranforderungen (~16 GB gegenüber höher bei Qwen3).
- GPT-OSS ist auf bestimmten Hardware-Setups, insbesondere auf Consumer-GPUs, etwa 33 % speichereffizienter und schneller, aber Qwen3 bietet oft eine bessere Ausrichtung und Reasoning-Tiefe, besonders bei komplexen Anwendungsfällen.
- Qwen3 hat eine längere verfügbare erweiterte Kontextlängenoption (bis zu 262.144 Tokens) im Vergleich zu GPT-OSS mit 128.000 Tokens, was Aufgaben zugutekommt, die ein Verständnis sehr langer Kontexte erfordern.
Nutzungsempfehlung
- Wählen Sie Qwen3:30b-instruct für Anwendungsfälle, die eine überlegene Befehlsausführung, kreative Generierung, mehrsprachige Unterstützung und komplexes Reasoning erfordern.
- Wählen Sie GPT-OSS:20b, wenn Speichereffizienz, Inferenzgeschwindigkeit auf Consumer-Hardware und wettbewerbsfähige Basisleistung mit weniger Parametern priorisiert werden.
Dieser Vergleich hebt Qwen3:30b-instruct als ein tieferes, leistungsfähigeres Modell mit fortschrittlicher Befehlsjustierung hervor, während GPT-OSS:20b eine kompaktere, effizientere Alternative mit wettbewerbsfähiger Leistung bei Standard-Benchmarks bietet.
Benchmark-Werte, die Qwen3:30b-instruct und GPT-OSS:20b spezifisch für die Befehlsausführung und Schlüsselleistungsparameter (MMLU, LMEval, HumanEval) vergleichen, sind in den Suchergebnissen nicht direkt verfügbar. Basierend auf vorhandenen veröffentlichten mehrsprachigen und multitask-Benchmark-Berichten ergeben sich jedoch folgende Erkenntnisse:
MMLU (Massive Multitask Language Understanding)
Die Details sind schwer zu finden, zusammengefasst:
- Qwen3-Serienmodelle, insbesondere im 30B-Bereich und darüber hinaus, zeigen starke MMLU-Werte, die typischerweise 89 % überschreiten, was auf sehr wettbewerbsfähige Wissensverständnis- und Reasoning-Fähigkeiten über 57 verschiedene Domänen hinweg hinweist.
- GPT-OSS:20b schneidet bei MMLU-Benchmarks ebenfalls gut ab, erzielt jedoch aufgrund der geringeren Parameteranzahl und des geringeren Fokus auf Befehls-Feinjustierung in der Regel niedrigere Werte als größere Qwen-Modelle.
LMEval (Language Model Evaluation Toolkit)
Derzeit wenig Details verfügbar:
- Qwen3-Modelle zeigen signifikante Verbesserungen in Reasoning- und codebezogenen Aufgaben innerhalb von LMEval, mit verbesserten Werten bei Logik, mathematischem Reasoning und allgemeinen Fähigkeiten.
- GPT-OSS:20b bietet eine robuste Basisleistung bei LMEval, hinkt aber bei fortgeschrittenem Reasoning und Befehlsausführung-Unteraufgaben im Allgemeinen hinter Qwen3:30b-instruct her.
HumanEval (Code Generation Benchmark)
Wenig Daten verfügbar, zusammengefasst:
- Qwen3:30b-instruct zeigt starke Leistungen bei mehrsprachigen Code-Generierungs-Benchmarks wie HumanEval-XL, unterstützt über 20 Programmiersprachen und bietet eine überlegene Genauigkeit bei der cross-lingualen Code-Generierung.
- GPT-OSS:20b schneidet zwar wettbewerbsfähig ab, erreicht aber in HumanEval-Benchmarks, insbesondere in mehrsprachigen und multi-language-Programmierungskontexten, aufgrund weniger umfangreicher mehrsprachiger Trainingsdaten etwas niedrigere Werte als Qwen3:30b-instruct.
Zusammenfassungstabelle (ungefähre Trends aus der Literatur):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Hinweise |
|---|---|---|---|
| MMLU Genauigkeit | ~89-91% | ~80-85% | Qwen3 stärker in breitem Wissen und Reasoning |
| LMEval Scores | Hoch, fortgeschrittenes Reasoning & Code | Moderat, Basis-Reasoning | Qwen3 glänzt in Mathematik und Logik |
| HumanEval | Hohe Performance bei mehrsprachiger Code-Generierung | Moderat | Qwen3 besser in cross-lingualer Code-Generierung |
Wenn exakte Benchmark-Zahlen benötigt werden, bieten spezialisierte mehrsprachige Großbenchmarks wie P-MMEval und HumanEval-XL, die in jüngsten Forschungsarbeiten erwähnt werden, detaillierte Scores für Modelle einschließlich Qwen3 und vergleichbarer GPT-OSS-Varianten, diese sind jedoch derzeit nicht öffentlich für einen direkten Seiten-zu-Seiten-Vergleich der Scores aufbereitet.
Geschwindigkeitsvergleich Qwen3:30b und GPT-OSS:20b
Auf meiner Hardware (16GB VRAM) erhalte ich mit Qwen3:30b und GPT-OSS:20b bei einem Kontextfenster von 4000 folgende Ergebnisse:
- qwen3:30b-a3b => 45,68 Tokens/s
- gpt-oss:20b => 129,52 Tokens/s
Zum Vergleich habe ich auch qwen3:14b und gpt-oss:120b getestet:
- qwen3:14b => 60,12 Tokens/s
- gpt-oss:120b => 12,87 Tokens/s
Bei längeren Kontextfenstern wird die Geschwindigkeit langsamer sein, im Fall von qwen3:30b-a3b wahrscheinlich deutlich langsamer. Dies gilt wiederum für meinen PC. Technische Details wurden aus der ausführlichen Ausgabe entnommen, die zugewiesene Speicherkapazität ist unten dargestellt. Befehle zum Ausprobieren:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps zeigt die Speicherallokation bei 4K Kontext
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Qwen3:30b Varianten
Es sind drei Varianten des qwen3:30b-Modells verfügbar: qwen3:30b, qwen3:30b-instruct und qwen3:30b-thinking.
Hauptunterschiede & Empfehlungen
- qwen3:30b-instruct ist am besten für Konversationen geeignet, bei denen Benutzeranweisungen, Klarheit und natürlicher Dialog priorisiert werden.
- qwen3:30b ist das allgemeine Foundation-Modell, geeignet, wenn sowohl Befehlsausführung als auch Tool-Nutzung bei unterschiedlichsten Aufgaben wichtig sind.
- qwen3:30b-thinking glänzt, wenn tiefes Reasoning, Mathematik und Codierung im Vordergrund stehen. Es übertrifft die anderen bei Aufgaben, die logische/mathematische Strenge messen, ist aber nicht unbedingt besser für kreatives Schreiben oder lockere Konversationen.
Direkter Benchmark-Vergleich
| Modell | Reasoning (AIME25) | Coding (LiveCodeBench) | Allgemeines Wissen (MMLU Redux) | Geschwindigkeit & Kontext | Idealer Verwendungszweck |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K Tokens; Schnell | Allgemeine Sprache/Agenten/Mehrsprachig |
| qwen3:30b-instruct | N/A (Erwartet in der Nähe von 30b) | N/A | ~Wie 30b | 256K Tokens | Befehlsausführung, Alignment |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K Tokens | Mathematik, Code, Reasoning, lange Dokumente |
Für weitere Benchmarks, Hardware-Entscheidungen und Leistungsoptimierungen schauen Sie in unsere LLM-Leistung: Benchmarks, Engpässe & Optimierung Hub.
Nützliche Links
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Ollama installieren und konfigurieren
- Ollama Cheat Sheet - die nützlichsten Befehle
- LLMs mit strukturierter Ausgabe einschränken: Ollama, Qwen3 & Python oder Go
- Ollama mit Python integrieren: REST API und Python-Client-Beispiele