Wie stellt sich Qwen3 30b im Vergleich zu GPT-OSS 20b dar?

Qwen3 30b bietet allgemein eine stärkere Befehlsausführung, bessere Reasoning-Fähigkeiten und eine überlegene mehrsprachige Leistung. GPT-OSS 20b ist schneller und speicher-effizienter auf Consumer-GPUs (z. B. etwa 33 % weniger VRAM und höhere Tokens pro Sekunde in vielen Konfigurationen).

Welches Modell ist schneller, Qwen3 30b oder GPT-OSS 20b?

GPT-OSS 20b ist in der Regel schneller. Auf 16 GB VRAM bei einem 4K-Kontext erreicht GPT-OSS 20b ca. 130 Tokens pro Sekunde, im Vergleich zu etwa 46 Tokens pro Sekunde für Qwen3 30b a3b, wobei die genauen Werte von der Hardware und der Kontextlänge abhängen.

Wann sollte ich Qwen3 30b GPT-OSS 20b vorziehen?

Wählen Sie Qwen3 30b, wenn Sie eine bessere Befehlsfolge, kreative oder mehrsprachige Ausgaben, komplexe Reasoning-Aufgaben oder einen längeren Kontext (z. B. bis zu 262K Tokens) benötigen. Wählen Sie GPT-OSS 20b, wenn Geschwindigkeit und niedrigerer VRAM-Verbrauch auf Consumer-Hardware im Vordergrund stehen.

Welche VRAM-Anforderungen haben Qwen3 30b und GPT-OSS 20b?

Qwen3 30B (A3B) kann mit 16 GB VRAM und CPU-Offload betrieben werden (z. B. Modellgröße ca. 20 GB). GPT-OSS 20B passt komfortabler auf eine 16-GB-GPU (z. B. ca. 14 GB zugewiesen) und kann vollständig auf der GPU ausgeführt werden.

Wo finde ich weitere Informationen zu LLM-Leistung und Benchmarks?

Unser LLM-Leistungs-Hub behandelt Durchsatz und Latenz, VRAM-Grenzen, parallele Anfragen sowie Benchmarks über verschiedene Laufzeiten und Hardwareplattformen hinweg.

Vergleich: Qwen3:30b vs. GPT-OSS:20b

Vergleich von Geschwindigkeit, Parametern und Leistung dieser beiden Modelle

Inhaltsverzeichnis

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b, der sich auf die Befehlsausführung und Leistungsparameter, Spezifikationen und Geschwindigkeit konzentriert.

Weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware finden Sie unter LLM-Leistung: Benchmarks, Engpässe & Optimierung.

7 llamas

Für Standardsampling-Einstellungen im Agenten-Loop für die neuere Qwen-Reihe (einschließlich Strafen und Vorlagen für Denken versus Codierung) konsolidieren Sie die Parameter bitte mit Agenten-Inferenzparameter für Qwen und Gemma.

Architektur und Parameter

Feature	Qwen3:30b-instruct	GPT-OSS:20b
Gesamtparameter	30,5 Milliarden	21 Milliarden
Aktivierte Parameter	~3,3 Milliarden	~3,6 Milliarden
Anzahl der Schichten	48	24
MoE-Experten pro Schicht	128 (8 aktiv pro Token)	32 (4 aktiv pro Token)
Aufmerksamkeitsmechanismus	Grouped Query Attention (32Q /4KV)	Grouped Multi-Query Attention (64Q /8KV)
Kontextfenster	32.768 nativ; bis zu 262.144 erweitert	128.000 Tokens
Tokenizer	BPE-basiert, 151.936 Vokabeln	GPT-basiert, ≈ 200k Vokabeln

Befehlsausführung (Instruction Following)

Qwen3:30b-instruct ist für die Befehlsausführung optimiert und weist eine starke Ausrichtung an menschlichen Präferenzen auf. Es glänzt in kreativem Schreiben, Rollenspielen, mehrstufigen Dialogen und der Befehlsausführung in mehreren Sprachen. Diese Variante wurde speziell feinjustiert, um natürlichere, kontrolliertere und ansprechendere Antworten zu liefern, die mit den Anweisungen des Benutzers übereinstimmen.
GPT-OSS:20b unterstützt die Befehlsausführung, wird jedoch im Bereich der differenzierten Befehlsjustierung (Instruction Tuning) im Allgemeinen leicht hinter Qwen3:30b-instruct eingestuft. Es bietet vergleichbare Funktionen für Function Calling, strukturierte Ausgabe und Reasoning-Modi, kann jedoch in der konversationellen Ausrichtung und kreativen Dialogführung hinterherhinken.

Leistung und Effizienz

Qwen3:30b-instruct glänzt in mathematischer Reasoning, Codierung, komplexen logischen Aufgaben und mehrsprachigen Szenarien, die 119 Sprachen und Dialekte abdecken. Sein „Denk-Modus“ ermöglicht erweitertes Reasoning, bringt jedoch höhere Speicherkosten mit sich.
GPT-OSS:20b erreicht eine Leistung, die mit OpenAIs o3-mini-Modell vergleichbar ist. Es verwendet weniger Schichten, aber breitere Experten pro Schicht und native MXFP4-Quantisierung für eine effiziente Inferenz auf Consumer-Hardware mit geringeren Speicheranforderungen (~16 GB gegenüber höher bei Qwen3).
GPT-OSS ist auf bestimmten Hardware-Setups, insbesondere auf Consumer-GPUs, etwa 33 % speichereffizienter und schneller, aber Qwen3 bietet oft eine bessere Ausrichtung und Reasoning-Tiefe, besonders bei komplexen Anwendungsfällen.
Qwen3 hat eine längere verfügbare erweiterte Kontextlängenoption (bis zu 262.144 Tokens) im Vergleich zu GPT-OSS mit 128.000 Tokens, was Aufgaben zugutekommt, die ein Verständnis sehr langer Kontexte erfordern.

Nutzungsempfehlung

Wählen Sie Qwen3:30b-instruct für Anwendungsfälle, die eine überlegene Befehlsausführung, kreative Generierung, mehrsprachige Unterstützung und komplexes Reasoning erfordern.
Wählen Sie GPT-OSS:20b, wenn Speichereffizienz, Inferenzgeschwindigkeit auf Consumer-Hardware und wettbewerbsfähige Basisleistung mit weniger Parametern priorisiert werden.

Dieser Vergleich hebt Qwen3:30b-instruct als ein tieferes, leistungsfähigeres Modell mit fortschrittlicher Befehlsjustierung hervor, während GPT-OSS:20b eine kompaktere, effizientere Alternative mit wettbewerbsfähiger Leistung bei Standard-Benchmarks bietet.

Benchmark-Werte, die Qwen3:30b-instruct und GPT-OSS:20b spezifisch für die Befehlsausführung und Schlüsselleistungsparameter (MMLU, LMEval, HumanEval) vergleichen, sind in den Suchergebnissen nicht direkt verfügbar. Basierend auf vorhandenen veröffentlichten mehrsprachigen und multitask-Benchmark-Berichten ergeben sich jedoch folgende Erkenntnisse:

MMLU (Massive Multitask Language Understanding)

Die Details sind schwer zu finden, zusammengefasst:

Qwen3-Serienmodelle, insbesondere im 30B-Bereich und darüber hinaus, zeigen starke MMLU-Werte, die typischerweise 89 % überschreiten, was auf sehr wettbewerbsfähige Wissensverständnis- und Reasoning-Fähigkeiten über 57 verschiedene Domänen hinweg hinweist.
GPT-OSS:20b schneidet bei MMLU-Benchmarks ebenfalls gut ab, erzielt jedoch aufgrund der geringeren Parameteranzahl und des geringeren Fokus auf Befehls-Feinjustierung in der Regel niedrigere Werte als größere Qwen-Modelle.

LMEval (Language Model Evaluation Toolkit)

Derzeit wenig Details verfügbar:

Qwen3-Modelle zeigen signifikante Verbesserungen in Reasoning- und codebezogenen Aufgaben innerhalb von LMEval, mit verbesserten Werten bei Logik, mathematischem Reasoning und allgemeinen Fähigkeiten.
GPT-OSS:20b bietet eine robuste Basisleistung bei LMEval, hinkt aber bei fortgeschrittenem Reasoning und Befehlsausführung-Unteraufgaben im Allgemeinen hinter Qwen3:30b-instruct her.

HumanEval (Code Generation Benchmark)

Wenig Daten verfügbar, zusammengefasst:

Qwen3:30b-instruct zeigt starke Leistungen bei mehrsprachigen Code-Generierungs-Benchmarks wie HumanEval-XL, unterstützt über 20 Programmiersprachen und bietet eine überlegene Genauigkeit bei der cross-lingualen Code-Generierung.
GPT-OSS:20b schneidet zwar wettbewerbsfähig ab, erreicht aber in HumanEval-Benchmarks, insbesondere in mehrsprachigen und multi-language-Programmierungskontexten, aufgrund weniger umfangreicher mehrsprachiger Trainingsdaten etwas niedrigere Werte als Qwen3:30b-instruct.

Zusammenfassungstabelle (ungefähre Trends aus der Literatur):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Hinweise
MMLU Genauigkeit	~89-91%	~80-85%	Qwen3 stärker in breitem Wissen und Reasoning
LMEval Scores	Hoch, fortgeschrittenes Reasoning & Code	Moderat, Basis-Reasoning	Qwen3 glänzt in Mathematik und Logik
HumanEval	Hohe Performance bei mehrsprachiger Code-Generierung	Moderat	Qwen3 besser in cross-lingualer Code-Generierung

Wenn exakte Benchmark-Zahlen benötigt werden, bieten spezialisierte mehrsprachige Großbenchmarks wie P-MMEval und HumanEval-XL, die in jüngsten Forschungsarbeiten erwähnt werden, detaillierte Scores für Modelle einschließlich Qwen3 und vergleichbarer GPT-OSS-Varianten, diese sind jedoch derzeit nicht öffentlich für einen direkten Seiten-zu-Seiten-Vergleich der Scores aufbereitet.

Geschwindigkeitsvergleich Qwen3:30b und GPT-OSS:20b

Auf meiner Hardware (16GB VRAM) erhalte ich mit Qwen3:30b und GPT-OSS:20b bei einem Kontextfenster von 4000 folgende Ergebnisse:

qwen3:30b-a3b => 45,68 Tokens/s
gpt-oss:20b => 129,52 Tokens/s

Zum Vergleich habe ich auch qwen3:14b und gpt-oss:120b getestet:

qwen3:14b => 60,12 Tokens/s
gpt-oss:120b => 12,87 Tokens/s

Bei längeren Kontextfenstern wird die Geschwindigkeit langsamer sein, im Fall von qwen3:30b-a3b wahrscheinlich deutlich langsamer. Dies gilt wiederum für meinen PC. Technische Details wurden aus der ausführlichen Ausgabe entnommen, die zugewiesene Speicherkapazität ist unten dargestellt. Befehle zum Ausprobieren:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps zeigt die Speicherallokation bei 4K Kontext

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b Varianten

Es sind drei Varianten des qwen3:30b-Modells verfügbar: qwen3:30b, qwen3:30b-instruct und qwen3:30b-thinking.

Hauptunterschiede & Empfehlungen

qwen3:30b-instruct ist am besten für Konversationen geeignet, bei denen Benutzeranweisungen, Klarheit und natürlicher Dialog priorisiert werden.
qwen3:30b ist das allgemeine Foundation-Modell, geeignet, wenn sowohl Befehlsausführung als auch Tool-Nutzung bei unterschiedlichsten Aufgaben wichtig sind.
qwen3:30b-thinking glänzt, wenn tiefes Reasoning, Mathematik und Codierung im Vordergrund stehen. Es übertrifft die anderen bei Aufgaben, die logische/mathematische Strenge messen, ist aber nicht unbedingt besser für kreatives Schreiben oder lockere Konversationen.

Direkter Benchmark-Vergleich

Modell	Reasoning (AIME25)	Coding (LiveCodeBench)	Allgemeines Wissen (MMLU Redux)	Geschwindigkeit & Kontext	Idealer Verwendungszweck
qwen3:30b	70,9	57,4	89,5	256K Tokens; Schnell	Allgemeine Sprache/Agenten/Mehrsprachig
qwen3:30b-instruct	N/A (Erwartet in der Nähe von 30b)	N/A	~Wie 30b	256K Tokens	Befehlsausführung, Alignment
qwen3:30b-thinking	85,0	66,0	91,4	256K Tokens	Mathematik, Code, Reasoning, lange Dokumente

Für weitere Benchmarks, Hardware-Entscheidungen und Leistungsoptimierungen schauen Sie in unsere LLM-Leistung: Benchmarks, Engpässe & Optimierung Hub.