Vergleich: Qwen3:30b vs GPT-OSS:20b

Geschwindigkeit, Parameter und Leistung dieser beiden Modelle im Vergleich

Inhaltsverzeichnis

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b mit Fokus auf Befolgung von Anweisungen und Leistungsparametern, Spezifikationen und Geschwindigkeit:

7 llamas

Architektur und Parameter

Merkmal Qwen3:30b-instruct GPT-OSS:20b
Gesamtparameter 30,5 Milliarden 21 Milliarden
Aktivierte Parameter ~3,3 Milliarden ~3,6 Milliarden
Anzahl der Schichten 48 24
MoE-Experten pro Schicht 128 (8 aktiv pro Token) 32 (4 aktiv pro Token)
Aufmerksamkeitsmechanismus Grouped Query Attention (32Q /4KV) Grouped Multi-Query Attention (64Q /8KV)
Kontextfenster 32.768 nativ; Bis zu 262.144 erweitert 128.000 Tokens
Tokenizer BPE-basiert, 151.936 Vokabular GPT-basiert, ≈ 200k Vokabular

Befolgung von Anweisungen

  • Qwen3:30b-instruct ist für die Befolgung von Anweisungen optimiert mit starker menschlicher Präferenzausrichtung. Es glänzt in kreativem Schreiben, Rollenspielen, mehrstufigen Dialogen und mehrsprachiger Anweisungsbefolgung. Diese Variante ist speziell feinabgestimmt, um natürlichere, kontrolliertere und ansprechendere Antworten zu liefern, die mit den Anweisungen des Nutzers übereinstimmen.
  • GPT-OSS:20b unterstützt die Befolgung von Anweisungen, wird aber allgemein etwas hinter Qwen3:30b-instruct in der nuancierten Anweisungsabstimmung eingestuft. Es bietet vergleichbare Funktionsaufrufe, strukturierte Ausgaben und Denkmodi, kann aber in der Gesprächsausrichtung und kreativen Dialogführung zurückbleiben.

Leistung und Effizienz

  • Qwen3:30b-instruct glänzt in mathematischer Logik, Programmierung, komplexen logischen Aufgaben und mehrsprachigen Szenarien, die 119 Sprachen und Dialekte abdecken. Sein „Denkmodus“ ermöglicht verbesserte Logik, geht aber mit höheren Speicherkosten einher.
  • GPT-OSS:20b erreicht eine Leistung, die mit dem OpenAI o3-mini-Modell vergleichbar ist. Es verwendet weniger Schichten, aber breitere Experten pro Schicht und native MXFP4-Quantisierung für effiziente Inferenz auf Consumer-Hardware mit geringeren Speicheranforderungen (~16GB vs. höher für Qwen3).
  • GPT-OSS ist etwa 33 % speichereffizienter und schneller auf bestimmten Hardware-Konfigurationen, insbesondere auf Consumer-GPUs, aber Qwen3 bietet oft eine bessere Ausrichtung und logische Tiefe, insbesondere bei komplexen Anwendungsfällen.
  • Qwen3 hat eine längere verfügbare erweiterte Kontextlängenoption (bis zu 262.144 Tokens) im Vergleich zu GPT-OSS mit 128.000 Tokens, was Aufgaben zugutekommt, die ein sehr langes Kontextverständnis erfordern.

Nutzungsempfehlung

  • Wählen Sie Qwen3:30b-instruct für Anwendungsfälle, die überlegene Befolgung von Anweisungen, kreative Erzeugung, mehrsprachige Unterstützung und komplexe Logik erfordern.
  • Wählen Sie GPT-OSS:20b, wenn Speichereffizienz, Inference-Geschwindigkeit auf Consumer-Hardware und wettbewerbsfähige Grundleistungen mit weniger Parametern Priorität haben.

Dieser Vergleich hebt Qwen3:30b-instruct als tieferes, leistungsfähigeres Modell mit fortschrittlicher Anweisungsabstimmung hervor, während GPT-OSS:20b eine kompaktere, effizientere Alternative mit wettbewerbsfähiger Leistung auf Standardbenchmarks bietet.

Benchmark-Ergebnisse, die speziell Qwen3:30b-instruct und GPT-OSS:20b für die Befolgung von Anweisungen und wichtige Leistungsparameter (MMLU, LMEval, HumanEval) vergleichen, sind in den Suchergebnissen nicht direkt verfügbar. Basierend auf bestehenden veröffentlichten mehrsprachigen und mehrtaskorientierten Benchmark-Berichten:

MMLU (Massive Multitask Language Understanding)

Schwierig, die Details zu finden, nur:

  • Qwen3-Serienmodelle, insbesondere ab 30B-Skala, zeigen starke MMLU-Ergebnisse, die typischerweise über 89 % liegen, was auf sehr wettbewerbsfähige Wissensverarbeitung und logische Fähigkeiten über 57 verschiedene Domänen hinweg hinweist.
  • GPT-OSS:20b schneidet ebenfalls gut in MMLU-Benchmarks ab, erzielt aber aufgrund der geringeren Parameteranzahl und weniger Betonung der Anweisungsfeinabstimmung in der Regel niedrigere Werte als größere Qwen-Modelle.

LMEval (Language Model Evaluation Toolkit)

Nicht viele Details vorhanden:

  • Qwen3-Modelle zeigen signifikante Verbesserungen bei logischen und codebezogenen Aufgaben innerhalb von LMEval, mit verbesserten Werten bei Logik, mathematischer Logik und allgemeinen Fähigkeiten.
  • GPT-OSS:20b bietet robuste Grundleistungen in LMEval, liegt aber im Allgemeinen hinter Qwen3:30b-instruct bei fortgeschrittenen logischen und Anweisungsbefolgungs-Unteraufgaben.

HumanEval (Code-Generierungs-Benchmark)

Nicht viele Daten vorhanden, nur:

  • Qwen3:30b-instruct zeigt starke Leistungen bei mehrsprachigen Code-Generierungs-Benchmarks wie HumanEval-XL, unterstützt über 20 Programmiersprachen und bietet überlegene Genauigkeit bei der mehrsprachigen Code-Generierung.
  • GPT-OSS:20b, obwohl wettbewerbsfähig, schneidet etwas schlechter als Qwen3:30b-instruct in HumanEval-Benchmarks ab, insbesondere in mehrsprachigen und mehrsprachigen Programmierkontexten aufgrund weniger umfangreicher mehrsprachiger Schulungen.
Benchmark Qwen3:30b-instruct GPT-OSS:20b Anmerkungen
MMLU-Genauigkeit ~89-91% ~80-85% Qwen3 ist stärker in breitem Wissen und Logik
LMEval-Werte Hoch, fortgeschrittene Logik & Code Mäßig, Grundlogik Qwen3 glänzt in Mathematik und Logik
HumanEval Hohe mehrsprachige Code-Generierungsleistung Mäßig Qwen3 ist besser in mehrsprachiger Code-Generierung

Falls genaue Benchmark-Zahlen benötigt werden, bieten spezialisierte mehrsprachige Large-Scale-Benchmarks wie P-MMEval und HumanEval-XL, die in aktuellen Forschungsarbeiten referenziert werden, detaillierte Werte für Modelle einschließlich Qwen3 und vergleichbare GPT-OSS-Varianten. Diese sind jedoch nicht öffentlich für direkte Seite-an-Seite-Wert-Retrieval-Konfigurationen verfügbar.

Qwen3:30b und GPT-OSS:20b Geschwindigkeitsvergleich

Auf meiner Hardware (16GB VRAM) laufen Qwen3:30b und GPT-OSS:20b mit einem 4000 Kontext Fenster und erzeugen:

  • qwen3:30b-a3b => 45,68 Tokens/s
  • gpt-oss:20b => 129,52 Tokens/s

Zum Vergleich habe ich auch qwen3:14b und gpt-oss:120b getestet

  • qwen3:14b => 60,12 Tokens/s
  • gpt-oss:120b => 12,87 Tokens/s

Bei längeren Kontextfenstern wird die Geschwindigkeit langsamer, im Fall von qwen3:30b-a3b wahrscheinlich deutlich langsamer. Das ist wieder auf meinem PC. Ausführliche detaillierte Ausgabe und ollama ps mit Speicherzuweisung bei 4K Kontext ist unten aufgeführt

qwen3:30b-a3b

ollama run qwen3:30b-a3b --verbose describe weather difference between state capitals in australia
NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 Minuten ab jetzt
Gesamtdauer:       28,151133548s
Ladedauer:        1,980696196s
Prompt-Bewertungsanzahl:    16 Token(s)
Prompt-Bewertungsdauer: 162,58803ms
Prompt-Bewertungsrate:     98,41 Tokens/s
Bewertungsanzahl:           1188 Token(s)
Bewertungsdauer:        26,007424856s
Bewertungsrate:            45,68 Tokens/s

qwen3:30b-thinking

ollama run qwen3:30b-thinking --verbose describe weather difference between state capitals in australia
NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 Minuten ab jetzt
Gesamtdauer:       1m8,317354579s
Ladedauer:        1,984986882s
Prompt-Bewertungsanzahl:    18 Token(s)
Prompt-Bewertungsdauer: 219,657034ms
Prompt-Bewertungsrate:     81,95 Tokens/s
Bewertungsanzahl:           2722 Token(s)
Bewertungsdauer:        1m6,11230524s
Bewertungsrate:            41,17 Tokens/s

gpt-oss:20b

ollama run gpt-oss:20b --verbose describe weather difference between state capitals in australia
NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 Minuten ab jetzt
Gesamtdauer:       31,505397616s
Ladedauer:        13,744361948s
Prompt-Bewertungsanzahl:    75 Token(s)
Prompt-Bewertungsdauer: 249,363069ms
Prompt-Bewertungsrate:     300,77 Tokens/s
Bewertungsanzahl:           2268 Token(s)
Bewertungsdauer:        17,510262884s
Bewertungsrate:            129,52 Tokens/s

qwen3:14b

ollama run qwen3:14b --verbose describe weather difference between state capitals in australia
NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 Minuten ab jetzt
Gesamtdauer:       36,902729562s
Ladedauer:        38,669074ms
Prompt-Bewertungsanzahl:    18 Token(s)
Prompt-Bewertungsdauer: 35,321423ms
Prompt-Bewertungsrate:     509,61 Tokens/s
Bewertungsanzahl:           2214 Token(s)
Bewertungsdauer:        36,828268069s
Bewertungsrate:            60,12 Tokens/s

gpt-oss:120b

ollama run gpt-oss:120b --verbose describe weather difference between state capitals in australia
NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 Minuten ab jetzt
49GB RAM + 14,4GB VRAM
Gesamtdauer:       3m59,967272019s
Ladedauer:        76,758783ms
Prompt-Bewertungsanzahl:    75 Token(s)
Prompt-Bewertungsdauer: 297,312854ms
Prompt-Bewertungsrate:     252,26 Tokens/s
Bewertungsanzahl:           3084 Token(s)
Bewertungsdauer:        3m59,592764501s
Bewertungsrate:            12,87 Tokens/s

Qwen3:30b Varianten

Es gibt drei Varianten des qwen3:30b-Modells, die verfügbar sind: qwen3:30b, qwen3:30b-instruct und qwen3:30b-thinking.

Wichtige Unterschiede & Empfehlungen

  • qwen3:30b-instruct ist am besten für Gespräche, bei denen Benutzeranweisungen, Klarheit und natürlicher Dialog im Vordergrund stehen.
  • qwen3:30b ist die allgemeine Grundlage, geeignet, wenn sowohl das Befolgen von Anweisungen als auch die Nutzung von Tools für vielfältige Aufgaben wichtig sind.
  • qwen3:30b-thinking glänzt, wenn tiefes Denken, Mathematik und Programmierung im Mittelpunkt stehen. Es übertrifft die anderen bei Aufgaben, die logische/mathematische Strenge messen, ist aber nicht unbedingt besser für kreatives Schreiben oder lockere Gespräche.

Direkter Benchmark-Vergleich

Modell Denken (AIME25) Programmierung (LiveCodeBench) Allgemeinwissen (MMLU Redux) Geschwindigkeit & Kontext Idealer Anwendungsfall
qwen3:30b 70,9 57,4 89,5 256K Tokens; Schnell Allgemeine Sprache/Agenten/Multilingual
qwen3:30b-instruct N/A (Geplant nahe 30b) N/A ~Gleich wie 30b 256K Tokens Befolgen von Anweisungen, Ausrichtung
qwen3:30b-thinking 85,0 66,0 91,4 256K Tokens Mathematik, Code, Denken, lange Dokumente