Vergleich: Qwen3:30b vs GPT-OSS:20b
Geschwindigkeit, Parameter und Leistung dieser beiden Modelle im Vergleich
Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b mit Fokus auf Befolgung von Anweisungen und Leistungsparametern, Spezifikationen und Geschwindigkeit:
Architektur und Parameter
Merkmal | Qwen3:30b-instruct | GPT-OSS:20b |
---|---|---|
Gesamtparameter | 30,5 Milliarden | 21 Milliarden |
Aktivierte Parameter | ~3,3 Milliarden | ~3,6 Milliarden |
Anzahl der Schichten | 48 | 24 |
MoE-Experten pro Schicht | 128 (8 aktiv pro Token) | 32 (4 aktiv pro Token) |
Aufmerksamkeitsmechanismus | Grouped Query Attention (32Q /4KV) | Grouped Multi-Query Attention (64Q /8KV) |
Kontextfenster | 32.768 nativ; Bis zu 262.144 erweitert | 128.000 Tokens |
Tokenizer | BPE-basiert, 151.936 Vokabular | GPT-basiert, ≈ 200k Vokabular |
Befolgung von Anweisungen
- Qwen3:30b-instruct ist für die Befolgung von Anweisungen optimiert mit starker menschlicher Präferenzausrichtung. Es glänzt in kreativem Schreiben, Rollenspielen, mehrstufigen Dialogen und mehrsprachiger Anweisungsbefolgung. Diese Variante ist speziell feinabgestimmt, um natürlichere, kontrolliertere und ansprechendere Antworten zu liefern, die mit den Anweisungen des Nutzers übereinstimmen.
- GPT-OSS:20b unterstützt die Befolgung von Anweisungen, wird aber allgemein etwas hinter Qwen3:30b-instruct in der nuancierten Anweisungsabstimmung eingestuft. Es bietet vergleichbare Funktionsaufrufe, strukturierte Ausgaben und Denkmodi, kann aber in der Gesprächsausrichtung und kreativen Dialogführung zurückbleiben.
Leistung und Effizienz
- Qwen3:30b-instruct glänzt in mathematischer Logik, Programmierung, komplexen logischen Aufgaben und mehrsprachigen Szenarien, die 119 Sprachen und Dialekte abdecken. Sein „Denkmodus“ ermöglicht verbesserte Logik, geht aber mit höheren Speicherkosten einher.
- GPT-OSS:20b erreicht eine Leistung, die mit dem OpenAI o3-mini-Modell vergleichbar ist. Es verwendet weniger Schichten, aber breitere Experten pro Schicht und native MXFP4-Quantisierung für effiziente Inferenz auf Consumer-Hardware mit geringeren Speicheranforderungen (~16GB vs. höher für Qwen3).
- GPT-OSS ist etwa 33 % speichereffizienter und schneller auf bestimmten Hardware-Konfigurationen, insbesondere auf Consumer-GPUs, aber Qwen3 bietet oft eine bessere Ausrichtung und logische Tiefe, insbesondere bei komplexen Anwendungsfällen.
- Qwen3 hat eine längere verfügbare erweiterte Kontextlängenoption (bis zu 262.144 Tokens) im Vergleich zu GPT-OSS mit 128.000 Tokens, was Aufgaben zugutekommt, die ein sehr langes Kontextverständnis erfordern.
Nutzungsempfehlung
- Wählen Sie Qwen3:30b-instruct für Anwendungsfälle, die überlegene Befolgung von Anweisungen, kreative Erzeugung, mehrsprachige Unterstützung und komplexe Logik erfordern.
- Wählen Sie GPT-OSS:20b, wenn Speichereffizienz, Inference-Geschwindigkeit auf Consumer-Hardware und wettbewerbsfähige Grundleistungen mit weniger Parametern Priorität haben.
Dieser Vergleich hebt Qwen3:30b-instruct als tieferes, leistungsfähigeres Modell mit fortschrittlicher Anweisungsabstimmung hervor, während GPT-OSS:20b eine kompaktere, effizientere Alternative mit wettbewerbsfähiger Leistung auf Standardbenchmarks bietet.
Benchmark-Ergebnisse, die speziell Qwen3:30b-instruct und GPT-OSS:20b für die Befolgung von Anweisungen und wichtige Leistungsparameter (MMLU, LMEval, HumanEval) vergleichen, sind in den Suchergebnissen nicht direkt verfügbar. Basierend auf bestehenden veröffentlichten mehrsprachigen und mehrtaskorientierten Benchmark-Berichten:
MMLU (Massive Multitask Language Understanding)
Schwierig, die Details zu finden, nur:
- Qwen3-Serienmodelle, insbesondere ab 30B-Skala, zeigen starke MMLU-Ergebnisse, die typischerweise über 89 % liegen, was auf sehr wettbewerbsfähige Wissensverarbeitung und logische Fähigkeiten über 57 verschiedene Domänen hinweg hinweist.
- GPT-OSS:20b schneidet ebenfalls gut in MMLU-Benchmarks ab, erzielt aber aufgrund der geringeren Parameteranzahl und weniger Betonung der Anweisungsfeinabstimmung in der Regel niedrigere Werte als größere Qwen-Modelle.
LMEval (Language Model Evaluation Toolkit)
Nicht viele Details vorhanden:
- Qwen3-Modelle zeigen signifikante Verbesserungen bei logischen und codebezogenen Aufgaben innerhalb von LMEval, mit verbesserten Werten bei Logik, mathematischer Logik und allgemeinen Fähigkeiten.
- GPT-OSS:20b bietet robuste Grundleistungen in LMEval, liegt aber im Allgemeinen hinter Qwen3:30b-instruct bei fortgeschrittenen logischen und Anweisungsbefolgungs-Unteraufgaben.
HumanEval (Code-Generierungs-Benchmark)
Nicht viele Daten vorhanden, nur:
- Qwen3:30b-instruct zeigt starke Leistungen bei mehrsprachigen Code-Generierungs-Benchmarks wie HumanEval-XL, unterstützt über 20 Programmiersprachen und bietet überlegene Genauigkeit bei der mehrsprachigen Code-Generierung.
- GPT-OSS:20b, obwohl wettbewerbsfähig, schneidet etwas schlechter als Qwen3:30b-instruct in HumanEval-Benchmarks ab, insbesondere in mehrsprachigen und mehrsprachigen Programmierkontexten aufgrund weniger umfangreicher mehrsprachiger Schulungen.
Zusammenfassungstabelle (ungefähre Trends aus der Literatur):
Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Anmerkungen |
---|---|---|---|
MMLU-Genauigkeit | ~89-91% | ~80-85% | Qwen3 ist stärker in breitem Wissen und Logik |
LMEval-Werte | Hoch, fortgeschrittene Logik & Code | Mäßig, Grundlogik | Qwen3 glänzt in Mathematik und Logik |
HumanEval | Hohe mehrsprachige Code-Generierungsleistung | Mäßig | Qwen3 ist besser in mehrsprachiger Code-Generierung |
Falls genaue Benchmark-Zahlen benötigt werden, bieten spezialisierte mehrsprachige Large-Scale-Benchmarks wie P-MMEval und HumanEval-XL, die in aktuellen Forschungsarbeiten referenziert werden, detaillierte Werte für Modelle einschließlich Qwen3 und vergleichbare GPT-OSS-Varianten. Diese sind jedoch nicht öffentlich für direkte Seite-an-Seite-Wert-Retrieval-Konfigurationen verfügbar.
Qwen3:30b und GPT-OSS:20b Geschwindigkeitsvergleich
Auf meiner Hardware (16GB VRAM) laufen Qwen3:30b und GPT-OSS:20b mit einem 4000 Kontext Fenster und erzeugen:
- qwen3:30b-a3b => 45,68 Tokens/s
- gpt-oss:20b => 129,52 Tokens/s
Zum Vergleich habe ich auch qwen3:14b und gpt-oss:120b getestet
- qwen3:14b => 60,12 Tokens/s
- gpt-oss:120b => 12,87 Tokens/s
Bei längeren Kontextfenstern wird die Geschwindigkeit langsamer, im Fall von qwen3:30b-a3b wahrscheinlich deutlich langsamer. Das ist wieder auf meinem PC. Ausführliche detaillierte Ausgabe und ollama ps mit Speicherzuweisung bei 4K Kontext ist unten aufgeführt
qwen3:30b-a3b
ollama run qwen3:30b-a3b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 Minuten ab jetzt
Gesamtdauer: 28,151133548s
Ladedauer: 1,980696196s
Prompt-Bewertungsanzahl: 16 Token(s)
Prompt-Bewertungsdauer: 162,58803ms
Prompt-Bewertungsrate: 98,41 Tokens/s
Bewertungsanzahl: 1188 Token(s)
Bewertungsdauer: 26,007424856s
Bewertungsrate: 45,68 Tokens/s
qwen3:30b-thinking
ollama run qwen3:30b-thinking --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 Minuten ab jetzt
Gesamtdauer: 1m8,317354579s
Ladedauer: 1,984986882s
Prompt-Bewertungsanzahl: 18 Token(s)
Prompt-Bewertungsdauer: 219,657034ms
Prompt-Bewertungsrate: 81,95 Tokens/s
Bewertungsanzahl: 2722 Token(s)
Bewertungsdauer: 1m6,11230524s
Bewertungsrate: 41,17 Tokens/s
gpt-oss:20b
ollama run gpt-oss:20b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 Minuten ab jetzt
Gesamtdauer: 31,505397616s
Ladedauer: 13,744361948s
Prompt-Bewertungsanzahl: 75 Token(s)
Prompt-Bewertungsdauer: 249,363069ms
Prompt-Bewertungsrate: 300,77 Tokens/s
Bewertungsanzahl: 2268 Token(s)
Bewertungsdauer: 17,510262884s
Bewertungsrate: 129,52 Tokens/s
qwen3:14b
ollama run qwen3:14b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 Minuten ab jetzt
Gesamtdauer: 36,902729562s
Ladedauer: 38,669074ms
Prompt-Bewertungsanzahl: 18 Token(s)
Prompt-Bewertungsdauer: 35,321423ms
Prompt-Bewertungsrate: 509,61 Tokens/s
Bewertungsanzahl: 2214 Token(s)
Bewertungsdauer: 36,828268069s
Bewertungsrate: 60,12 Tokens/s
gpt-oss:120b
ollama run gpt-oss:120b --verbose describe weather difference between state capitals in australia
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 Minuten ab jetzt
49GB RAM + 14,4GB VRAM
Gesamtdauer: 3m59,967272019s
Ladedauer: 76,758783ms
Prompt-Bewertungsanzahl: 75 Token(s)
Prompt-Bewertungsdauer: 297,312854ms
Prompt-Bewertungsrate: 252,26 Tokens/s
Bewertungsanzahl: 3084 Token(s)
Bewertungsdauer: 3m59,592764501s
Bewertungsrate: 12,87 Tokens/s
Qwen3:30b Varianten
Es gibt drei Varianten des qwen3:30b-Modells, die verfügbar sind: qwen3:30b, qwen3:30b-instruct und qwen3:30b-thinking.
Wichtige Unterschiede & Empfehlungen
- qwen3:30b-instruct ist am besten für Gespräche, bei denen Benutzeranweisungen, Klarheit und natürlicher Dialog im Vordergrund stehen.
- qwen3:30b ist die allgemeine Grundlage, geeignet, wenn sowohl das Befolgen von Anweisungen als auch die Nutzung von Tools für vielfältige Aufgaben wichtig sind.
- qwen3:30b-thinking glänzt, wenn tiefes Denken, Mathematik und Programmierung im Mittelpunkt stehen. Es übertrifft die anderen bei Aufgaben, die logische/mathematische Strenge messen, ist aber nicht unbedingt besser für kreatives Schreiben oder lockere Gespräche.
Direkter Benchmark-Vergleich
Modell | Denken (AIME25) | Programmierung (LiveCodeBench) | Allgemeinwissen (MMLU Redux) | Geschwindigkeit & Kontext | Idealer Anwendungsfall |
---|---|---|---|---|---|
qwen3:30b | 70,9 | 57,4 | 89,5 | 256K Tokens; Schnell | Allgemeine Sprache/Agenten/Multilingual |
qwen3:30b-instruct | N/A (Geplant nahe 30b) | N/A | ~Gleich wie 30b | 256K Tokens | Befolgen von Anweisungen, Ausrichtung |
qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K Tokens | Mathematik, Code, Denken, lange Dokumente |
Nützliche Links
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- Installation und Konfiguration von Ollama
- Ollama-Cheatsheet - die nützlichsten Befehle
- Einschränkung von LLMs mit strukturierten Ausgaben: Ollama, Qwen3 & Python oder Go
- Integration von Ollama mit Python: REST-API- und Python-Client-Beispiele