Porównanie: Qwen3:30b vs GPT-OSS:20b
Porównanie szybkości, parametrów i wydajności tych dwóch modeli
Oto porównanie modeli Qwen3:30b i GPT-OSS:20b ze szczególnym uwzględnieniem zdolności do podążania za instrukcjami, parametrów wydajnościowych, specyfikacji technicznych oraz prędkości działania.
Więcej informacji na temat przepustowości, opóźnień, pamięci VRAM oraz wyników benchmarków dla różnych środowisk uruchomieniowych i sprzętu znajdziesz w artykule Wydajność LLM: Benchmarki, wąskie gardła i optymalizacja.

Domyślne ustawienia próbkowania dla nowszych modeli z linii Qwen (w tym kary oraz predefiniowane ustawienia trybu „myślenia” vs kodowania) w kontekście pętli agencji zostały zebrane w artykule Parametry wnioskowania dla agentów w modelach Qwen i Gemma.
Architektura i parametry
| Cecha | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Łączna liczba parametrów | 30,5 miliarda | 21 miliardów |
| Aktywowane parametry | ~3,3 miliarda | ~3,6 miliarda |
| Liczba warstw | 48 | 24 |
| Eksperci MoE na warstwę | 128 (8 aktywnych na token) | 32 (4 aktywne na token) |
| Mechanizm uwagi | Grouped Query Attention (32Q /4KV) | Grouped Multi-Query Attention (64Q /8KV) |
| Okno kontekstowe | 32 768 natywnie; do 262 144 rozszerzone | 128 000 tokenów |
| Tokenizator | Oparty na BPE, słownictwo 151 936 | Oparty na GPT, ≈ 200 tys. słownictwa |
Podążanie za instrukcjami
- Qwen3:30b-instruct jest zoptymalizowany pod kątem podążania za instrukcjami z silnym dostosowaniem do preferencji ludzkich. Doskonale radzi sobie w pisaniu twórczym, odgrywaniu ról, dialogach wieloturnowych oraz podążaniu za instrukcjami w wielu językach. Ta wersja została specyficznie dostrojona, aby dostarczać bardziej naturalne, kontrolowane i angażujące odpowiedzi zgodne z instrukcjami użytkownika.
- GPT-OSS:20b obsługuje podążanie za instrukcjami, ale w subtelnych aspektach dostrojenia do instrukcji ocenia się go nieco gorzej niż Qwen3:30b-instruct. Oferuje porównywalne funkcje wywoływania funkcji, strukturyzowane wyjścia i tryby rozumowania, ale może przegrywać w wyrównaniu konwersacyjnym i dialogach twórczych.
Wydajność i efektywność
- Qwen3:30b-instruct wykazuje doskonałe wyniki w rozumowaniu matematycznym, kodowaniu, złożonych zadaniach logicznych oraz w scenariuszach wielojęzycznych obejmujących 119 języków i dialektów. Jego tryb „myślenia” umożliwia lepsze rozumowanie, ale wiąże się z wyższym zużyciem pamięci.
- GPT-OSS:20b osiąga wydajność porównywalną z modelem OpenAI o3-mini. Wykorzystuje mniejszą liczbę warstw, ale szerszych ekspertów na warstwę oraz natywną kwantyzację MXFP4 dla efektywnego wnioskowania na sprzęcie konsumenckim przy mniejszych wymaganiach pamięciowych (~16 GB w porównaniu do wyższych wymagań Qwen3).
- GPT-OSS jest około 33% bardziej efektywny pod względem pamięci i szybszy na niektórych konfiguracjach sprzętowych, zwłaszcza na kartach graficznych konsumenckich, jednak Qwen3 często zapewnia lepsze wyrównanie i głębsze rozumowanie, szczególnie w złożonych przypadkach użycia.
- Qwen3 oferuje dłuższą dostępną opcję rozszerzonego kontekstu (do 262 144 tokenów) w porównaniu do 128 000 tokenów w GPT-OSS, co jest korzystne dla zadań wymagających zrozumienia bardzo długiego kontekstu.
Rekomendacje dotyczące użycia
- Wybierz Qwen3:30b-instruct w przypadkach wymagających doskonałego podążania za instrukcjami, generowania twórczego, obsługi wielu języków oraz złożonego rozumowania.
- Wybierz GPT-OSS:20b, jeśli priorytetem jest efektywność pamięciowa, szybkość wnioskowania na sprzęcie konsumenckim oraz konkurencyjna wydajność bazowa przy mniejszej liczbie parametrów.
To porównanie podkreśla Qwen3:30b-instruct jako głębszy i bardziej potężny model zaawansowanym dostrojeniem do instrukcji, podczas gdy GPT-OSS:20b oferuje bardziej zwartą i efektywną alternatywę z konkurencyjną wydajnością w standardowych benchmarkach.
Wyniki benchmarków bezpośrednio porównujące Qwen3:30b-instruct i GPT-OSS:20b pod kątem podążania za instrukcjami oraz kluczowych parametrów wydajnościowych (MMLU, LMEval, HumanEval) nie są bezpośrednio dostępne w wynikach wyszukiwania. Jednakże, na podstawie istniejących opublikowanych raportów benchmarków wielozadaniowych i wielojęzycznych:
MMLU (Massive Multitask Language Understanding)
Trudno znaleźć szczegółowe dane, dostępne są jedynie:
- Modele z serii Qwen3, szczególnie w skali 30B i wyżej, demonstrują silne wyniki w MMLU, zwykle przekraczające 89%, co wskazuje na bardzo konkurencyjne zdolności do zrozumienia wiedzy i rozumowania w 57 zróżnicowanych domenach.
- GPT-OSS:20b również osiąga dobre wyniki w benchmarkach MMLU, ale zazwyczaj uzyskuje niższe wyniki niż większe modele Qwen ze względu na mniejszą liczbę parametrów i mniejszy nacisk na dostrojenie do instrukcji.
LMEval (Language Model Evaluation Toolkit)
Na razie mało szczegółów:
- Modele Qwen3 pokazują znaczną poprawę w zadaniach związanych z rozumowaniem i kodowaniem w ramach LMEval, z wyższymi wynikami w logice, rozumowaniu matematycznym i ogólnych możliwościach.
- GPT-OSS:20b zapewnia solidną wydajność bazową w LMEval, ale ogólnie przegrywa z Qwen3:30b-instruct w zaawansowanych zadaniach rozumowania i podążania za instrukcjami.
HumanEval (Code Generation Benchmark)
Mało danych, jedynie:
- Qwen3:30b-instruct wykazuje silną wydajność w benchmarkach generowania kodu wielojęzycznego, takich jak HumanEval-XL, obsługując ponad 20 języków programowania i zapewniając wyższą dokładność generowania kodu międzyjęzykowego.
- GPT-OSS:20b, choć konkurencyjny, osiąga nieco gorsze wyniki niż Qwen3:30b-instruct w benchmarkach HumanEval, szczególnie w kontekście wielojęzycznym i wielojęzykowym programowania, ze względu na mniej obszerne szkolenie wielojęzyczne.
Tabela podsumowująca (przybliżone trendy z literatury):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Uwagi |
|---|---|---|---|
| Dokładność MMLU | ~89-91% | ~80-85% | Qwen3 silniejszy w szerokiej wiedzy i rozumowaniu |
| Wyniki LMEval | Wysokie, zaawansowane rozumowanie i kod | Umiarkowane, rozumowanie bazowe | Qwen3 excels w matematyce i logice |
| HumanEval | Wysoka wydajność generowania kodu wielojęzycznego | Umiarkowana | Qwen3 lepszy w generowaniu kodu międzyjęzykowego |
Jeśli potrzebne są dokładne liczby z benchmarków, specjalizowane wielojęzyczne benchmarky dużych modeli, takie jak P-MMEval i HumanEval-XL wymienione w ostatnich publikacjach badawczych, dostarczają szczegółowych wyników dla modeli, w tym Qwen3 i porównywalnych wariantów GPT-OSS, ale nie są one publicznie dostępne w formie umożliwiającej bezpośrednie pobieranie wyników w formie porównawczej w tym czasie.
Porównanie szybkości Qwen3:30b i GPT-OSS:20b
Na moim sprzęcie (16 GB VRAM) modele Qwen3:30b i GPT-OSS:20b działają z oknem kontekstu 4000 i generują:
- qwen3:30b-a3b => 45,68 tokenów/s
- gpt-oss:20b => 129,52 tokenów/s
Do porównania przetestowałem również modele qwen3:14b i gpt-oss:120b:
- qwen3:14b => 60,12 tokenów/s
- gpt-oss:120b => 12,87 tokenów/s
Na dłuższych oknach kontekstu prędkość będzie wolniejsza, w przypadku qwen3:30b-a3b prawdopodobnie znacznie wolniejsza. Oczywiście dotyczy to mojego komputera. Szczegóły techniczne pobrane z wyjścia werbalnego oraz przydzielona pamięć znajdują się poniżej, polecenia do przetestowania:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps pokazująca alokację pamięci przy kontekście 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Warianty Qwen3:30b
Dostępne są trzy warianty modelu qwen3:30b: qwen3:30b, qwen3:30b-instruct oraz qwen3:30b-thinking.
Kluczowe różnice i rekomendacje
- qwen3:30b-instruct jest najlepszy w rozmowach, gdzie priorytetem są instrukcje użytkownika, jasność przekazu i naturalny dialog.
- qwen3:30b to model bazowy, odpowiedni, jeśli zarówno podążanie za instrukcjami, jak i używanie narzędzi są ważne w różnych zadaniach.
- qwen3:30b-thinking excels, gdy głównym fokusem jest głębokie rozumowanie, matematyka i kodowanie. Przewyższa inne w zadaniach mierzących rygor logiczny i matematyczny, ale niekoniecznie jest lepszy w pisaniu twórczym czy casualowych rozmowach.
Bezpośrednie porównanie benchmarków
| Model | Rozumowanie (AIME25) | Kodowanie (LiveCodeBench) | Ogólna wiedza (MMLU Redux) | Szybkość i kontekst | Idealne zastosowanie |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K tokenów; Szybki | Ogólny język/agent/wielojęzyczność |
| qwen3:30b-instruct | N/A (Oczekiwane blisko 30b) | N/A | ~Tak samo jak 30b | 256K tokenów | Podążanie za instrukcjami, wyrównanie |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K tokenów | Matematyka, kod, rozumowanie, długie dokumenty |
Więcej benchmarków, wyborów sprzętowych i optymalizacji wydajności znajdziesz w naszym hubie Wydajność LLM: Benchmarki, wąskie gardła i optymalizacja.
Przydatne linki
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Instalacja i konfiguracja Ollama
- Ściągawka Ollama - najprzydatniejsze polecenia
- Ograniczanie LLM za pomocą strukturyzowanego wyjścia: Ollama, Qwen3 oraz Python lub Go
- Integracja Ollama z Pythonem: przykłady REST API i klienta Pythona