Jak Qwen3 30b porównuje się do GPT-OSS 20b?

Qwen3 30B generalnie oferuje lepszą zdolność do realizowania instrukcji, rozumowania oraz wydajność w językach obcych. GPT-OSS 20B jest szybszy i bardziej efektywny pod względem pamięci na konsumenckich GPU (np. o około 33% niższe zużycie VRAM i wyższa liczba tokenów na sekundę w wielu konfiguracjach).

Który model jest szybszy: Qwen3 30B czy GPT-OSS 20B?

Model GPT-OSS 20b jest zazwyczaj szybszy. Przy 16 GB VRAM i kontekście 4K GPT-OSS 20b osiąga około 130 tokenów na sekundę, podczas gdy Qwen3 30b a3b generuje około 46 tokenów na sekundę, choć dokładne wartości zależą od sprzętu oraz rozmiaru kontekstu.

Kiedy warto wybrać Qwen3 30B zamiast GPT-OSS 20B?

Wybierz model Qwen3 30b, gdy potrzebujesz lepszej zgodności z instrukcjami, twórczych lub wielojęzykowych wyników, złożonego rozumowania lub dłuższego kontekstu (np. do 262K tokenów). Wybierz model GPT-OSS 20b, gdy priorytetem jest szybkość i niższe zużycie pamięci VRAM na sprzęcie konsumenckim.

Ile VRAM potrzebują Qwen3 30b i GPT-OSS 20b?

Model Qwen3 30b a3b może działać na 16 GB VRAM przy użyciu odciążania procesora (np. model o wielkości ok. 20 GB). Model GPT-OSS 20b mieści się komfortowo na GPU z 16 GB pamięci (np. przydzielono ok. 14 GB) i może działać w całości na GPU.

Gdzie można znaleźć więcej informacji na temat wydajności i benchmarków LLM?

Nasz LLM Performance Hub obejmuje przepustowość w odniesieniu do opóźnień, limity pamięci VRAM, równoległe żądania oraz benchmarki różnych środowisk uruchomieniowych i sprzętu.

Porównanie: Qwen3:30b vs GPT-OSS:20b

Porównanie szybkości, parametrów i wydajności tych dwóch modeli

Page content

Oto porównanie modeli Qwen3:30b i GPT-OSS:20b ze szczególnym uwzględnieniem zdolności do podążania za instrukcjami, parametrów wydajnościowych, specyfikacji technicznych oraz prędkości działania.

Więcej informacji na temat przepustowości, opóźnień, pamięci VRAM oraz wyników benchmarków dla różnych środowisk uruchomieniowych i sprzętu znajdziesz w artykule Wydajność LLM: Benchmarki, wąskie gardła i optymalizacja.

7 llamas

Domyślne ustawienia próbkowania dla nowszych modeli z linii Qwen (w tym kary oraz predefiniowane ustawienia trybu „myślenia” vs kodowania) w kontekście pętli agencji zostały zebrane w artykule Parametry wnioskowania dla agentów w modelach Qwen i Gemma.

Architektura i parametry

Cecha	Qwen3:30b-instruct	GPT-OSS:20b
Łączna liczba parametrów	30,5 miliarda	21 miliardów
Aktywowane parametry	~3,3 miliarda	~3,6 miliarda
Liczba warstw	48	24
Eksperci MoE na warstwę	128 (8 aktywnych na token)	32 (4 aktywne na token)
Mechanizm uwagi	Grouped Query Attention (32Q /4KV)	Grouped Multi-Query Attention (64Q /8KV)
Okno kontekstowe	32 768 natywnie; do 262 144 rozszerzone	128 000 tokenów
Tokenizator	Oparty na BPE, słownictwo 151 936	Oparty na GPT, ≈ 200 tys. słownictwa

Podążanie za instrukcjami

Qwen3:30b-instruct jest zoptymalizowany pod kątem podążania za instrukcjami z silnym dostosowaniem do preferencji ludzkich. Doskonale radzi sobie w pisaniu twórczym, odgrywaniu ról, dialogach wieloturnowych oraz podążaniu za instrukcjami w wielu językach. Ta wersja została specyficznie dostrojona, aby dostarczać bardziej naturalne, kontrolowane i angażujące odpowiedzi zgodne z instrukcjami użytkownika.
GPT-OSS:20b obsługuje podążanie za instrukcjami, ale w subtelnych aspektach dostrojenia do instrukcji ocenia się go nieco gorzej niż Qwen3:30b-instruct. Oferuje porównywalne funkcje wywoływania funkcji, strukturyzowane wyjścia i tryby rozumowania, ale może przegrywać w wyrównaniu konwersacyjnym i dialogach twórczych.

Wydajność i efektywność

Qwen3:30b-instruct wykazuje doskonałe wyniki w rozumowaniu matematycznym, kodowaniu, złożonych zadaniach logicznych oraz w scenariuszach wielojęzycznych obejmujących 119 języków i dialektów. Jego tryb „myślenia” umożliwia lepsze rozumowanie, ale wiąże się z wyższym zużyciem pamięci.
GPT-OSS:20b osiąga wydajność porównywalną z modelem OpenAI o3-mini. Wykorzystuje mniejszą liczbę warstw, ale szerszych ekspertów na warstwę oraz natywną kwantyzację MXFP4 dla efektywnego wnioskowania na sprzęcie konsumenckim przy mniejszych wymaganiach pamięciowych (~16 GB w porównaniu do wyższych wymagań Qwen3).
GPT-OSS jest około 33% bardziej efektywny pod względem pamięci i szybszy na niektórych konfiguracjach sprzętowych, zwłaszcza na kartach graficznych konsumenckich, jednak Qwen3 często zapewnia lepsze wyrównanie i głębsze rozumowanie, szczególnie w złożonych przypadkach użycia.
Qwen3 oferuje dłuższą dostępną opcję rozszerzonego kontekstu (do 262 144 tokenów) w porównaniu do 128 000 tokenów w GPT-OSS, co jest korzystne dla zadań wymagających zrozumienia bardzo długiego kontekstu.

Rekomendacje dotyczące użycia

Wybierz Qwen3:30b-instruct w przypadkach wymagających doskonałego podążania za instrukcjami, generowania twórczego, obsługi wielu języków oraz złożonego rozumowania.
Wybierz GPT-OSS:20b, jeśli priorytetem jest efektywność pamięciowa, szybkość wnioskowania na sprzęcie konsumenckim oraz konkurencyjna wydajność bazowa przy mniejszej liczbie parametrów.

To porównanie podkreśla Qwen3:30b-instruct jako głębszy i bardziej potężny model zaawansowanym dostrojeniem do instrukcji, podczas gdy GPT-OSS:20b oferuje bardziej zwartą i efektywną alternatywę z konkurencyjną wydajnością w standardowych benchmarkach.

Wyniki benchmarków bezpośrednio porównujące Qwen3:30b-instruct i GPT-OSS:20b pod kątem podążania za instrukcjami oraz kluczowych parametrów wydajnościowych (MMLU, LMEval, HumanEval) nie są bezpośrednio dostępne w wynikach wyszukiwania. Jednakże, na podstawie istniejących opublikowanych raportów benchmarków wielozadaniowych i wielojęzycznych:

MMLU (Massive Multitask Language Understanding)

Trudno znaleźć szczegółowe dane, dostępne są jedynie:

Modele z serii Qwen3, szczególnie w skali 30B i wyżej, demonstrują silne wyniki w MMLU, zwykle przekraczające 89%, co wskazuje na bardzo konkurencyjne zdolności do zrozumienia wiedzy i rozumowania w 57 zróżnicowanych domenach.
GPT-OSS:20b również osiąga dobre wyniki w benchmarkach MMLU, ale zazwyczaj uzyskuje niższe wyniki niż większe modele Qwen ze względu na mniejszą liczbę parametrów i mniejszy nacisk na dostrojenie do instrukcji.

LMEval (Language Model Evaluation Toolkit)

Na razie mało szczegółów:

Modele Qwen3 pokazują znaczną poprawę w zadaniach związanych z rozumowaniem i kodowaniem w ramach LMEval, z wyższymi wynikami w logice, rozumowaniu matematycznym i ogólnych możliwościach.
GPT-OSS:20b zapewnia solidną wydajność bazową w LMEval, ale ogólnie przegrywa z Qwen3:30b-instruct w zaawansowanych zadaniach rozumowania i podążania za instrukcjami.

HumanEval (Code Generation Benchmark)

Mało danych, jedynie:

Qwen3:30b-instruct wykazuje silną wydajność w benchmarkach generowania kodu wielojęzycznego, takich jak HumanEval-XL, obsługując ponad 20 języków programowania i zapewniając wyższą dokładność generowania kodu międzyjęzykowego.
GPT-OSS:20b, choć konkurencyjny, osiąga nieco gorsze wyniki niż Qwen3:30b-instruct w benchmarkach HumanEval, szczególnie w kontekście wielojęzycznym i wielojęzykowym programowania, ze względu na mniej obszerne szkolenie wielojęzyczne.

Tabela podsumowująca (przybliżone trendy z literatury):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Uwagi
Dokładność MMLU	~89-91%	~80-85%	Qwen3 silniejszy w szerokiej wiedzy i rozumowaniu
Wyniki LMEval	Wysokie, zaawansowane rozumowanie i kod	Umiarkowane, rozumowanie bazowe	Qwen3 excels w matematyce i logice
HumanEval	Wysoka wydajność generowania kodu wielojęzycznego	Umiarkowana	Qwen3 lepszy w generowaniu kodu międzyjęzykowego

Jeśli potrzebne są dokładne liczby z benchmarków, specjalizowane wielojęzyczne benchmarky dużych modeli, takie jak P-MMEval i HumanEval-XL wymienione w ostatnich publikacjach badawczych, dostarczają szczegółowych wyników dla modeli, w tym Qwen3 i porównywalnych wariantów GPT-OSS, ale nie są one publicznie dostępne w formie umożliwiającej bezpośrednie pobieranie wyników w formie porównawczej w tym czasie.

Porównanie szybkości Qwen3:30b i GPT-OSS:20b

Na moim sprzęcie (16 GB VRAM) modele Qwen3:30b i GPT-OSS:20b działają z oknem kontekstu 4000 i generują:

qwen3:30b-a3b => 45,68 tokenów/s
gpt-oss:20b => 129,52 tokenów/s

Do porównania przetestowałem również modele qwen3:14b i gpt-oss:120b:

qwen3:14b => 60,12 tokenów/s
gpt-oss:120b => 12,87 tokenów/s

Na dłuższych oknach kontekstu prędkość będzie wolniejsza, w przypadku qwen3:30b-a3b prawdopodobnie znacznie wolniejsza. Oczywiście dotyczy to mojego komputera. Szczegóły techniczne pobrane z wyjścia werbalnego oraz przydzielona pamięć znajdują się poniżej, polecenia do przetestowania:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps pokazująca alokację pamięci przy kontekście 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Warianty Qwen3:30b

Dostępne są trzy warianty modelu qwen3:30b: qwen3:30b, qwen3:30b-instruct oraz qwen3:30b-thinking.

Kluczowe różnice i rekomendacje

qwen3:30b-instruct jest najlepszy w rozmowach, gdzie priorytetem są instrukcje użytkownika, jasność przekazu i naturalny dialog.
qwen3:30b to model bazowy, odpowiedni, jeśli zarówno podążanie za instrukcjami, jak i używanie narzędzi są ważne w różnych zadaniach.
qwen3:30b-thinking excels, gdy głównym fokusem jest głębokie rozumowanie, matematyka i kodowanie. Przewyższa inne w zadaniach mierzących rygor logiczny i matematyczny, ale niekoniecznie jest lepszy w pisaniu twórczym czy casualowych rozmowach.

Bezpośrednie porównanie benchmarków

Model	Rozumowanie (AIME25)	Kodowanie (LiveCodeBench)	Ogólna wiedza (MMLU Redux)	Szybkość i kontekst	Idealne zastosowanie
qwen3:30b	70,9	57,4	89,5	256K tokenów; Szybki	Ogólny język/agent/wielojęzyczność
qwen3:30b-instruct	N/A (Oczekiwane blisko 30b)	N/A	~Tak samo jak 30b	256K tokenów	Podążanie za instrukcjami, wyrównanie
qwen3:30b-thinking	85,0	66,0	91,4	256K tokenów	Matematyka, kod, rozumowanie, długie dokumenty

Więcej benchmarków, wyborów sprzętowych i optymalizacji wydajności znajdziesz w naszym hubie Wydajność LLM: Benchmarki, wąskie gardła i optymalizacja.