Jak Qwen3:30b porównuje się do GPT-OSS:20b?

Qwen3:30b jest inteligentsniejszy niż GPT-OSS:20b, ale GPT-OSS:20b jest szybszy.

Porównanie: Qwen3:30b vs GPT-OSS:20b

Porównanie prędkości, parametrów i wydajności tych dwóch modeli

Page content

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości:

7 llamas

Architektura i parametry

Funkcja	Qwen3:30b-instruct	GPT-OSS:20b
Całkowita liczba parametrów	30,5 miliardów	21 miliardów
Aktywowane parametry	~3,3 miliardy	~3,6 miliardy
Liczba warstw	48	24
Ekspertów MoE na warstwie	128 (8 aktywnych na token)	32 (4 aktywnych na token)
Mechanizm uwagi	Grupowana uwaga (32Q /4KV)	Grupowana wielokrotna uwaga (64Q /8KV)
Okno kontekstu	32 768 natywne; Do 262 144 rozszerzone	128 000 tokenów
Tokenizer	Bazujący na BPE, 151 936 słownictwo	Bazujący na GPT, ≈ 200k słownictwo

Przestrzeganie instrukcji

Qwen3:30b-instruct jest zoptymalizowany pod kątem przestrzegania instrukcji z silnym dopasowaniem do preferencji ludzkich. Wyróżnia się w pisaniu kreatywnym, grających rolach, dialogach wielokrotnych i przestrzeganiu instrukcji wielojęzycznych. Ta wersja została wdrożona specjalnie, aby dostarczać bardziej naturalnych, kontrolowanych i angażujących odpowiedzi zgodnych z instrukcjami użytkownika.
GPT-OSS:20b wspiera przestrzeganie instrukcji, ale ogólnie jest oceniany nieco mniej niż Qwen3:30b-instruct w subtelnej kalibracji instrukcji. Dostarcza porównywalne wywołania funkcji, wyjścia strukturalne i tryby rozumowania, ale może opóźniać się w dopasowaniu do rozmowy i kreatywnych dialogach.

Wydajność i efektywność

Qwen3:30b-instruct wyróżnia się w rozumowaniu matematycznym, kodowaniu, złożonych zadaniach logicznych i scenariuszach wielojęzycznych obejmujących 119 języków i dialektów. Jego tryb „rozumowania” pozwala na wzmocnione rozumowanie, ale wiąże się z wyższymi kosztami pamięci.
GPT-OSS:20b osiąga wydajność porównywalną z modelem o3-mini firmy OpenAI. Używa mniej warstw, ale szerszych ekspertów na warstwie i natywnej kwantyzacji MXFP4 dla wydajnego wnioskowania na sprzęcie konsumentów z niższymi wymaganiami pamięci (~16 GB w porównaniu do wyższych dla Qwen3).
GPT-OSS jest około 33% bardziej efektywny pod względem zużycia pamięci i szybszy w niektórych konfiguracjach sprzętu, szczególnie na konsumentowskich GPU, ale Qwen3 często dostarcza lepsze dopasowanie i głębsze rozumowanie, zwłaszcza w złożonych przypadkach użycia.
Qwen3 oferuje dłuższy dostępny rozszerzony zakres kontekstu (do 262 144 tokenów) w porównaniu do GPT-OSS 128 000 tokenów, co korzystnie wpływa na zadania wymagające bardzo długiego zrozumienia kontekstu.

Zalecenia dotyczące użycia

Wybierz Qwen3:30b-instruct w przypadkach wymagających wyższego przestrzegania instrukcji, generowania kreatywnego, wsparcia wielojęzycznego i złożonego rozumowania.
Wybierz GPT-OSS:20b, jeśli priorytetem jest efektywność pamięci, szybkość wnioskowania na sprzęcie konsumentów i konkurencyjna podstawowa wydajność z mniejszą liczbą parametrów.

To porównanie podkreśla Qwen3:30b-instruct jako głębszy, bardziej zdolny model z zaawansowanym dopasowaniem instrukcji, podczas gdy GPT-OSS:20b oferuje bardziej zwarty, wydajny alternatywę z konkurencyjną wydajnością na standardowych testach.

Wyniki testów porównawczych Qwen3:30b-instruct i GPT-OSS:20b w zakresie przestrzegania instrukcji i kluczowych parametrów wydajności (MMLU, LMEval, HumanEval) nie są bezpośrednio dostępne w wynikach wyszukiwania. Jednak na podstawie istniejących opublikowanych raportów wielojęzycznych i wielozadaniowych:

MMLU (Massive Multitask Language Understanding)

Trudno znaleźć szczegóły, tylko:

Modele Qwen3, szczególnie w skali 30B i wyższej, wykazują silne wyniki MMLU, zwykle przekraczające 89%, co wskazuje na bardzo konkurencyjne zrozumienie wiedzy i zdolności rozumowania w 57 różnych dziedzinach.
GPT-OSS:20b również dobrze radzi sobie w testach MMLU, ale zwykle uzyskuje niższe wyniki niż większe modele Qwen ze względu na mniejszą liczbę parametrów i mniejszy nacisk na dopasowanie instrukcji.

LMEval (Language Model Evaluation Toolkit)

Nie ma wiele szczegółów w tej chwili:

Modele Qwen3 pokazują znaczną poprawę w zadaniach rozumowania i kodowania w ramach LMEval, z wzmocnionymi wynikami w logice, rozumowaniu matematycznym i ogólnych możliwości.
GPT-OSS:20b dostarcza solidnej podstawowej wydajności w LMEval, ale ogólnie opóźnia się w zaawansowanym rozumowaniu i podzadaniach przestrzegania instrukcji w porównaniu do Qwen3:30b-instruct.

HumanEval (Code Generation Benchmark)

Nie ma wiele danych, tylko:

Qwen3:30b-instruct wykazuje silną wydajność w testach generowania kodu wielojęzycznego, takich jak HumanEval-XL, wspierając ponad 20 języków programowania i dostarczając wyższej dokładności generowania kodu międzyjęzycznego.
GPT-OSS:20b, mimo konkurencyjności, osiąga nieco niższe wyniki niż Qwen3:30b-instruct w testach HumanEval, szczególnie w kontekstach wielojęzycznych i programowania wielojęzycznego ze względu na mniej rozbudowane treningi wielojęzyczne.

Tabela podsumowująca (przybliżone trendy z literatury):

Test	Qwen3:30b-instruct	GPT-OSS:20b	Uwagi
Dokładność MMLU	~89-91%	~80-85%	Qwen3 silniejszy w szerokim zrozumieniu wiedzy i rozumowaniu
Wyniki LMEval	Wysokie, zaawansowane rozumowanie i kod	Średnie, podstawowe rozumowanie	Qwen3 wyróżnia się w matematyce i logice
HumanEval	Wysoka wydajność generowania kodu wielojęzycznego	Średnia	Qwen3 lepszy w generowaniu kodu międzyjęzycznego

Jeśli potrzebne są dokładne wyniki testów, specjalistyczne wielojęzyczne testy dużych skal, takie jak P-MMEval i HumanEval-XL, odniesione w ostatnich pracach naukowych, dostarczają szczegółowych wyników dla modeli Qwen3 i porównywalnych wersji GPT-OSS, ale nie są obecnie publicznie zoptymalizowane do bezpośredniego pobierania wyników testów w porównaniu.

Porównanie prędkości Qwen3:30b i GPT-OSS:20b

Na moim sprzęcie (16 GB VRAM) otrzymuję Qwen3:30b i GPT-OSS:20b działające z 4000 oknem kontekstu, a produkują:

qwen3:30b-a3b => 45,68 tokenów/s
gpt-oss:20b => 129,52 tokenów/s

Dla porównania przetestowałem również qwen3:14b i gpt-oss:120b

qwen3:14b => 60,12 tokenów/s
gpt-oss:120b => 12,87 tokenów/s

Na dłuższych oknach kontekstu prędkość będzie niższa, w przypadku qwen3:30b-a3b prawdopodobnie znacznie niższa. To ponownie na moim komputerze. Techniczne szczegóły pobrane z szczegółowego wyjścia i przydzielonej pamięci są poniżej, polecenia do testowania:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps pokazujące przydział pamięci na 4K kontekście

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Wersje Qwen3:30b

Dostępne są trzy wersje modelu qwen3:30b: qwen3:30b, qwen3:30b-instruct i qwen3:30b-thinking.

Główne różnice i zalecenia

qwen3:30b-instruct jest najlepszy do rozmów, gdzie priorytetem są instrukcje użytkownika, przejrzystość i naturalny dialog.
qwen3:30b to ogólna podstawa, odpowiednia, jeśli zarówno przestrzeganie instrukcji, jak i korzystanie z narzędzi są ważne w różnych zadaniach.
qwen3:30b-thinking wyróżnia się, gdy głównym celem są głębokie rozumowanie, matematyka i kodowanie. Przewyższa inne w zadaniach mierzących rygor logiczno-matematyczny, ale niekoniecznie lepszy w pisaniu kreatywnym lub rozmowach codziennych.

Bezpośrednie porównanie testowe

Model	Rozumowanie (AIME25)	Kodowanie (LiveCodeBench)	Wiedza ogólna (MMLU Redux)	Prędkość i kontekst	Idealne zastosowanie
qwen3:30b	70,9	57,4	89,5	256K tokenów; Szybki	Ogólny język/agenta/wielojęzyczny
qwen3:30b-instruct	N/A (Zamknięty blisko 30b)	N/A	~Taki sam jak 30b	256K tokenów	Przestrzeganie instrukcji, dopasowanie
qwen3:30b-thinking	85,0	66,0	91,4	256K tokenów	Matematyka, kodowanie, rozumowanie, długie dokumenty