Porównanie: Qwen3:30b vs GPT-OSS:20b

Porównanie szybkości, parametrów i wydajności tych dwóch modeli

Page content

Oto porównanie modeli Qwen3:30b i GPT-OSS:20b ze szczególnym uwzględnieniem zdolności do podążania za instrukcjami, parametrów wydajnościowych, specyfikacji technicznych oraz prędkości działania.

Więcej informacji na temat przepustowości, opóźnień, pamięci VRAM oraz wyników benchmarków dla różnych środowisk uruchomieniowych i sprzętu znajdziesz w artykule Wydajność LLM: Benchmarki, wąskie gardła i optymalizacja.

7 llamas

Domyślne ustawienia próbkowania dla nowszych modeli z linii Qwen (w tym kary oraz predefiniowane ustawienia trybu „myślenia” vs kodowania) w kontekście pętli agencji zostały zebrane w artykule Parametry wnioskowania dla agentów w modelach Qwen i Gemma.

Architektura i parametry

Cecha Qwen3:30b-instruct GPT-OSS:20b
Łączna liczba parametrów 30,5 miliarda 21 miliardów
Aktywowane parametry ~3,3 miliarda ~3,6 miliarda
Liczba warstw 48 24
Eksperci MoE na warstwę 128 (8 aktywnych na token) 32 (4 aktywne na token)
Mechanizm uwagi Grouped Query Attention (32Q /4KV) Grouped Multi-Query Attention (64Q /8KV)
Okno kontekstowe 32 768 natywnie; do 262 144 rozszerzone 128 000 tokenów
Tokenizator Oparty na BPE, słownictwo 151 936 Oparty na GPT, ≈ 200 tys. słownictwa

Podążanie za instrukcjami

  • Qwen3:30b-instruct jest zoptymalizowany pod kątem podążania za instrukcjami z silnym dostosowaniem do preferencji ludzkich. Doskonale radzi sobie w pisaniu twórczym, odgrywaniu ról, dialogach wieloturnowych oraz podążaniu za instrukcjami w wielu językach. Ta wersja została specyficznie dostrojona, aby dostarczać bardziej naturalne, kontrolowane i angażujące odpowiedzi zgodne z instrukcjami użytkownika.
  • GPT-OSS:20b obsługuje podążanie za instrukcjami, ale w subtelnych aspektach dostrojenia do instrukcji ocenia się go nieco gorzej niż Qwen3:30b-instruct. Oferuje porównywalne funkcje wywoływania funkcji, strukturyzowane wyjścia i tryby rozumowania, ale może przegrywać w wyrównaniu konwersacyjnym i dialogach twórczych.

Wydajność i efektywność

  • Qwen3:30b-instruct wykazuje doskonałe wyniki w rozumowaniu matematycznym, kodowaniu, złożonych zadaniach logicznych oraz w scenariuszach wielojęzycznych obejmujących 119 języków i dialektów. Jego tryb „myślenia” umożliwia lepsze rozumowanie, ale wiąże się z wyższym zużyciem pamięci.
  • GPT-OSS:20b osiąga wydajność porównywalną z modelem OpenAI o3-mini. Wykorzystuje mniejszą liczbę warstw, ale szerszych ekspertów na warstwę oraz natywną kwantyzację MXFP4 dla efektywnego wnioskowania na sprzęcie konsumenckim przy mniejszych wymaganiach pamięciowych (~16 GB w porównaniu do wyższych wymagań Qwen3).
  • GPT-OSS jest około 33% bardziej efektywny pod względem pamięci i szybszy na niektórych konfiguracjach sprzętowych, zwłaszcza na kartach graficznych konsumenckich, jednak Qwen3 często zapewnia lepsze wyrównanie i głębsze rozumowanie, szczególnie w złożonych przypadkach użycia.
  • Qwen3 oferuje dłuższą dostępną opcję rozszerzonego kontekstu (do 262 144 tokenów) w porównaniu do 128 000 tokenów w GPT-OSS, co jest korzystne dla zadań wymagających zrozumienia bardzo długiego kontekstu.

Rekomendacje dotyczące użycia

  • Wybierz Qwen3:30b-instruct w przypadkach wymagających doskonałego podążania za instrukcjami, generowania twórczego, obsługi wielu języków oraz złożonego rozumowania.
  • Wybierz GPT-OSS:20b, jeśli priorytetem jest efektywność pamięciowa, szybkość wnioskowania na sprzęcie konsumenckim oraz konkurencyjna wydajność bazowa przy mniejszej liczbie parametrów.

To porównanie podkreśla Qwen3:30b-instruct jako głębszy i bardziej potężny model zaawansowanym dostrojeniem do instrukcji, podczas gdy GPT-OSS:20b oferuje bardziej zwartą i efektywną alternatywę z konkurencyjną wydajnością w standardowych benchmarkach.

Wyniki benchmarków bezpośrednio porównujące Qwen3:30b-instruct i GPT-OSS:20b pod kątem podążania za instrukcjami oraz kluczowych parametrów wydajnościowych (MMLU, LMEval, HumanEval) nie są bezpośrednio dostępne w wynikach wyszukiwania. Jednakże, na podstawie istniejących opublikowanych raportów benchmarków wielozadaniowych i wielojęzycznych:

MMLU (Massive Multitask Language Understanding)

Trudno znaleźć szczegółowe dane, dostępne są jedynie:

  • Modele z serii Qwen3, szczególnie w skali 30B i wyżej, demonstrują silne wyniki w MMLU, zwykle przekraczające 89%, co wskazuje na bardzo konkurencyjne zdolności do zrozumienia wiedzy i rozumowania w 57 zróżnicowanych domenach.
  • GPT-OSS:20b również osiąga dobre wyniki w benchmarkach MMLU, ale zazwyczaj uzyskuje niższe wyniki niż większe modele Qwen ze względu na mniejszą liczbę parametrów i mniejszy nacisk na dostrojenie do instrukcji.

LMEval (Language Model Evaluation Toolkit)

Na razie mało szczegółów:

  • Modele Qwen3 pokazują znaczną poprawę w zadaniach związanych z rozumowaniem i kodowaniem w ramach LMEval, z wyższymi wynikami w logice, rozumowaniu matematycznym i ogólnych możliwościach.
  • GPT-OSS:20b zapewnia solidną wydajność bazową w LMEval, ale ogólnie przegrywa z Qwen3:30b-instruct w zaawansowanych zadaniach rozumowania i podążania za instrukcjami.

HumanEval (Code Generation Benchmark)

Mało danych, jedynie:

  • Qwen3:30b-instruct wykazuje silną wydajność w benchmarkach generowania kodu wielojęzycznego, takich jak HumanEval-XL, obsługując ponad 20 języków programowania i zapewniając wyższą dokładność generowania kodu międzyjęzykowego.
  • GPT-OSS:20b, choć konkurencyjny, osiąga nieco gorsze wyniki niż Qwen3:30b-instruct w benchmarkach HumanEval, szczególnie w kontekście wielojęzycznym i wielojęzykowym programowania, ze względu na mniej obszerne szkolenie wielojęzyczne.

Tabela podsumowująca (przybliżone trendy z literatury):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Uwagi
Dokładność MMLU ~89-91% ~80-85% Qwen3 silniejszy w szerokiej wiedzy i rozumowaniu
Wyniki LMEval Wysokie, zaawansowane rozumowanie i kod Umiarkowane, rozumowanie bazowe Qwen3 excels w matematyce i logice
HumanEval Wysoka wydajność generowania kodu wielojęzycznego Umiarkowana Qwen3 lepszy w generowaniu kodu międzyjęzykowego

Jeśli potrzebne są dokładne liczby z benchmarków, specjalizowane wielojęzyczne benchmarky dużych modeli, takie jak P-MMEval i HumanEval-XL wymienione w ostatnich publikacjach badawczych, dostarczają szczegółowych wyników dla modeli, w tym Qwen3 i porównywalnych wariantów GPT-OSS, ale nie są one publicznie dostępne w formie umożliwiającej bezpośrednie pobieranie wyników w formie porównawczej w tym czasie.

Porównanie szybkości Qwen3:30b i GPT-OSS:20b

Na moim sprzęcie (16 GB VRAM) modele Qwen3:30b i GPT-OSS:20b działają z oknem kontekstu 4000 i generują:

  • qwen3:30b-a3b => 45,68 tokenów/s
  • gpt-oss:20b => 129,52 tokenów/s

Do porównania przetestowałem również modele qwen3:14b i gpt-oss:120b:

  • qwen3:14b => 60,12 tokenów/s
  • gpt-oss:120b => 12,87 tokenów/s

Na dłuższych oknach kontekstu prędkość będzie wolniejsza, w przypadku qwen3:30b-a3b prawdopodobnie znacznie wolniejsza. Oczywiście dotyczy to mojego komputera. Szczegóły techniczne pobrane z wyjścia werbalnego oraz przydzielona pamięć znajdują się poniżej, polecenia do przetestowania:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps pokazująca alokację pamięci przy kontekście 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Warianty Qwen3:30b

Dostępne są trzy warianty modelu qwen3:30b: qwen3:30b, qwen3:30b-instruct oraz qwen3:30b-thinking.

Kluczowe różnice i rekomendacje

  • qwen3:30b-instruct jest najlepszy w rozmowach, gdzie priorytetem są instrukcje użytkownika, jasność przekazu i naturalny dialog.
  • qwen3:30b to model bazowy, odpowiedni, jeśli zarówno podążanie za instrukcjami, jak i używanie narzędzi są ważne w różnych zadaniach.
  • qwen3:30b-thinking excels, gdy głównym fokusem jest głębokie rozumowanie, matematyka i kodowanie. Przewyższa inne w zadaniach mierzących rygor logiczny i matematyczny, ale niekoniecznie jest lepszy w pisaniu twórczym czy casualowych rozmowach.

Bezpośrednie porównanie benchmarków

Model Rozumowanie (AIME25) Kodowanie (LiveCodeBench) Ogólna wiedza (MMLU Redux) Szybkość i kontekst Idealne zastosowanie
qwen3:30b 70,9 57,4 89,5 256K tokenów; Szybki Ogólny język/agent/wielojęzyczność
qwen3:30b-instruct N/A (Oczekiwane blisko 30b) N/A ~Tak samo jak 30b 256K tokenów Podążanie za instrukcjami, wyrównanie
qwen3:30b-thinking 85,0 66,0 91,4 256K tokenów Matematyka, kod, rozumowanie, długie dokumenty

Więcej benchmarków, wyborów sprzętowych i optymalizacji wydajności znajdziesz w naszym hubie Wydajność LLM: Benchmarki, wąskie gardła i optymalizacja.

Przydatne linki

Subskrybuj

Otrzymuj nowe wpisy o systemach, infrastrukturze i inżynierii AI.