Porównanie: Qwen3:30b vs GPT-OSS:20b
Porównanie prędkości, parametrów i wydajności tych dwóch modeli
Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości.
Aby uzyskać więcej informacji na temat przepływności, opóźnień, VRAM oraz wyników testów wydajnościowych na różnych sprzęcie i w różnych środowiskach uruchomieniowych, zobacz Wydajność modeli LLM: testy wydajnościowe, wąskie gardła i optymalizacja.

Architektura i parametry
| Funkcja | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Liczba całkowitych parametrów | 30,5 miliardów | 21 miliardów |
| Aktywowane parametry | ~3,3 miliardy | ~3,6 miliardy |
| Liczba warstw | 48 | 24 |
| Ekspertów MoE na warstwie | 128 (8 aktywnych na token) | 32 (4 aktywnych na token) |
| Mechanizm uwagi | Grupowa uwaga (32Q /4KV) | Grupowa wielokrotna uwaga (64Q /8KV) |
| Okno kontekstu | 32 768 domyślnie; do 262 144 rozszerzone | 128 000 tokenów |
| Tokenizer | BPE, 151 936 słownictwo | GPT, ok. 200k słownictwo |
Przestrzeganie instrukcji
- Qwen3:30b-instruct jest zoptymalizowany pod kątem przestrzegania instrukcji z silnym dopasowaniem do preferencji ludzkich. Wyróżnia się w pisaniu kreatywnym, graniu w role, dialogach wielokrotnych i przestrzeganiu instrukcji wielojęzycznych. Ta wersja została dokładnie dopasowana, aby dostarczać bardziej naturalnych, kontrolowanych i angażujących odpowiedzi zgodnych z instrukcjami użytkownika.
- GPT-OSS:20b obsługuje przestrzeganie instrukcji, ale ogólnie ocenia się go jako lekko za tylnym Qwen3:30b-instruct w subtelnej kalibracji instrukcji. Dostarcza porównywalne wywołania funkcji, wyjścia strukturalne i tryby rozumowania, ale może opóźniać się w dopasowaniu dialogu i kreatywnym rozmowaniu.
Wydajność i efektywność
- Qwen3:30b-instruct wyróżnia się w rozumowaniu matematycznym, kodowaniu, złożonych zadaniach logicznych oraz scenariuszach wielojęzycznych obejmujących 119 języków i dialektów. Tryb „rozumowania” umożliwia wzmocnione rozumowanie, ale wiąże się z wyższymi kosztami pamięci.
- GPT-OSS:20b osiąga wydajność porównywalną z modelem o3-mini firmy OpenAI. Używa mniej warstw, ale szerszych ekspertów na warstwie oraz domowej kwantyzacji MXFP4 dla efektywnego wnioskowania na sprzęcie konsumentów z niższymi wymaganiami pamięci (~16 GB vs wyższe dla Qwen3).
- GPT-OSS jest około 33% bardziej efektywny pod względem zużycia pamięci i szybszy na niektórych konfiguracjach sprzętu, szczególnie na GPU do użytku domowym, ale Qwen3 często dostarcza lepsze dopasowanie i głębsze rozumowanie, zwłaszcza w złożonych przypadkach użycia.
- Qwen3 oferuje dłuższy dostępny rozszerzony zakres kontekstu (do 262 144 tokenów) w porównaniu do GPT-OSS 128 000 tokenów, co korzystnie wpływa na zadania wymagające bardzo długiego zrozumienia kontekstu.
Zalecenia dotyczące użycia
- Wybierz Qwen3:30b-instruct w przypadkach wymagających wyższej jakości przestrzegania instrukcji, generowania kreatywnego tekstu, wsparcia wielojęzycznego oraz złożonego rozumowania.
- Wybierz GPT-OSS:20b, jeśli priorytetem są efektywność pamięci, szybkość wnioskowania na sprzęcie konsumentów oraz konkurencyjna podstawowa wydajność z mniejszą liczbą parametrów.
To porównanie podkreśla Qwen3:30b-instruct jako głębszy i bardziej zdolny model z zaawansowaną kalibracją instrukcji, podczas gdy GPT-OSS:20b oferuje bardziej zwarty i efektywny alternatywą z konkurencyjną wydajnością na standardowych testach.
Konkretnych wyników testów porównujących Qwen3:30b-instruct i GPT-OSS:20b w zakresie przestrzegania instrukcji i kluczowych parametrów wydajności (MMLU, LMEval, HumanEval) nie ma bezpośrednio dostępnych w wynikach wyszukiwania. Jednak na podstawie istniejących opublikowanych raportów testów wielojęzycznych i wielozadaniowych:
MMLU (Massive Multitask Language Understanding)
Trudno znaleźć szczegóły, tylko:
- Modele Qwen3, zwłaszcza w skali 30B i powyżej, wykazują silne wyniki MMLU, zwykle przekraczające 89%, co wskazuje na bardzo konkurencyjne zrozumienie wiedzy i zdolności rozumowania w 57 różnych dziedzinach.
- GPT-OSS:20b również dobrze radzi sobie w testach MMLU, ale zwykle osiąga niższe wyniki niż większe modele Qwen ze względu na mniejszą liczbę parametrów i mniejsze podkreślenie kalibracji instrukcji.
LMEval (Language Model Evaluation Toolkit)
Nie ma wiele szczegółów w tej chwili:
- Modele Qwen3 pokazują znaczący postęp w zadaniach rozumowania i kodowania w ramach LMEval, z wzmocnionymi wynikami w zakresie logiki, rozumowania matematycznego i ogólnych umiejętności.
- GPT-OSS:20b dostarcza solidnej podstawowej wydajności w LMEval, ale ogólnie opóźnia się w porównaniu do Qwen3:30b-instruct w zaawansowanym rozumowaniu i podzadaniach przestrzegania instrukcji.
HumanEval (Benchmark generowania kodu)
Nie ma wiele danych, tylko:
- Qwen3:30b-instruct wykazuje dobrą wydajność w testach generowania kodu wielojęzycznego, takich jak HumanEval-XL, wspierając ponad 20 języków programowania i dostarczając wyższej dokładności generowania kodu międzyjęzycznego.
- GPT-OSS:20b, choć konkurencyjny, osiąga nieco niższe wyniki niż Qwen3:30b-instruct w testach HumanEval, szczególnie w kontekstach wielojęzycznych i wielojęzycznego programowania ze względu na mniej intensywne treningi wielojęzyczne.
Tabela podsumowująca (przybliżone trendy z literatury):
| Test | Qwen3:30b-instruct | GPT-OSS:20b | Uwagi |
|---|---|---|---|
| Dokładność MMLU | ~89-91% | ~80-85% | Qwen3 silniejszy w szerokim zrozumieniu wiedzy i rozumowaniu |
| Wyniki LMEval | Wysokie, zaawansowane rozumowanie & kod | Średnie, podstawowe rozumowanie | Qwen3 wyróżnia się w matematyce i logice |
| HumanEval | Wysoka wydajność generowania kodu wielojęzycznego | Średnia | Qwen3 lepszy w generowaniu kodu międzyjęzycznego |
Jeśli są potrzebne konkretne liczby testowe, specjalistyczne testy wielojęzyczne w dużej skali, takie jak P-MMEval i HumanEval-XL, wspomniane w ostatnich pracach naukowych, dostarczają szczegółowych wyników dla modeli Qwen3 i porównywalnych wersji GPT-OSS, ale nie są obecnie publicznie zoptymalizowane pod kątem bezpośredniego pobierania wyników.
Porównanie prędkości Qwen3:30b i GPT-OSS:20b
Na moim sprzęcie (16 GB VRAM) otrzymuję Qwen3:30b i GPT-OSS:20b działające z 4000 oknem kontekstu, a produkują:
- qwen3:30b-a3b => 45,68 tokenów/s
- gpt-oss:20b => 129,52 tokenów/s
Dla porównania przetestowałem również qwen3:14b i gpt-oss:120b
- qwen3:14b => 60,12 tokenów/s
- gpt-oss:120b => 12,87 tokenów/s
Na dłuższych oknach kontekstu prędkość będzie wolniejsza, w przypadku qwen3:30b-a3b prawdopodobnie znacznie wolniejsza. To ponownie na moim komputerze. Techniczne szczegóły pobrane z wypisanej wersji i alokowanej pamięci są poniżej, polecenia do testowania:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps pokazując alokację pamięci w kontekście 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Wersje Qwen3:30b
Dostępne są trzy wersje modelu Qwen3:30b: qwen3:30b, qwen3:30b-instruct i qwen3:30b-thinking.
Główne różnice i zalecenia
- qwen3:30b-instruct najlepszy do rozmów, w których priorytetem są instrukcje użytkownika, przejrzystość i naturalny dialog.
- qwen3:30b to ogólna podstawa, odpowiednia, jeśli zarówno przestrzeganie instrukcji, jak i korzystanie z narzędzi są ważne w różnych zadaniach.
- qwen3:30b-thinking wyróżnia się, gdy głównym celem są głębokie rozumowanie, matematyka i programowanie. Przewyższa inne w zadaniach mierzących ścisłość logiczną i matematyczną, ale niekoniecznie lepszy w pisaniu kreatywnym lub rozmowach codziennych.
Bezpośrednie porównanie wyników testów
| Model | Rozumowanie (AIME25) | Kodowanie (LiveCodeBench) | Wiedza ogólna (MMLU Redux) | Prędkość i kontekst | Idealne zastosowanie |
|---|---|---|---|---|---|
| qwen3:30b | 70,9 | 57,4 | 89,5 | 256K tokenów; szybki | Ogólny język/agenta/wielojęzyczny |
| qwen3:30b-instruct | N/A (Zamknięty blisko 30b) | N/A | ~Taki sam jak 30b | 256K tokenów | Przestrzeganie instrukcji, dopasowanie |
| qwen3:30b-thinking | 85,0 | 66,0 | 91,4 | 256K tokenów | Matematyka, kodowanie, rozumowanie, długie dokumenty |
Aby uzyskać więcej testów, wyborów sprzętu i optymalizacji wydajności, sprawdź nasz Wydajność modeli LLM: testy wydajnościowe, wąskie gardła i optymalizacja.
Przydatne linki
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Zainstaluj i skonfiguruj Ollama
- Karta Ollama – najbardziej przydatne polecenia
- Ograniczanie modeli LLM strukturalnym wyjściem: Ollama, Qwen3 i Python lub Go
- Integracja Ollama z Pythonem: Przykłady API REST i klienta Pythona