Как Qwen3:30b сравнивается с GPT-OSS:20b?

Квен3:30б умнее, чем GPT-OSS:20б, но GPT-OSS:20б быстрее.

Сравнение: Qwen3:30b против GPT-OSS:20b

Сравнение скорости, параметров и производительности этих двух моделей

Содержимое страницы

Вот сравнение между Qwen3:30b и GPT-OSS:20b с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость:

7 llamas

Архитектура и параметры

Характеристика	Qwen3:30b-instruct	GPT-OSS:20b
Общее количество параметров	30.5 миллиардов	21 миллиард
Активированные параметры	~3.3 миллиарда	~3.6 миллиарда
Количество слоев	48	24
MoE Экспертов на слой	128 (8 активных на токен)	32 (4 активных на токен)
Механизм внимания	Группированное внимание запросов (32Q /4KV)	Группированное многозапросное внимание (64Q /8KV)
Окно контекста	32,768 нативно; До 262,144 расширенное	128,000 токенов
Токенизатор	На основе BPE, 151,936 словарный запас	На основе GPT, ≈ 200k словарный запас

Выполнение инструкций

Qwen3:30b-instruct оптимизирован для выполнения инструкций с сильным соответствием человеческим предпочтениям. Он преуспевает в творческом письме, ролевых играх, многоповоротных диалогах и многозначном выполнении инструкций. Эта версия специально дообучена для предоставления более естественных, контролируемых и увлекательных ответов в соответствии с инструкциями пользователя.
GPT-OSS:20b поддерживает выполнение инструкций, но в целом оценивается немного ниже, чем Qwen3:30b-instruct, в тонкой настройке инструкций. Он предоставляет сопоставимые функции вызова, структурированный вывод и режимы рассуждения, но может отставать в согласованности разговора и творческом диалоге.

Производительность и эффективность

Qwen3:30b-instruct преуспевает в математическом рассуждении, программировании, сложных логических задачах и многозначных сценариях, охватывающих 119 языков и диалектов. Его “режим мышления” позволяет улучшенное рассуждение, но сопровождается более высокими затратами памяти.
GPT-OSS:20b достигает производительности, сопоставимой с моделью o3-mini от OpenAI. Он использует меньше слоев, но более широкие эксперты на слой и нативную квантование MXFP4 для эффективного вывода на потребительском оборудовании с меньшими требованиями к памяти (~16ГБ против более высоких для Qwen3).
GPT-OSS примерно на 33% более эффективен в использовании памяти и быстрее на определенных аппаратных конфигурациях, особенно на потребительских GPU, но Qwen3 часто обеспечивает лучшее соответствие и глубину рассуждения, особенно в сложных сценариях использования.
Qwen3 имеет более длинную доступную опцию расширенной длины контекста (до 262,144 токенов) по сравнению с 128,000 токенами у GPT-OSS, что полезно для задач, требующих очень длинного понимания контекста.

MMLU (Massive Multitask Language Understanding)

Трудно найти детали, что есть:

Модели серии Qwen3, особенно в масштабе 30B и выше, демонстрируют сильные оценки MMLU, обычно превышающие 89%, что указывает на очень конкурентоспособные способности понимания и рассуждения знаний в 57 различных областях.
GPT-OSS:20b также хорошо справляется с бенчмарками MMLU, но обычно набирает меньше очков, чем более крупные модели Qwen, из-за меньшего количества параметров и меньшего акцента на дообучение инструкций.

LMEval (Language Model Evaluation Toolkit)

Не много деталей , что есть:

Модели Qwen3 показывают значительное улучшение в задачах рассуждения и программирования в рамках LMEval, с улучшенными оценками в логике, математическом рассуждении и общих способностях.
GPT-OSS:20b обеспечивает надежную базовую производительность на LMEval, но обычно уступает Qwen3:30b-instruct в продвинутых задачах рассуждения и выполнения инструкций.

HumanEval (Code Generation Benchmark)

Не много данных, что есть:

Qwen3:30b-instruct демонстрирует сильную производительность на многозначных бенчмарках генерации кода, таких как HumanEval-XL, поддерживая более 20 языков программирования и обеспечивая превосходную точность кросс-языковой генерации кода.
GPT-OSS:20b, хотя и конкурентоспособен, показывает несколько более низкие результаты, чем Qwen3:30b-instruct, в бенчмарках HumanEval, особенно в многозначных и многоязыковых программистских контекстах из-за менее обширного многозначного обучения.

Сводная таблица (приблизительные тенденции из литературы):

Бенчмарк	Qwen3:30b-instruct	GPT-OSS:20b	Примечания
Точность MMLU	~89-91%	~80-85%	Qwen3 сильнее в широком знании и рассуждении
Оценки LMEval	Высокие, продвинутое рассуждение и код	Умеренные, базовое рассуждение	Qwen3 преуспевает в математике и логике
HumanEval	Высокая многозначная генерация кода	Умеренная	Qwen3 лучше в кросс-языковой генерации кода

Если точные оценки бенчмарков нужны, специализированные многозначные крупномасштабные бенчмарки, такие как P-MMEval и HumanEval-XL, упомянутые в недавних исследовательских работах, предоставляют подробные оценки для моделей, включая Qwen3 и сопоставимые варианты GPT-OSS, но эти данные не публично систематизированы для прямого сравнения оценок на данный момент.

Сравнение скорости Qwen3:30b и GPT-OSS:20b

На моем оборудовании (16GB VRAM) я получаю Qwen3:30b и GPT-OSS:20b работающими с 4000 контекстным окном, и они производят:

qwen3:30b-a3b => 45.68 токенов/с
gpt-oss:20b => 129.52 токенов/с

Для сравнения я также тестировал qwen3:14b и gpt-oss:120b

qwen3:14b => 60.12 токенов/с
gpt-oss:120b => 12.87 токенов/с

На более длинных контекстных окнах скорость будет медленнее, в случае qwen3:30b-a3b, вероятно, значительно медленнее. Это снова на моем ПК. Технические детали взяты из подробного вывода, и выделенная память указана ниже, команды для попытки:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps показывающий распределение памяти на 4K контексте

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Варианты Qwen3:30b

Доступны три варианта модели qwen3:30b: qwen3:30b, qwen3:30b-instruct и qwen3:30b-thinking.

Ключевые различия и рекомендации

qwen3:30b-instruct лучше всего подходит для разговоров, где приоритетами являются инструкции пользователя, ясность и естественный диалог.
qwen3:30b является общей основой, подходящей, если важно как выполнение инструкций, так и использование инструментов в различных задачах.
qwen3:30b-thinking преуспевает, когда основное внимание уделяется глубокому рассуждению, математике и программированию. Он превосходит другие модели в задачах, измеряющих логическую/математическую строгость, но не обязательно лучше для творческого письма или неформальных разговоров.

Прямое сравнение бенчмарков

Модель	Рассуждение (AIME25)	Кодирование (LiveCodeBench)	Общие знания (MMLU Redux)	Скорость и контекст	Идеальный сценарий использования
qwen3:30b	70.9	57.4	89.5	256K токенов; Быстро	Общий язык/агенты/многозначность
qwen3:30b-instruct	N/A (Предполагается близко к 30b)	N/A	~То же, что и 30b	256K токенов	Выполнение инструкций, соответствие
qwen3:30b-thinking	85.0	66.0	91.4	256K токенов	Математика, код, рассуждение, длинные документы