Как Qwen3 30b сравнивается с GPT-OSS 20b?

Qwen3 30b обычно демонстрирует более высокое качество выполнения инструкций, логического вывода и поддержки мультиязычности. GPT-OSS 20b работает быстрее и эффективнее использует память на потребительских GPU (например, требует примерно на 33% меньше видеопамяти и обеспечивает более высокую скорость генерации токенов во многих конфигурациях).

Какая модель работает быстрее — Qwen3 30b или GPT-OSS 20b?

GPT-OSS 20b обычно работает быстрее. На 16 ГБ VRAM с контекстом 4K GPT-OSS 20b достигает скорости около 130 токенов в секунду по сравнению с примерно 46 токенами в секунду для Qwen3 30b a3b, хотя точные показатели зависят от аппаратного обеспечения и размера контекста.

Когда следует выбрать Qwen3 30b вместо GPT-OSS 20b?

Выбирайте Qwen3 30B, когда требуется более точное следование инструкциям, креативный или многоязычный вывод, сложная логическая обработка или длинный контекст (например, до 262K токенов). Выбирайте GPT-OSS 20B, если важнее скорость и меньшее потребление VRAM на потребительском оборудовании.

Сколько VRAM требуется для Qwen3 30b и GPT-OSS 20b?

Qwen3 30b a3b может работать на видеокарте с 16 ГБ VRAM при использовании CPU offload (например, модель занимает около 20 ГБ). GPT-OSS 20b более комфортно размещается в 16 ГБ GPU (например, выделяется около 14 ГБ) и может работать полностью на GPU.

Где можно найти больше информации о производительности и бенчмарках LLM?

Наш центр знаний по производительности LLM охватывает вопросы пропускной способности и задержки, ограничения VRAM, параллельных запросов, а также бенчмарки для различных сред выполнения и аппаратных конфигураций.

Сравнение: Qwen3:30b и GPT-OSS:20b

Сравнение скорости, параметров и производительности этих двух моделей

Содержимое страницы

Ниже приведено сравнение Qwen3:30b и GPT-OSS:20b с акцентом на следовании инструкциям и параметрах производительности, спецификациях и скорости.

Для получения дополнительной информации о пропускной способности, задержке, объеме VRAM и результатах бенчмарков в различных средах выполнения и на аппаратном обеспечении, см. Производительность LLM: бенчмарки, узкие места и оптимизация.

7 llamas

Чтобы узнать больше о настройках выборки по умолчанию для циклов агентов в новой линейке Qwen (включая штрафы и пресеты для мышления и программирования), сверяйтесь с параметрами агентного вывода для Qwen и Gemma.

Архитектура и параметры

Характеристика	Qwen3:30b-instruct	GPT-OSS:20b
Общее количество параметров	30,5 миллиарда	21 миллиард
Активированные параметры	~3,3 миллиарда	~3,6 миллиарда
Количество слоев	48	24
Эксперты MoE на слой	128 (8 активных на токен)	32 (4 активных на токен)
Механизм внимания	Grouped Query Attention (32Q /4KV)	Grouped Multi-Query Attention (64Q /8KV)
Контекстное окно	32 768 нативно; до 262 144 с расширением	128 000 токенов
Токенизатор	На основе BPE, словарь из 151 936	На основе GPT, ≈ 200k словарь

Следование инструкциям

Qwen3:30b-instruct оптимизирован для следования инструкциям с сильным выравниванием предпочтений человека. Он преуспевает в креативном письме, ролевых играх, многоходовых диалогах и многоязычном следовании инструкциям. Эта версия специально дообучена для предоставления более естественных, контролируемых и увлекательных ответов, соответствующих инструкциям пользователя.
GPT-OSS:20b поддерживает следование инструкциям, но, как правило, немного уступает Qwen3:30b-instruct в тонкой настройке инструкций. Он обеспечивает сопоставимые возможности вызова функций, структурированного вывода и режимы рассуждений, но может отставать в выравнивании диалогов и креативном диалоге.

Производительность и эффективность

Qwen3:30b-instruct преуспевает в математических рассуждениях, кодировании, сложных логических задачах и многоязычных сценариях, охватывая 119 языков и диалектов. Его режим «мышления» позволяет улучшить рассуждения, но требует больших затрат памяти.
GPT-OSS:20b достигает производительности, сопоставимой с моделью OpenAI o3-mini. Он использует меньше слоев, но более широких экспертов на слой и нативную квантование MXFP4 для эффективного вывода на потребительском аппаратном обеспечении с меньшими требованиями к памяти (~16 ГБ против более высоких для Qwen3).
GPT-OSS примерно на 33% более эффективен по памяти и быстрее на определенных аппаратных конфигурациях, особенно на потребительских GPU, но Qwen3 часто обеспечивает лучшее выравнивание и глубину рассуждений, особенно в сложных случаях использования.
Qwen3 имеет более длинный доступный вариант расширенной длины контекста (до 262 144 токенов) по сравнению с GPT-OSS (128 000 токенов), что полезно для задач, требующих понимания очень длинного контекста.

MMLU (Massive Multitask Language Understanding)

Трудно найти детали, только:

Модели серии Qwen3, особенно в масштабе 30B и выше, демонстрируют высокие баллы MMLU, как правило, превышающие 89%, что указывает на очень конкурентоспособные способности понимания знаний и рассуждений в 57 различных областях.
GPT-OSS:20b также хорошо показывает себя в бенчмарках MMLU, но обычно набирает меньше баллов, чем более крупные модели Qwen, из-за меньшего количества параметров и меньшего акцента на дообучении инструкциям.

LMEval (Language Model Evaluation Toolkit)

Не так много деталей на данный момент:

Модели Qwen3 показывают значительное улучшение в рассуждениях и задачах, связанных с кодом, в рамках LMEval, с улучшенными баллами по логике, математическим рассуждениям и общим возможностям.
GPT-OSS:20b обеспечивает надежную базовую производительность в LMEval, но, как правило, отстает от Qwen3:30b-instruct в продвинутых рассуждениях и подзадачах следования инструкциям.

HumanEval (Бенчмарк генерации кода)

Не так много данных, только:

Qwen3:30b-instruct демонстрирует сильную производительность в многоязычных бенчмарках генерации кода, таких как HumanEval-XL, поддерживая более 20 языков программирования и обеспечивая превосходную точность кросс-языковой генерации кода.
GPT-OSS:20b, хотя и конкурентоспособен, показывает несколько более низкие результаты в бенчмарках HumanEval, чем Qwen3:30b-instruct, особенно в многоязычных контекстах программирования из-за менее обширного многоязычного обучения.

Сводная таблица (приблизительные тренды из литературы):

Бенчмарк	Qwen3:30b-instruct	GPT-OSS:20b	Примечания
Точность MMLU	~89-91%	~80-85%	Qwen3 сильнее в широких знаниях и рассуждениях
Баллы LMEval	Высокие, продвинутые рассуждения и код	Средние, базовые рассуждения	Qwen3 преуспевает в математике и логике
HumanEval	Высокая производительность многоязычной генерации кода	Средняя	Qwen3 лучше в кросс-языковой генерации кода

Если нужны точные числа бенчмарков, специализированные многоязычные крупномасштабные бенчмарки, такие как P-MMEval и HumanEval-XL, упомянутые в последних исследовательских статьях, предоставляют подробные баллы для моделей, включая Qwen3 и сопоставимые варианты GPT-OSS, но они не систематизированы публично для прямого сравнения баллов бок о бок на данный момент.

Сравнение скорости Qwen3:30b и GPT-OSS:20b

На моем оборудовании (16 ГБ VRAM) я получаю Qwen3:30b и GPT-OSS:20b, работающие с окном контекста 4000, и они производят:

qwen3:30b-a3b => 45,68 токенов/с
gpt-oss:20b => 129,52 токенов/с

И для сравнения я также протестировал qwen3:14b и gpt-oss:120b

qwen3:14b => 60,12 токенов/с
gpt-oss:120b => 12,87 токенов/с

На более длинных окнах контекста скорость будет медленнее, в случае qwen3:30b-a3b, вероятно, значительно медленнее. Это снова, на моем ПК. Технические детали взяты из подробного вывода, и выделенная память приведена ниже, команды для проверки:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps показывающая выделение памяти на контексте 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Варианты Qwen3:30b

Доступны три варианта модели qwen3:30b: qwen3:30b, qwen3:30b-instruct и qwen3:30b-thinking.

Ключевые различия и рекомендации

qwen3:30b-instruct лучше всего подходит для разговоров, где приоритет отдается инструкциям пользователя, ясности и естественному диалогу.
qwen3:30b — это общая базовая модель, подходящая, если важно как следование инструкциям, так и использование инструментов в разнообразных задачах.
qwen3:30b-thinking преуспевает, когда основным фокусом являются глубокие рассуждения, математика и кодирование. Он превосходит другие модели в задачах, измеряющих логическую/математическую строгость, но не обязательно лучше для креативного письма или неформальных разговоров.

Прямое сравнение бенчмарков

Модель	Рассуждения (AIME25)	Кодирование (LiveCodeBench)	Общие знания (MMLU Redux)	Скорость и контекст	Идеальный случай использования
qwen3:30b	70.9	57.4	89.5	256K токенов; Быстро	Общий язык/агенты/многоязычность
qwen3:30b-instruct	N/A (Ожидаемо близко к 30b)	N/A	~Так же как 30b	256K токенов	Следование инструкциям, выравнивание
qwen3:30b-thinking	85.0	66.0	91.4	256K токенов	Математика, код, рассуждения, длинные документы

Для получения дополнительных бенчмарков, выбора оборудования и настройки производительности, посетите наш хаб Производительность LLM: бенчмарки, узкие места и оптимизация.

Сравнение: Qwen3:30b и GPT-OSS:20b

Архитектура и параметры

Следование инструкциям

Производительность и эффективность

Рекомендации по использованию

MMLU (Massive Multitask Language Understanding)

LMEval (Language Model Evaluation Toolkit)

HumanEval (Бенчмарк генерации кода)

Сводная таблица (приблизительные тренды из литературы):

Сравнение скорости Qwen3:30b и GPT-OSS:20b

Варианты Qwen3:30b

Полезные ссылки

Архитектура и параметры

Следование инструкциям

Производительность и эффективность

Рекомендации по использованию

MMLU (Massive Multitask Language Understanding)

LMEval (Language Model Evaluation Toolkit)

HumanEval (Бенчмарк генерации кода)

Сводная таблица (приблизительные тренды из литературы):

Сравнение скорости Qwen3:30b и GPT-OSS:20b

Варианты Qwen3:30b

Полезные ссылки

Подписаться