Сравнение: Qwen3:30b и GPT-OSS:20b

Сравнение скорости, параметров и производительности этих двух моделей

Содержимое страницы

Ниже приведено сравнение Qwen3:30b и GPT-OSS:20b с акцентом на следовании инструкциям и параметрах производительности, спецификациях и скорости.

Для получения дополнительной информации о пропускной способности, задержке, объеме VRAM и результатах бенчмарков в различных средах выполнения и на аппаратном обеспечении, см. Производительность LLM: бенчмарки, узкие места и оптимизация.

7 llamas

Чтобы узнать больше о настройках выборки по умолчанию для циклов агентов в новой линейке Qwen (включая штрафы и пресеты для мышления и программирования), сверяйтесь с параметрами агентного вывода для Qwen и Gemma.

Архитектура и параметры

Характеристика Qwen3:30b-instruct GPT-OSS:20b
Общее количество параметров 30,5 миллиарда 21 миллиард
Активированные параметры ~3,3 миллиарда ~3,6 миллиарда
Количество слоев 48 24
Эксперты MoE на слой 128 (8 активных на токен) 32 (4 активных на токен)
Механизм внимания Grouped Query Attention (32Q /4KV) Grouped Multi-Query Attention (64Q /8KV)
Контекстное окно 32 768 нативно; до 262 144 с расширением 128 000 токенов
Токенизатор На основе BPE, словарь из 151 936 На основе GPT, ≈ 200k словарь

Следование инструкциям

  • Qwen3:30b-instruct оптимизирован для следования инструкциям с сильным выравниванием предпочтений человека. Он преуспевает в креативном письме, ролевых играх, многоходовых диалогах и многоязычном следовании инструкциям. Эта версия специально дообучена для предоставления более естественных, контролируемых и увлекательных ответов, соответствующих инструкциям пользователя.
  • GPT-OSS:20b поддерживает следование инструкциям, но, как правило, немного уступает Qwen3:30b-instruct в тонкой настройке инструкций. Он обеспечивает сопоставимые возможности вызова функций, структурированного вывода и режимы рассуждений, но может отставать в выравнивании диалогов и креативном диалоге.

Производительность и эффективность

  • Qwen3:30b-instruct преуспевает в математических рассуждениях, кодировании, сложных логических задачах и многоязычных сценариях, охватывая 119 языков и диалектов. Его режим «мышления» позволяет улучшить рассуждения, но требует больших затрат памяти.
  • GPT-OSS:20b достигает производительности, сопоставимой с моделью OpenAI o3-mini. Он использует меньше слоев, но более широких экспертов на слой и нативную квантование MXFP4 для эффективного вывода на потребительском аппаратном обеспечении с меньшими требованиями к памяти (~16 ГБ против более высоких для Qwen3).
  • GPT-OSS примерно на 33% более эффективен по памяти и быстрее на определенных аппаратных конфигурациях, особенно на потребительских GPU, но Qwen3 часто обеспечивает лучшее выравнивание и глубину рассуждений, особенно в сложных случаях использования.
  • Qwen3 имеет более длинный доступный вариант расширенной длины контекста (до 262 144 токенов) по сравнению с GPT-OSS (128 000 токенов), что полезно для задач, требующих понимания очень длинного контекста.

Рекомендации по использованию

  • Выбирайте Qwen3:30b-instruct для сценариев, требующих превосходного следования инструкциям, креативной генерации, многоязычной поддержки и сложных рассуждений.
  • Выбирайте GPT-OSS:20b, если приоритетом являются эффективность использования памяти, скорость вывода на потребительском аппаратном обеспечении и конкурентоспособная базовая производительность при меньшем количестве параметров.

Это сравнение выделяет Qwen3:30b-instruct как более глубокую и capable модель с продвинутой настройкой инструкций, в то время как GPT-OSS:20b предлагает более компактивную и эффективную альтернативу с конкурентоспособной производительностью в стандартных бенчмарках.

Результаты бенчмарков, конкретно сравнивающие Qwen3:30b-instruct и GPT-OSS:20b по следованию инструкциям и ключевым параметрам производительности (MMLU, LMEval, HumanEval), не доступны напрямую в результатах поиска. Однако, основываясь на существующих опубликованных отчетах о многоязычных и многозадачных бенчмарках:

MMLU (Massive Multitask Language Understanding)

Трудно найти детали, только:

  • Модели серии Qwen3, особенно в масштабе 30B и выше, демонстрируют высокие баллы MMLU, как правило, превышающие 89%, что указывает на очень конкурентоспособные способности понимания знаний и рассуждений в 57 различных областях.
  • GPT-OSS:20b также хорошо показывает себя в бенчмарках MMLU, но обычно набирает меньше баллов, чем более крупные модели Qwen, из-за меньшего количества параметров и меньшего акцента на дообучении инструкциям.

LMEval (Language Model Evaluation Toolkit)

Не так много деталей на данный момент:

  • Модели Qwen3 показывают значительное улучшение в рассуждениях и задачах, связанных с кодом, в рамках LMEval, с улучшенными баллами по логике, математическим рассуждениям и общим возможностям.
  • GPT-OSS:20b обеспечивает надежную базовую производительность в LMEval, но, как правило, отстает от Qwen3:30b-instruct в продвинутых рассуждениях и подзадачах следования инструкциям.

HumanEval (Бенчмарк генерации кода)

Не так много данных, только:

  • Qwen3:30b-instruct демонстрирует сильную производительность в многоязычных бенчмарках генерации кода, таких как HumanEval-XL, поддерживая более 20 языков программирования и обеспечивая превосходную точность кросс-языковой генерации кода.
  • GPT-OSS:20b, хотя и конкурентоспособен, показывает несколько более низкие результаты в бенчмарках HumanEval, чем Qwen3:30b-instruct, особенно в многоязычных контекстах программирования из-за менее обширного многоязычного обучения.

Сводная таблица (приблизительные тренды из литературы):

Бенчмарк Qwen3:30b-instruct GPT-OSS:20b Примечания
Точность MMLU ~89-91% ~80-85% Qwen3 сильнее в широких знаниях и рассуждениях
Баллы LMEval Высокие, продвинутые рассуждения и код Средние, базовые рассуждения Qwen3 преуспевает в математике и логике
HumanEval Высокая производительность многоязычной генерации кода Средняя Qwen3 лучше в кросс-языковой генерации кода

Если нужны точные числа бенчмарков, специализированные многоязычные крупномасштабные бенчмарки, такие как P-MMEval и HumanEval-XL, упомянутые в последних исследовательских статьях, предоставляют подробные баллы для моделей, включая Qwen3 и сопоставимые варианты GPT-OSS, но они не систематизированы публично для прямого сравнения баллов бок о бок на данный момент.

Сравнение скорости Qwen3:30b и GPT-OSS:20b

На моем оборудовании (16 ГБ VRAM) я получаю Qwen3:30b и GPT-OSS:20b, работающие с окном контекста 4000, и они производят:

  • qwen3:30b-a3b => 45,68 токенов/с
  • gpt-oss:20b => 129,52 токенов/с

И для сравнения я также протестировал qwen3:14b и gpt-oss:120b

  • qwen3:14b => 60,12 токенов/с
  • gpt-oss:120b => 12,87 токенов/с

На более длинных окнах контекста скорость будет медленнее, в случае qwen3:30b-a3b, вероятно, значительно медленнее. Это снова, на моем ПК. Технические детали взяты из подробного вывода, и выделенная память приведена ниже, команды для проверки:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps показывающая выделение памяти на контексте 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Варианты Qwen3:30b

Доступны три варианта модели qwen3:30b: qwen3:30b, qwen3:30b-instruct и qwen3:30b-thinking.

Ключевые различия и рекомендации

  • qwen3:30b-instruct лучше всего подходит для разговоров, где приоритет отдается инструкциям пользователя, ясности и естественному диалогу.
  • qwen3:30b — это общая базовая модель, подходящая, если важно как следование инструкциям, так и использование инструментов в разнообразных задачах.
  • qwen3:30b-thinking преуспевает, когда основным фокусом являются глубокие рассуждения, математика и кодирование. Он превосходит другие модели в задачах, измеряющих логическую/математическую строгость, но не обязательно лучше для креативного письма или неформальных разговоров.

Прямое сравнение бенчмарков

Модель Рассуждения (AIME25) Кодирование (LiveCodeBench) Общие знания (MMLU Redux) Скорость и контекст Идеальный случай использования
qwen3:30b 70.9 57.4 89.5 256K токенов; Быстро Общий язык/агенты/многоязычность
qwen3:30b-instruct N/A (Ожидаемо близко к 30b) N/A ~Так же как 30b 256K токенов Следование инструкциям, выравнивание
qwen3:30b-thinking 85.0 66.0 91.4 256K токенов Математика, код, рассуждения, длинные документы

Для получения дополнительных бенчмарков, выбора оборудования и настройки производительности, посетите наш хаб Производительность LLM: бенчмарки, узкие места и оптимизация.

Полезные ссылки

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.