Сравнение: Qwen3:30b против GPT-OSS:20b

Сравнение скорости, параметров и производительности этих двух моделей

Содержимое страницы

Вот сравнение между Qwen3:30b и GPT-OSS:20b, с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость.

Для более подробной информации о пропускной способности, задержке, VRAM и бенчмарках на различных платформах и оборудовании, см. LLM Performance: Benchmarks, Bottlenecks & Optimization.

7 llamas

Архитектура и параметры

Характеристика Qwen3:30b-instruct GPT-OSS:20b
Общее количество параметров 30.5 миллиардов 21 миллиард
Активированные параметры ~3.3 миллиарда ~3.6 миллиарда
Количество слоев 48 24
MoE Экспертов на слой 128 (8 активных на токен) 32 (4 активных на токен)
Механизм внимания Группированное внимание запросов (32Q /4KV) Группированное многозапросное внимание (64Q /8KV)
Окно контекста 32,768 нативно; До 262,144 расширенное 128,000 токенов
Токенизатор На основе BPE, 151,936 словарь На основе GPT, ≈ 200k словарь

Выполнение инструкций

  • Qwen3:30b-instruct оптимизирован для выполнения инструкций с сильным соответствием человеческим предпочтениям. Он преуспевает в творческом письме, ролевых играх, многоповоротных диалогах и многозначном выполнении инструкций. Эта версия специально дообучена для предоставления более естественных, контролируемых и увлекательных ответов в соответствии с инструкциями пользователя.
  • GPT-OSS:20b поддерживает выполнение инструкций, но в целом оценивается немного ниже, чем Qwen3:30b-instruct, в тонкой настройке инструкций. Он предоставляет сопоставимые функции вызова, структурированный вывод и режимы рассуждения, но может отставать в согласованности диалога и творческом диалоге.

Производительность и эффективность

  • Qwen3:30b-instruct преуспевает в математическом рассуждении, программировании, сложных логических задачах и многозначных сценариях, охватывающих 119 языков и диалектов. Его «режим мышления» позволяет улучшенное рассуждение, но с более высокими затратами памяти.
  • GPT-OSS:20b достигает производительности, сопоставимой с моделью o3-mini от OpenAI. Он использует меньше слоев, но более широкие эксперты на слой и нативную квантование MXFP4 для эффективного вывода на потребительском оборудовании с меньшими требованиями к памяти (~16ГБ против более высоких для Qwen3).
  • GPT-OSS примерно на 33% более эффективен в использовании памяти и быстрее на некоторых конфигурациях оборудования, особенно на потребительских GPU, но Qwen3 часто обеспечивает лучшее соответствие и глубину рассуждения, особенно в сложных сценариях использования.
  • Qwen3 имеет более длинный доступный вариант расширенной длины контекста (до 262,144 токенов) по сравнению с 128,000 токенами у GPT-OSS, что полезно для задач, требующих очень длинного понимания контекста.

Рекомендации по использованию

  • Выберите Qwen3:30b-instruct для сценариев использования, требующих превосходного выполнения инструкций, творческого генерации, многозначной поддержки и сложного рассуждения.
  • Выберите GPT-OSS:20b, если приоритетом являются эффективность использования памяти, скорость вывода на потребительском оборудовании и конкурентоспособная базовая производительность с меньшим количеством параметров.

Это сравнение выделяет Qwen3:30b-instruct как более глубокую и мощную модель с продвинутой настройкой инструкций, в то время как GPT-OSS:20b предлагает более компактный, эффективный вариант с конкурентоспособной производительностью на стандартных бенчмарках.

Оценки бенчмарков, специально сравнивающие Qwen3:30b-instruct и GPT-OSS:20b по выполнению инструкций и ключевым параметрам производительности (MMLU, LMEval, HumanEval), напрямую недоступны в результатах поиска. Однако, на основе существующих опубликованных многозначных и многозадачных бенчмарков:

MMLU (Massive Multitask Language Understanding)

Сложно найти детали, просто:

  • Модели серии Qwen3, особенно в масштабе 30B и выше, демонстрируют сильные оценки MMLU, обычно превышающие 89%, что указывает на очень конкурентоспособные способности понимания и рассуждения знаний в 57 различных областях.
  • GPT-OSS:20b также хорошо справляется с бенчмарками MMLU, но обычно набирает меньше очков, чем более крупные модели Qwen, из-за меньшего количества параметров и меньшего акцента на тонкую настройку инструкций.

LMEval (Language Model Evaluation Toolkit)

Пока мало деталей:

  • Модели Qwen3 показывают значительное улучшение в задачах рассуждения и программирования в рамках LMEval, с повышенными оценками в логике, математическом рассуждении и общих способностях.
  • GPT-OSS:20b обеспечивает надежную базовую производительность в LMEval, но обычно уступает Qwen3:30b-instruct в продвинутых задачах рассуждения и выполнения инструкций.

HumanEval (Code Generation Benchmark)

Мало данных, просто:

  • Qwen3:30b-instruct демонстрирует сильную производительность в многозначных бенчмарках генерации кода, таких как HumanEval-XL, поддерживая более 20 языков программирования и обеспечивая превосходную точность кросс-языковой генерации кода.
  • GPT-OSS:20b, хотя и конкурентоспособен, показывает несколько более низкие результаты, чем Qwen3:30b-instruct в бенчмарках HumanEval, особенно в многозначных и многоязыковых программистских контекстах из-за менее обширного многозначного обучения.

Сводная таблица (приблизительные тенденции из литературы):

Бенчмарк Qwen3:30b-instruct GPT-OSS:20b Примечания
Точность MMLU ~89-91% ~80-85% Qwen3 сильнее в широком знании и рассуждении
Оценки LMEval Высокие, продвинутое рассуждение и код Умеренные, базовое рассуждение Qwen3 преуспевает в математике и логике
HumanEval Высокая многозначная производительность генерации кода Умеренная Qwen3 лучше в кросс-языковой генерации кода

Если точные оценки бенчмарков необходимы, специализированные многозначные крупномасштабные бенчмарки, такие как P-MMEval и HumanEval-XL, упомянутые в недавних исследовательских работах, предоставляют подробные оценки для моделей, включая Qwen3 и сопоставимые варианты GPT-OSS, но эти данные не публично систематизированы для прямого сравнения оценок на данный момент.

Сравнение скорости Qwen3:30b и GPT-OSS:20b

На моем оборудовании (16GB VRAM) я получаю Qwen3:30b и GPT-OSS:20b работающими с 4000 контекстным окном, и они производят:

  • qwen3:30b-a3b => 45.68 токенов/с
  • gpt-oss:20b => 129.52 токенов/с

Для сравнения я также протестировал qwen3:14b и gpt-oss:120b

  • qwen3:14b => 60.12 токенов/с
  • gpt-oss:120b => 12.87 токенов/с

На более длинных контекстных окнах скорость будет медленнее, в случае qwen3:30b-a3b, вероятно, значительно медленнее. Это снова на моем ПК. Технические детали взяты из подробного вывода, а выделенная память указана ниже, команды для попытки:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps показывающая распределение памяти на 4K контексте

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Qwen3:30b варианты

Доступны три варианта модели qwen3:30b: qwen3:30b, qwen3:30b-instruct и qwen3:30b-thinking.

Ключевые различия и рекомендации

  • qwen3:30b-instruct лучше всего подходит для диалогов, где приоритетны инструкции пользователя, ясность и естественное общение.
  • qwen3:30b - это общая основа, подходящая, если важны как следование инструкциям, так и использование инструментов для разнообразных задач.
  • qwen3:30b-thinking превосходит другие варианты в задачах, требующих глубокого анализа, математики и программирования. Он показывает лучшие результаты в задачах, измеряющих логическую/математическую строгость, но не обязательно лучше для творческого письма или неформального общения.

Прямое сравнение показателей

Модель Логика (AIME25) Программирование (LiveCodeBench) Общие знания (MMLU Redux) Скорость и контекст Оптимальное использование
qwen3:30b 70.9 57.4 89.5 256K токенов; Быстрая Общий язык/агенты/многоязычность
qwen3:30b-instruct N/A (Ожидается близко к 30b) N/A ~То же, что и 30b 256K токенов Следование инструкциям, выравнивание
qwen3:30b-thinking 85.0 66.0 91.4 256K токенов Математика, код, логика, длинные документы

Для большего количества показателей, выбора оборудования и настройки производительности посетите наш LLM Performance: Benchmarks, Bottlenecks & Optimization раздел.

Полезные ссылки