Сравнение: Qwen3:30b против GPT-OSS:20b

Сравнение скорости, параметров и производительности этих двух моделей

Содержимое страницы

Вот сравнение между Qwen3:30b и GPT-OSS:20b с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость:

7 llamas

Архитектура и параметры

Характеристика Qwen3:30b-instruct GPT-OSS:20b
Общее количество параметров 30.5 миллиардов 21 миллиард
Активированные параметры ~3.3 миллиарда ~3.6 миллиарда
Количество слоев 48 24
MoE Экспертов на слой 128 (8 активных на токен) 32 (4 активных на токен)
Механизм внимания Группированное внимание запросов (32Q /4KV) Группированное многозапросное внимание (64Q /8KV)
Окно контекста 32,768 нативно; До 262,144 расширенное 128,000 токенов
Токенизатор На основе BPE, 151,936 словарный запас На основе GPT, ≈ 200k словарный запас

Выполнение инструкций

  • Qwen3:30b-instruct оптимизирован для выполнения инструкций с сильным соответствием человеческим предпочтениям. Он преуспевает в творческом письме, ролевых играх, многоповоротных диалогах и многозначном выполнении инструкций. Эта версия специально дообучена для предоставления более естественных, контролируемых и увлекательных ответов в соответствии с инструкциями пользователя.
  • GPT-OSS:20b поддерживает выполнение инструкций, но в целом оценивается немного ниже, чем Qwen3:30b-instruct, в тонкой настройке инструкций. Он предоставляет сопоставимые функции вызова, структурированный вывод и режимы рассуждения, но может отставать в согласованности разговора и творческом диалоге.

Производительность и эффективность

  • Qwen3:30b-instruct преуспевает в математическом рассуждении, программировании, сложных логических задачах и многозначных сценариях, охватывающих 119 языков и диалектов. Его “режим мышления” позволяет улучшенное рассуждение, но сопровождается более высокими затратами памяти.
  • GPT-OSS:20b достигает производительности, сопоставимой с моделью o3-mini от OpenAI. Он использует меньше слоев, но более широкие эксперты на слой и нативную квантование MXFP4 для эффективного вывода на потребительском оборудовании с меньшими требованиями к памяти (~16ГБ против более высоких для Qwen3).
  • GPT-OSS примерно на 33% более эффективен в использовании памяти и быстрее на определенных аппаратных конфигурациях, особенно на потребительских GPU, но Qwen3 часто обеспечивает лучшее соответствие и глубину рассуждения, особенно в сложных сценариях использования.
  • Qwen3 имеет более длинную доступную опцию расширенной длины контекста (до 262,144 токенов) по сравнению с 128,000 токенами у GPT-OSS, что полезно для задач, требующих очень длинного понимания контекста.

Рекомендации по использованию

  • Выбирайте Qwen3:30b-instruct для сценариев использования, требующих превосходного выполнения инструкций, творческого генерации, многозначной поддержки и сложного рассуждения.
  • Выбирайте GPT-OSS:20b, если приоритетом являются эффективность использования памяти, скорость вывода на потребительском оборудовании и конкурентоспособная базовая производительность с меньшим количеством параметров.

Это сравнение выделяет Qwen3:30b-instruct как более глубокую и мощную модель с продвинутой настройкой инструкций, в то время как GPT-OSS:20b предлагает более компактный, эффективный вариант с конкурентоспособной производительностью на стандартных бенчмарках.

Оценки бенчмарков, специально сравнивающие Qwen3:30b-instruct и GPT-OSS:20b для выполнения инструкций и ключевых параметров производительности (MMLU, LMEval, HumanEval), напрямую недоступны в результатах поиска. Однако, на основе существующих опубликованных многозначных и многозадачных бенчмарков:

MMLU (Massive Multitask Language Understanding)

Трудно найти детали, что есть:

  • Модели серии Qwen3, особенно в масштабе 30B и выше, демонстрируют сильные оценки MMLU, обычно превышающие 89%, что указывает на очень конкурентоспособные способности понимания и рассуждения знаний в 57 различных областях.
  • GPT-OSS:20b также хорошо справляется с бенчмарками MMLU, но обычно набирает меньше очков, чем более крупные модели Qwen, из-за меньшего количества параметров и меньшего акцента на дообучение инструкций.

LMEval (Language Model Evaluation Toolkit)

Не много деталей , что есть:

  • Модели Qwen3 показывают значительное улучшение в задачах рассуждения и программирования в рамках LMEval, с улучшенными оценками в логике, математическом рассуждении и общих способностях.
  • GPT-OSS:20b обеспечивает надежную базовую производительность на LMEval, но обычно уступает Qwen3:30b-instruct в продвинутых задачах рассуждения и выполнения инструкций.

HumanEval (Code Generation Benchmark)

Не много данных, что есть:

  • Qwen3:30b-instruct демонстрирует сильную производительность на многозначных бенчмарках генерации кода, таких как HumanEval-XL, поддерживая более 20 языков программирования и обеспечивая превосходную точность кросс-языковой генерации кода.
  • GPT-OSS:20b, хотя и конкурентоспособен, показывает несколько более низкие результаты, чем Qwen3:30b-instruct, в бенчмарках HumanEval, особенно в многозначных и многоязыковых программистских контекстах из-за менее обширного многозначного обучения.

Сводная таблица (приблизительные тенденции из литературы):

Бенчмарк Qwen3:30b-instruct GPT-OSS:20b Примечания
Точность MMLU ~89-91% ~80-85% Qwen3 сильнее в широком знании и рассуждении
Оценки LMEval Высокие, продвинутое рассуждение и код Умеренные, базовое рассуждение Qwen3 преуспевает в математике и логике
HumanEval Высокая многозначная генерация кода Умеренная Qwen3 лучше в кросс-языковой генерации кода

Если точные оценки бенчмарков нужны, специализированные многозначные крупномасштабные бенчмарки, такие как P-MMEval и HumanEval-XL, упомянутые в недавних исследовательских работах, предоставляют подробные оценки для моделей, включая Qwen3 и сопоставимые варианты GPT-OSS, но эти данные не публично систематизированы для прямого сравнения оценок на данный момент.

Сравнение скорости Qwen3:30b и GPT-OSS:20b

На моем оборудовании (16GB VRAM) я получаю Qwen3:30b и GPT-OSS:20b работающими с 4000 контекстным окном, и они производят:

  • qwen3:30b-a3b => 45.68 токенов/с
  • gpt-oss:20b => 129.52 токенов/с

Для сравнения я также тестировал qwen3:14b и gpt-oss:120b

  • qwen3:14b => 60.12 токенов/с
  • gpt-oss:120b => 12.87 токенов/с

На более длинных контекстных окнах скорость будет медленнее, в случае qwen3:30b-a3b, вероятно, значительно медленнее. Это снова на моем ПК. Технические детали взяты из подробного вывода, и выделенная память указана ниже, команды для попытки:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps показывающий распределение памяти на 4K контексте

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Варианты Qwen3:30b

Доступны три варианта модели qwen3:30b: qwen3:30b, qwen3:30b-instruct и qwen3:30b-thinking.

Ключевые различия и рекомендации

  • qwen3:30b-instruct лучше всего подходит для разговоров, где приоритетами являются инструкции пользователя, ясность и естественный диалог.
  • qwen3:30b является общей основой, подходящей, если важно как выполнение инструкций, так и использование инструментов в различных задачах.
  • qwen3:30b-thinking преуспевает, когда основное внимание уделяется глубокому рассуждению, математике и программированию. Он превосходит другие модели в задачах, измеряющих логическую/математическую строгость, но не обязательно лучше для творческого письма или неформальных разговоров.

Прямое сравнение бенчмарков

Модель Рассуждение (AIME25) Кодирование (LiveCodeBench) Общие знания (MMLU Redux) Скорость и контекст Идеальный сценарий использования
qwen3:30b 70.9 57.4 89.5 256K токенов; Быстро Общий язык/агенты/многозначность
qwen3:30b-instruct N/A (Предполагается близко к 30b) N/A ~То же, что и 30b 256K токенов Выполнение инструкций, соответствие
qwen3:30b-thinking 85.0 66.0 91.4 256K токенов Математика, код, рассуждение, длинные документы

Полезные ссылки