Сравнение: Qwen3:30b и GPT-OSS:20b
Сравнение скорости, параметров и производительности этих двух моделей
Ниже приведено сравнение Qwen3:30b и GPT-OSS:20b с акцентом на следовании инструкциям и параметрах производительности, спецификациях и скорости.
Для получения дополнительной информации о пропускной способности, задержке, объеме VRAM и результатах бенчмарков в различных средах выполнения и на аппаратном обеспечении, см. Производительность LLM: бенчмарки, узкие места и оптимизация.

Чтобы узнать больше о настройках выборки по умолчанию для циклов агентов в новой линейке Qwen (включая штрафы и пресеты для мышления и программирования), сверяйтесь с параметрами агентного вывода для Qwen и Gemma.
Архитектура и параметры
| Характеристика | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Общее количество параметров | 30,5 миллиарда | 21 миллиард |
| Активированные параметры | ~3,3 миллиарда | ~3,6 миллиарда |
| Количество слоев | 48 | 24 |
| Эксперты MoE на слой | 128 (8 активных на токен) | 32 (4 активных на токен) |
| Механизм внимания | Grouped Query Attention (32Q /4KV) | Grouped Multi-Query Attention (64Q /8KV) |
| Контекстное окно | 32 768 нативно; до 262 144 с расширением | 128 000 токенов |
| Токенизатор | На основе BPE, словарь из 151 936 | На основе GPT, ≈ 200k словарь |
Следование инструкциям
- Qwen3:30b-instruct оптимизирован для следования инструкциям с сильным выравниванием предпочтений человека. Он преуспевает в креативном письме, ролевых играх, многоходовых диалогах и многоязычном следовании инструкциям. Эта версия специально дообучена для предоставления более естественных, контролируемых и увлекательных ответов, соответствующих инструкциям пользователя.
- GPT-OSS:20b поддерживает следование инструкциям, но, как правило, немного уступает Qwen3:30b-instruct в тонкой настройке инструкций. Он обеспечивает сопоставимые возможности вызова функций, структурированного вывода и режимы рассуждений, но может отставать в выравнивании диалогов и креативном диалоге.
Производительность и эффективность
- Qwen3:30b-instruct преуспевает в математических рассуждениях, кодировании, сложных логических задачах и многоязычных сценариях, охватывая 119 языков и диалектов. Его режим «мышления» позволяет улучшить рассуждения, но требует больших затрат памяти.
- GPT-OSS:20b достигает производительности, сопоставимой с моделью OpenAI o3-mini. Он использует меньше слоев, но более широких экспертов на слой и нативную квантование MXFP4 для эффективного вывода на потребительском аппаратном обеспечении с меньшими требованиями к памяти (~16 ГБ против более высоких для Qwen3).
- GPT-OSS примерно на 33% более эффективен по памяти и быстрее на определенных аппаратных конфигурациях, особенно на потребительских GPU, но Qwen3 часто обеспечивает лучшее выравнивание и глубину рассуждений, особенно в сложных случаях использования.
- Qwen3 имеет более длинный доступный вариант расширенной длины контекста (до 262 144 токенов) по сравнению с GPT-OSS (128 000 токенов), что полезно для задач, требующих понимания очень длинного контекста.
Рекомендации по использованию
- Выбирайте Qwen3:30b-instruct для сценариев, требующих превосходного следования инструкциям, креативной генерации, многоязычной поддержки и сложных рассуждений.
- Выбирайте GPT-OSS:20b, если приоритетом являются эффективность использования памяти, скорость вывода на потребительском аппаратном обеспечении и конкурентоспособная базовая производительность при меньшем количестве параметров.
Это сравнение выделяет Qwen3:30b-instruct как более глубокую и capable модель с продвинутой настройкой инструкций, в то время как GPT-OSS:20b предлагает более компактивную и эффективную альтернативу с конкурентоспособной производительностью в стандартных бенчмарках.
Результаты бенчмарков, конкретно сравнивающие Qwen3:30b-instruct и GPT-OSS:20b по следованию инструкциям и ключевым параметрам производительности (MMLU, LMEval, HumanEval), не доступны напрямую в результатах поиска. Однако, основываясь на существующих опубликованных отчетах о многоязычных и многозадачных бенчмарках:
MMLU (Massive Multitask Language Understanding)
Трудно найти детали, только:
- Модели серии Qwen3, особенно в масштабе 30B и выше, демонстрируют высокие баллы MMLU, как правило, превышающие 89%, что указывает на очень конкурентоспособные способности понимания знаний и рассуждений в 57 различных областях.
- GPT-OSS:20b также хорошо показывает себя в бенчмарках MMLU, но обычно набирает меньше баллов, чем более крупные модели Qwen, из-за меньшего количества параметров и меньшего акцента на дообучении инструкциям.
LMEval (Language Model Evaluation Toolkit)
Не так много деталей на данный момент:
- Модели Qwen3 показывают значительное улучшение в рассуждениях и задачах, связанных с кодом, в рамках LMEval, с улучшенными баллами по логике, математическим рассуждениям и общим возможностям.
- GPT-OSS:20b обеспечивает надежную базовую производительность в LMEval, но, как правило, отстает от Qwen3:30b-instruct в продвинутых рассуждениях и подзадачах следования инструкциям.
HumanEval (Бенчмарк генерации кода)
Не так много данных, только:
- Qwen3:30b-instruct демонстрирует сильную производительность в многоязычных бенчмарках генерации кода, таких как HumanEval-XL, поддерживая более 20 языков программирования и обеспечивая превосходную точность кросс-языковой генерации кода.
- GPT-OSS:20b, хотя и конкурентоспособен, показывает несколько более низкие результаты в бенчмарках HumanEval, чем Qwen3:30b-instruct, особенно в многоязычных контекстах программирования из-за менее обширного многоязычного обучения.
Сводная таблица (приблизительные тренды из литературы):
| Бенчмарк | Qwen3:30b-instruct | GPT-OSS:20b | Примечания |
|---|---|---|---|
| Точность MMLU | ~89-91% | ~80-85% | Qwen3 сильнее в широких знаниях и рассуждениях |
| Баллы LMEval | Высокие, продвинутые рассуждения и код | Средние, базовые рассуждения | Qwen3 преуспевает в математике и логике |
| HumanEval | Высокая производительность многоязычной генерации кода | Средняя | Qwen3 лучше в кросс-языковой генерации кода |
Если нужны точные числа бенчмарков, специализированные многоязычные крупномасштабные бенчмарки, такие как P-MMEval и HumanEval-XL, упомянутые в последних исследовательских статьях, предоставляют подробные баллы для моделей, включая Qwen3 и сопоставимые варианты GPT-OSS, но они не систематизированы публично для прямого сравнения баллов бок о бок на данный момент.
Сравнение скорости Qwen3:30b и GPT-OSS:20b
На моем оборудовании (16 ГБ VRAM) я получаю Qwen3:30b и GPT-OSS:20b, работающие с окном контекста 4000, и они производят:
- qwen3:30b-a3b => 45,68 токенов/с
- gpt-oss:20b => 129,52 токенов/с
И для сравнения я также протестировал qwen3:14b и gpt-oss:120b
- qwen3:14b => 60,12 токенов/с
- gpt-oss:120b => 12,87 токенов/с
На более длинных окнах контекста скорость будет медленнее, в случае qwen3:30b-a3b, вероятно, значительно медленнее. Это снова, на моем ПК. Технические детали взяты из подробного вывода, и выделенная память приведена ниже, команды для проверки:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps показывающая выделение памяти на контексте 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Варианты Qwen3:30b
Доступны три варианта модели qwen3:30b: qwen3:30b, qwen3:30b-instruct и qwen3:30b-thinking.
Ключевые различия и рекомендации
- qwen3:30b-instruct лучше всего подходит для разговоров, где приоритет отдается инструкциям пользователя, ясности и естественному диалогу.
- qwen3:30b — это общая базовая модель, подходящая, если важно как следование инструкциям, так и использование инструментов в разнообразных задачах.
- qwen3:30b-thinking преуспевает, когда основным фокусом являются глубокие рассуждения, математика и кодирование. Он превосходит другие модели в задачах, измеряющих логическую/математическую строгость, но не обязательно лучше для креативного письма или неформальных разговоров.
Прямое сравнение бенчмарков
| Модель | Рассуждения (AIME25) | Кодирование (LiveCodeBench) | Общие знания (MMLU Redux) | Скорость и контекст | Идеальный случай использования |
|---|---|---|---|---|---|
| qwen3:30b | 70.9 | 57.4 | 89.5 | 256K токенов; Быстро | Общий язык/агенты/многоязычность |
| qwen3:30b-instruct | N/A (Ожидаемо близко к 30b) | N/A | ~Так же как 30b | 256K токенов | Следование инструкциям, выравнивание |
| qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K токенов | Математика, код, рассуждения, длинные документы |
Для получения дополнительных бенчмарков, выбора оборудования и настройки производительности, посетите наш хаб Производительность LLM: бенчмарки, узкие места и оптимизация.
Полезные ссылки
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Установка и настройка Ollama
- Шпаргалка Ollama - наиболее полезные команды
- Ограничение LLM структурированным выводом: Ollama, Qwen3 и Python или Go
- Интеграция Ollama с Python: примеры REST API и Python-клиента