Сравнение: Qwen3:30b против GPT-OSS:20b
Сравнение скорости, параметров и производительности этих двух моделей
Вот сравнение между Qwen3:30b и GPT-OSS:20b с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость:
Архитектура и параметры
Характеристика | Qwen3:30b-instruct | GPT-OSS:20b |
---|---|---|
Общее количество параметров | 30.5 миллиардов | 21 миллиард |
Активированные параметры | ~3.3 миллиарда | ~3.6 миллиарда |
Количество слоев | 48 | 24 |
MoE Экспертов на слой | 128 (8 активных на токен) | 32 (4 активных на токен) |
Механизм внимания | Группированное внимание запросов (32Q /4KV) | Группированное многозапросное внимание (64Q /8KV) |
Окно контекста | 32,768 нативно; До 262,144 расширенное | 128,000 токенов |
Токенизатор | На основе BPE, 151,936 словарный запас | На основе GPT, ≈ 200k словарный запас |
Выполнение инструкций
- Qwen3:30b-instruct оптимизирован для выполнения инструкций с сильным соответствием человеческим предпочтениям. Он преуспевает в творческом письме, ролевых играх, многоповоротных диалогах и многозначном выполнении инструкций. Эта версия специально дообучена для предоставления более естественных, контролируемых и увлекательных ответов в соответствии с инструкциями пользователя.
- GPT-OSS:20b поддерживает выполнение инструкций, но в целом оценивается немного ниже, чем Qwen3:30b-instruct, в тонкой настройке инструкций. Он предоставляет сопоставимые функции вызова, структурированный вывод и режимы рассуждения, но может отставать в согласованности разговора и творческом диалоге.
Производительность и эффективность
- Qwen3:30b-instruct преуспевает в математическом рассуждении, программировании, сложных логических задачах и многозначных сценариях, охватывающих 119 языков и диалектов. Его “режим мышления” позволяет улучшенное рассуждение, но сопровождается более высокими затратами памяти.
- GPT-OSS:20b достигает производительности, сопоставимой с моделью o3-mini от OpenAI. Он использует меньше слоев, но более широкие эксперты на слой и нативную квантование MXFP4 для эффективного вывода на потребительском оборудовании с меньшими требованиями к памяти (~16ГБ против более высоких для Qwen3).
- GPT-OSS примерно на 33% более эффективен в использовании памяти и быстрее на определенных аппаратных конфигурациях, особенно на потребительских GPU, но Qwen3 часто обеспечивает лучшее соответствие и глубину рассуждения, особенно в сложных сценариях использования.
- Qwen3 имеет более длинную доступную опцию расширенной длины контекста (до 262,144 токенов) по сравнению с 128,000 токенами у GPT-OSS, что полезно для задач, требующих очень длинного понимания контекста.
Рекомендации по использованию
- Выбирайте Qwen3:30b-instruct для сценариев использования, требующих превосходного выполнения инструкций, творческого генерации, многозначной поддержки и сложного рассуждения.
- Выбирайте GPT-OSS:20b, если приоритетом являются эффективность использования памяти, скорость вывода на потребительском оборудовании и конкурентоспособная базовая производительность с меньшим количеством параметров.
Это сравнение выделяет Qwen3:30b-instruct как более глубокую и мощную модель с продвинутой настройкой инструкций, в то время как GPT-OSS:20b предлагает более компактный, эффективный вариант с конкурентоспособной производительностью на стандартных бенчмарках.
Оценки бенчмарков, специально сравнивающие Qwen3:30b-instruct и GPT-OSS:20b для выполнения инструкций и ключевых параметров производительности (MMLU, LMEval, HumanEval), напрямую недоступны в результатах поиска. Однако, на основе существующих опубликованных многозначных и многозадачных бенчмарков:
MMLU (Massive Multitask Language Understanding)
Трудно найти детали, что есть:
- Модели серии Qwen3, особенно в масштабе 30B и выше, демонстрируют сильные оценки MMLU, обычно превышающие 89%, что указывает на очень конкурентоспособные способности понимания и рассуждения знаний в 57 различных областях.
- GPT-OSS:20b также хорошо справляется с бенчмарками MMLU, но обычно набирает меньше очков, чем более крупные модели Qwen, из-за меньшего количества параметров и меньшего акцента на дообучение инструкций.
LMEval (Language Model Evaluation Toolkit)
Не много деталей , что есть:
- Модели Qwen3 показывают значительное улучшение в задачах рассуждения и программирования в рамках LMEval, с улучшенными оценками в логике, математическом рассуждении и общих способностях.
- GPT-OSS:20b обеспечивает надежную базовую производительность на LMEval, но обычно уступает Qwen3:30b-instruct в продвинутых задачах рассуждения и выполнения инструкций.
HumanEval (Code Generation Benchmark)
Не много данных, что есть:
- Qwen3:30b-instruct демонстрирует сильную производительность на многозначных бенчмарках генерации кода, таких как HumanEval-XL, поддерживая более 20 языков программирования и обеспечивая превосходную точность кросс-языковой генерации кода.
- GPT-OSS:20b, хотя и конкурентоспособен, показывает несколько более низкие результаты, чем Qwen3:30b-instruct, в бенчмарках HumanEval, особенно в многозначных и многоязыковых программистских контекстах из-за менее обширного многозначного обучения.
Сводная таблица (приблизительные тенденции из литературы):
Бенчмарк | Qwen3:30b-instruct | GPT-OSS:20b | Примечания |
---|---|---|---|
Точность MMLU | ~89-91% | ~80-85% | Qwen3 сильнее в широком знании и рассуждении |
Оценки LMEval | Высокие, продвинутое рассуждение и код | Умеренные, базовое рассуждение | Qwen3 преуспевает в математике и логике |
HumanEval | Высокая многозначная генерация кода | Умеренная | Qwen3 лучше в кросс-языковой генерации кода |
Если точные оценки бенчмарков нужны, специализированные многозначные крупномасштабные бенчмарки, такие как P-MMEval и HumanEval-XL, упомянутые в недавних исследовательских работах, предоставляют подробные оценки для моделей, включая Qwen3 и сопоставимые варианты GPT-OSS, но эти данные не публично систематизированы для прямого сравнения оценок на данный момент.
Сравнение скорости Qwen3:30b и GPT-OSS:20b
На моем оборудовании (16GB VRAM) я получаю Qwen3:30b и GPT-OSS:20b работающими с 4000 контекстным окном, и они производят:
- qwen3:30b-a3b => 45.68 токенов/с
- gpt-oss:20b => 129.52 токенов/с
Для сравнения я также тестировал qwen3:14b и gpt-oss:120b
- qwen3:14b => 60.12 токенов/с
- gpt-oss:120b => 12.87 токенов/с
На более длинных контекстных окнах скорость будет медленнее, в случае qwen3:30b-a3b, вероятно, значительно медленнее. Это снова на моем ПК. Технические детали взяты из подробного вывода, и выделенная память указана ниже, команды для попытки:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps показывающий распределение памяти на 4K контексте
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Варианты Qwen3:30b
Доступны три варианта модели qwen3:30b: qwen3:30b, qwen3:30b-instruct и qwen3:30b-thinking.
Ключевые различия и рекомендации
- qwen3:30b-instruct лучше всего подходит для разговоров, где приоритетами являются инструкции пользователя, ясность и естественный диалог.
- qwen3:30b является общей основой, подходящей, если важно как выполнение инструкций, так и использование инструментов в различных задачах.
- qwen3:30b-thinking преуспевает, когда основное внимание уделяется глубокому рассуждению, математике и программированию. Он превосходит другие модели в задачах, измеряющих логическую/математическую строгость, но не обязательно лучше для творческого письма или неформальных разговоров.
Прямое сравнение бенчмарков
Модель | Рассуждение (AIME25) | Кодирование (LiveCodeBench) | Общие знания (MMLU Redux) | Скорость и контекст | Идеальный сценарий использования |
---|---|---|---|---|---|
qwen3:30b | 70.9 | 57.4 | 89.5 | 256K токенов; Быстро | Общий язык/агенты/многозначность |
qwen3:30b-instruct | N/A (Предполагается близко к 30b) | N/A | ~То же, что и 30b | 256K токенов | Выполнение инструкций, соответствие |
qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K токенов | Математика, код, рассуждение, длинные документы |
Полезные ссылки
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- Установка и настройка Ollama
- Шпаргалка по Ollama - самые полезные команды
- Ограничение LLMs с помощью структурированного вывода: Ollama, Qwen3 & Python или Go
- Интеграция Ollama с Python: Примеры использования REST API и клиента на Python