Comparação: Qwen3:30b vs GPT-OSS:20b

Comparando velocidade, parâmetros e desempenho desses dois modelos

Conteúdo da página

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade:

7 llamas

Arquitetura e Parâmetros

Feature Qwen3:30b-instruct GPT-OSS:20b
Parâmetros Totais 30,5 bilhões 21 bilhões
Parâmetros Ativados ~3,3 bilhões ~3,6 bilhões
Número de Camadas 48 24
Especialistas MoE por Camada 128 (8 ativos por token) 32 (4 ativos por token)
Mecanismo de Atenção Atenção Agrupada por Consulta (32Q /4KV) Atenção Agrupada Multi-Query (64Q /8KV)
Janela de Contexto 32.768 nativa; Até 262.144 estendida 128.000 tokens
Tokenizer Baseado em BPE, 151.936 vocabulário Baseado em GPT, ≈ 200k vocabulário

Seguimento de Instruções

  • Qwen3:30b-instruct é otimizado para seguir instruções com forte alinhamento com preferências humanas. Excelente em escrita criativa, interpretação de papéis, diálogos multivisitas e seguimento de instruções multilíngues. Esta variante foi finamente ajustada especificamente para fornecer respostas mais naturais, controladas e envolventes alinhadas com as instruções do usuário.
  • GPT-OSS:20b suporta o seguimento de instruções, mas geralmente é avaliado como ligeiramente inferior ao Qwen3:30b-instruct em ajustes de instruções sutis. Ele fornece funções de chamada comparáveis, saídas estruturadas e modos de raciocínio, mas pode atrasar no alinhamento conversacional e diálogos criativos.

Desempenho e Eficiência

  • Qwen3:30b-instruct destaca-se em raciocínio matemático, programação, tarefas lógicas complexas e cenários multilíngues que abrangem 119 idiomas e dialetos. Seu modo “pensando” permite raciocínio aprimorado, mas vem com custos de memória mais altos.
  • GPT-OSS:20b alcança desempenho comparável ao modelo o3-mini da OpenAI. Ele usa menos camadas, mas especialistas mais largos por camada e quantização nativa MXFP4 para inferência eficiente em hardware de consumo com requisitos de memória mais baixos (~16 GB vs mais alto para Qwen3).
  • GPT-OSS é aproximadamente 33% mais eficiente em memória e mais rápido em certas configurações de hardware, especialmente em GPUs de consumo, mas Qwen3 frequentemente fornece melhor alinhamento e profundidade de raciocínio, especialmente em casos de uso complexos.
  • Qwen3 tem uma opção de comprimento de contexto estendido mais longa disponível (até 262.144 tokens) em comparação com GPT-OSS 128.000 tokens, beneficiando tarefas que exigem compreensão de contexto muito longo.

Recomendação de Uso

  • Escolha Qwen3:30b-instruct para casos de uso que demandam seguimento de instruções superior, geração criativa, suporte multilíngue e raciocínio complexo.
  • Escolha GPT-OSS:20b se a eficiência de memória, velocidade de inferência em hardware de consumo e desempenho competitivo com menos parâmetros for a prioridade.

Esta comparação destaca Qwen3:30b-instruct como um modelo mais profundo e capaz com ajustes avançados de instruções, enquanto GPT-OSS:20b oferece uma alternativa mais compacta e eficiente com desempenho competitivo em benchmarks padrão.

Pontuações de benchmark especificamente comparando Qwen3:30b-instruct e GPT-OSS:20b para seguimento de instruções e parâmetros-chave de desempenho (MMLU, LMEval, HumanEval) não estão diretamente disponíveis nos resultados da pesquisa. No entanto, com base em relatórios publicados de benchmarks multilíngues e multitarefas existentes:

MMLU (Massive Multitask Language Understanding)

Difícil encontrar detalhes, apenas:

  • Os modelos da série Qwen3, especialmente na escala de 30B e acima, demonstram pontuações fortes de MMLU, geralmente excedendo 89%, indicando compreensão e capacidades de raciocínio muito competitivas em 57 domínios diversos.
  • GPT-OSS:20b também desempenha bem em benchmarks MMLU, mas normalmente obtém pontuação inferior aos modelos Qwen maiores devido ao menor número de parâmetros e menos ênfase no ajuste de instruções.

LMEval (Language Model Evaluation Toolkit)

Não há muitos detalhes no momento:

  • Os modelos Qwen3 mostram melhorias significativas em tarefas de raciocínio e de código dentro do LMEval, com pontuações aprimoradas em lógica, raciocínio matemático e capacidades gerais.
  • GPT-OSS:20b fornece desempenho robusto no LMEval, mas geralmente fica atrás do Qwen3:30b-instruct em subtarefas de raciocínio avançado e seguimento de instruções.

HumanEval (Benchmark de Geração de Código)

Poucos dados, apenas:

  • Qwen3:30b-instruct exibe forte desempenho em benchmarks de geração de código multilíngue como HumanEval-XL, suportando mais de 20 linguagens de programação e fornecendo precisão superior de geração de código translingual.
  • GPT-OSS:20b, embora competitivo, desempenha-se um pouco inferior ao Qwen3:30b-instruct em benchmarks HumanEval, especialmente em contextos de programação multilíngue e multilíngue devido ao treinamento multilíngue menos extenso.

Tabela de Resumo (tendências aproximadas da literatura):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Notas
Acurácia MMLU ~89-91% ~80-85% Qwen3 mais forte em conhecimento e raciocínio amplos
Pontuação LMEval Alta, raciocínio avançado e código Moderada, raciocínio básico Qwen3 destaca-se em matemática e lógica
HumanEval Alta performance de geração de código multilíngue Moderada Qwen3 melhor em geração de código translingual

Se forem necessários números exatos de benchmark, benchmarks multilíngues de grande escala como P-MMEval e HumanEval-XL mencionados em artigos de pesquisa recentes fornecem pontuações detalhadas para modelos incluindo Qwen3 e variantes comparáveis de GPT-OSS, mas não estão atualmente publicamente otimizados para recuperação direta de pontuação lado a lado.

Comparação de Velocidade entre Qwen3:30b e GPT-OSS:20b

No meu hardware (16 GB de VRAM) estou obtendo Qwen3:30b e GPT-OSS:20b rodando com janela de contexto de 4000, e eles estão produzindo:

  • qwen3:30b-a3b => 45,68 tokens/s
  • gpt-oss:20b => 129,52 tokens/s

E para comparação, também testei o qwen3:14b e gpt-oss:120b

  • qwen3:14b => 60,12 tokens/s
  • gpt-oss:120b => 12,87 tokens/s

Em janelas de contexto mais longas a velocidade será mais lenta, no caso do qwen3:30b-a3b provavelmente muito mais lenta. Isso novamente, no meu PC. Detalhes técnicos tirados da saída detalhada e memória alocada estão abaixo, comandos para tentar:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps mostrando alocação de memória em contexto de 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutos a partir de agora
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutos a partir de agora
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutos a partir de agora
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutos a partir de agora    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutos a partir de agora
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Variantes de Qwen3:30b

Há três variantes do modelo qwen3:30b disponíveis: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.

Diferenças Principais & Recomendações

  • qwen3:30b-instruct é ideal para conversas onde as instruções do usuário, clareza e diálogo natural são priorizadas.
  • qwen3:30b é a base geral, adequada se o seguimento de instruções e o uso de ferramentas forem importantes em tarefas diversas.
  • qwen3:30b-thinking destaca-se quando o raciocínio profundo, matemática e programação são o foco principal. Ele supera os outros em tarefas que medem rigor lógico/matemático, mas nem necessariamente é melhor para escrita criativa ou conversas casuais.

Comparação Direta de Benchmark

Modelo Raciocínio (AIME25) Programação (LiveCodeBench) Conhecimento Geral (MMLU Redux) Velocidade & Contexto Caso de Uso Ideal
qwen3:30b 70.9 57.4 89.5 256K tokens; Rápido Linguagem/agentes/multilíngue geral
qwen3:30b-instruct N/A (Próximo a 30b) N/A ~Mesmo que 30b 256K tokens Seguimento de instruções, alinhamento
qwen3:30b-thinking 85.0 66.0 91.4 256K tokens Matemática, código, raciocínio, documentos longos