Comparação: Qwen3:30b vs GPT-OSS:20b

Comparando velocidade, parâmetros e desempenho desses dois modelos

Conteúdo da página

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade.

Para mais informações sobre throughput, latência, VRAM e benchmarks em diferentes runtimes e hardware, veja Desempenho de LLM: Benchmarks, Bottlenecks & Otimização.

7 llamas

Arquitetura e Parâmetros

Feature Qwen3:30b-instruct GPT-OSS:20b
Total de Parâmetros 30,5 bilhões 21 bilhões
Parâmetros Ativados ~3,3 bilhões ~3,6 bilhões
Número de Camadas 48 24
Especialistas MoE por Camada 128 (8 ativos por token) 32 (4 ativos por token)
Mecanismo de Atenção Atenção Agrupada por Consulta (32Q /4KV) Atenção Agrupada Multi-Query (64Q /8KV)
Janela de Contexto 32.768 nativa; Até 262.144 estendida 128.000 tokens
Tokenizer Baseado em BPE, 151.936 vocabulário Baseado em GPT, ≈ 200k vocabulário

Seguimento de Instruções

  • Qwen3:30b-instruct está otimizado para seguir instruções com forte alinhamento de preferência humana. Excelente em escrita criativa, role-playing, diálogos multivisitas e seguimento de instruções multilíngues. Esta variante foi finetunada especificamente para fornecer respostas mais naturais, controladas e envolventes alinhadas com as instruções do usuário.
  • GPT-OSS:20b suporta o seguimento de instruções, mas geralmente é avaliado como ligeiramente inferior ao Qwen3:30b-instruct em ajustes refinados de instruções. Ele fornece funções de chamada comparáveis, saída estruturada e modos de raciocínio, mas pode atrasar no alinhamento conversacional e diálogos criativos.

Desempenho e Eficiência

  • Qwen3:30b-instruct destaca-se em raciocínio matemático, programação, tarefas lógicas complexas e cenários multilíngues que cobrem 119 idiomas e dialetos. Seu modo “pensando” permite um raciocínio aprimorado, mas traz custos de memória mais altos.
  • GPT-OSS:20b alcança desempenho comparável ao modelo o3-mini da OpenAI. Ele usa menos camadas, mas especialistas mais largos por camada e quantização nativa MXFP4 para inferência eficiente em hardware de consumo com requisitos de memória mais baixos (~16 GB vs mais alto para Qwen3).
  • GPT-OSS é aproximadamente 33% mais eficiente em termos de memória e mais rápido em certas configurações de hardware, especialmente em GPUs de consumo, mas Qwen3 frequentemente fornece melhor alinhamento e profundidade de raciocínio, especialmente em casos de uso complexos.
  • Qwen3 tem uma opção de comprimento de contexto estendido mais longa disponível (até 262.144 tokens) em comparação com GPT-OSS 128.000 tokens, beneficiando tarefas que exigem compreensão de contexto muito longo.

Recomendação de Uso

  • Escolha Qwen3:30b-instruct para casos de uso que demandam seguimento de instrução superior, geração criativa, suporte multilíngue e raciocínio complexo.
  • Escolha GPT-OSS:20b se a eficiência de memória, velocidade de inferência em hardware de consumo e desempenho competitivo com menos parâmetros for a prioridade.

Esta comparação destaca Qwen3:30b-instruct como um modelo mais profundo e capaz com ajustes avançados de instruções, enquanto GPT-OSS:20b oferece uma alternativa mais compacta e eficiente com desempenho competitivo em benchmarks padrão.

Pontos de benchmark específicos comparando Qwen3:30b-instruct e GPT-OSS:20b para seguimento de instruções e parâmetros de desempenho-chave (MMLU, LMEval, HumanEval) não estão diretamente disponíveis nos resultados da pesquisa. No entanto, com base em relatórios publicados de benchmarks multilíngues e multitarefas existentes:

MMLU (Massive Multitask Language Understanding)

Difícil encontrar os detalhes, apenas:

  • Os modelos da série Qwen3, especialmente na escala de 30B e acima, demonstram pontuação forte em MMLU, geralmente excedendo 89%, indicando capacidades competitivas de compreensão e raciocínio de conhecimento em 57 domínios diversos.
  • GPT-OSS:20b também desempenha bem em benchmarks MMLU, mas geralmente obtém pontuação mais baixa que modelos Qwen maiores devido ao menor número de parâmetros e menos ênfase no ajuste de instruções.

LMEval (Language Model Evaluation Toolkit)

Não há muitos detalhes no momento:

  • Os modelos Qwen3 mostram melhorias significativas em tarefas de raciocínio e código dentro do LMEval, com pontuação aprimorada em lógica, raciocínio matemático e capacidades gerais.
  • GPT-OSS:20b fornece desempenho robusto no LMEval, mas geralmente fica atrás do Qwen3:30b-instruct em subtarefas de raciocínio avançado e seguimento de instruções.

HumanEval (Benchmark de Geração de Código)

Poucos dados, apenas:

  • Qwen3:30b-instruct demonstra forte desempenho em benchmarks de geração de código multilíngue como HumanEval-XL, suportando mais de 20 linguagens de programação e fornecendo precisão superior de geração de código entre línguas.
  • GPT-OSS:20b, embora competitivo, desempenha-se um pouco pior que Qwen3:30b-instruct em benchmarks HumanEval, especialmente em contextos de programação multilíngue e multilíngue devido ao treinamento multilíngue menos extenso.

Tabela Resumo (tendências aproximadas da literatura):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Notas
Acurácia MMLU ~89-91% ~80-85% Qwen3 mais forte em conhecimento e raciocínio amplos
Pontuação LMEval Alta, raciocínio avançado & código Moderada, raciocínio básico Qwen3 destaca-se em matemática e lógica
HumanEval Alta performance de geração de código multilíngue Moderada Qwen3 melhor em geração de código entre línguas

Se forem necessários números exatos de benchmarks, benchmarks multilíngues de grande escala como P-MMEval e HumanEval-XL citados em artigos de pesquisa recentes fornecem pontuações detalhadas para modelos incluindo Qwen3 e variantes comparáveis de GPT-OSS, mas não estão atualmente publicamente otimizados para recuperação direta de pontuação lado a lado.

Comparação de Velocidade entre Qwen3:30b e GPT-OSS:20b

No meu hardware (16 GB VRAM) estou obtendo Qwen3:30b e GPT-OSS:20b rodando com 4000 janela de contexto, e eles estão produzindo:

  • qwen3:30b-a3b => 45,68 tokens/s
  • gpt-oss:20b => 129,52 tokens/s

E para comparação, também testei o qwen3:14b e gpt-oss:120b

  • qwen3:14b => 60,12 tokens/s
  • gpt-oss:120b => 12,87 tokens/s

Em janelas de contexto mais longas, a velocidade será mais lenta, no caso de qwen3:30b-a3b provavelmente muito mais lenta. Isso novamente, no meu PC. Detalhes técnicos obtidos a partir da saída detalhada e memória alocada estão abaixo, comandos para tentar:

  • ollama run qwen3:30b-a3b –verbose describe difference between state capitals in australia
  • ollama ps mostrando alocação de memória em contexto de 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutos a partir de agora
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutos a partir de agora
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutos a partir de agora
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutos a partir de agora    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutos a partir de agora
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Variantes de Qwen3:30b

Há três variantes do modelo qwen3:30b disponíveis: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.

Diferenças Principais & Recomendações

  • qwen3:30b-instruct é a melhor escolha para conversas onde as instruções do usuário, clareza e diálogo natural são priorizadas.
  • qwen3:30b é a base geral, adequada se o seguimento de instruções e o uso de ferramentas forem importantes em tarefas diversas.
  • qwen3:30b-thinking destaca-se quando o raciocínio profundo, matemática e programação são o foco principal. Ele supera os outros em tarefas que medem rigor lógico/matemático, mas nem necessariamente é melhor para escrita criativa ou conversas casuais.

Comparação Direta de Benchmark

Modelo Raciocínio (AIME25) Programação (LiveCodeBench) Conhecimento Geral (MMLU Redux) Velocidade & Contexto Caso de Uso Ideal
qwen3:30b 70.9 57.4 89.5 256K tokens; Rápido Linguagem geral/agentes/multilíngue
qwen3:30b-instruct N/A (Planejado fechar próximo a 30b) N/A ~Mesmo que 30b 256K tokens Seguimento de instruções, alinhamento
qwen3:30b-thinking 85.0 66.0 91.4 256K tokens Matemática, código, raciocínio, documentos longos

Para mais benchmarks, escolhas de hardware e otimização de desempenho, consulte nosso Desempenho de LLM: Benchmarks, Bottlenecks & Otimização hub.