Como o Qwen3 30b se compara ao GPT-OSS 20b?

O Qwen3 30b geralmente oferece melhor capacidade de seguir instruções, raciocínio e desempenho multilíngue. O GPT-OSS 20b é mais rápido e eficiente em termos de memória em GPUs de consumo (por exemplo, cerca de 33% menos VRAM e mais tokens por segundo em muitos cenários).

Qual modelo é mais rápido, Qwen3 30b ou GPT-OSS 20b?

O GPT-OSS 20b é normalmente mais rápido. Com 16 GB de VRAM e um contexto de 4K, o GPT-OSS 20b pode atingir cerca de 130 tokens por segundo, contra aproximadamente 46 tokens por segundo do Qwen3 30b a3b, embora os valores exatos dependam do hardware e do tamanho do contexto.

Quando devo escolher o Qwen3 30b em vez do GPT-OSS 20b?

Escolha o Qwen3 30b quando precisar de melhor seguimento de instruções, saída criativa ou multilíngue, raciocínio complexo ou contexto mais longo (por exemplo, até 262K tokens). Escolha o GPT-OSS 20b quando a velocidade e o menor uso de VRAM em hardware de consumo forem mais importantes.

Quanta VRAM o Qwen3 30b e o GPT-OSS 20b necessitam?

O Qwen3 30b a3b pode ser executado em 16 GB de VRAM com offload para a CPU (por exemplo, modelo de cerca de 20 GB). O GPT-OSS 20b cabe mais confortavelmente em 16 GB de GPU (por exemplo, cerca de 14 GB alocados) e pode ser executado totalmente na GPU.

Onde posso encontrar mais informações sobre o desempenho e os benchmarks de LLMs?

Nosso hub de desempenho de LLMs abrange throughput versus latência, limites de VRAM, solicitações paralelas e benchmarks em diferentes runtimes e hardware.

Comparação: Qwen3:30b vs GPT-OSS:20b

Comparando velocidade, parâmetros e desempenho desses dois modelos

Conteúdo da página

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b, com foco na capacidade de seguir instruções e nos parâmetros de desempenho, especificações e velocidade.

Para mais informações sobre vazão, latência, VRAM e benchmarks em diferentes tempos de execução e hardware, consulte Desempenho de LLMs: Benchmarks, Gargalos & Otimização.

7 llamas

Para valores padrão de amostragem orientados para loops de agentes na nova linha Qwen (incluindo penalidades e predefinições de pensamento versus codificação), consulte os parâmetros de inferência agêntica para Qwen e Gemma.

Arquitetura e Parâmetros

Recurso	Qwen3:30b-instruct	GPT-OSS:20b
Parâmetros Totais	30,5 bilhões	21 bilhões
Parâmetros Ativados	~3,3 bilhões	~3,6 bilhões
Número de Camadas	48	24
Especialistas MoE por Camada	128 (8 ativos por token)	32 (4 ativos por token)
Mecanismo de Atenção	Grouped Query Attention (32Q /4KV)	Grouped Multi-Query Attention (64Q /8KV)
Janela de Contexto	32.768 nativo; Até 262.144 estendido	128.000 tokens
Tokenizador	Baseado em BPE, vocabulário de 151.936	Baseado em GPT, ≈ 200k vocabulário

Seguimento de Instruções

Qwen3:30b-instruct é otimizado para o seguimento de instruções com forte alinhamento de preferência humana. Excelencia em escrita criativa, interpretação de papéis, diálogos multi-turno e seguimento de instruções multilíngues. Esta variante é ajustada especificamente para fornecer respostas mais naturais, controladas e envolventes, alinhadas com as instruções do usuário.
GPT-OSS:20b suporta o seguimento de instruções, mas é geralmente avaliado ligeiramente atrás do Qwen3:30b-instruct em ajustes de instruções nuances. Oferece chamadas de função, saída estruturada e modos de raciocínio comparáveis, mas pode ficar para trás no alinhamento conversacional e em diálogos criativos.

Desempenho e Eficiência

Qwen3:30b-instruct excelencia em raciocínio matemático, codificação, tarefas lógicas complexas e cenários multilíngues que cobrem 119 idiomas e dialetos. Seu modo de “pensamento” permite raciocínio aprimorado, mas vem com custos de memória mais altos.
GPT-OSS:20b atinge desempenho comparável ao modelo o3-mini da OpenAI. Usa menos camadas, mas especialistas mais largos por camada e quantização MXFP4 nativa para inferência eficiente em hardware de consumo com requisitos de memória menores (~16GB vs. maior para Qwen3).
O GPT-OSS é aproximadamente 33% mais eficiente em memória e mais rápido em certas configurações de hardware, especialmente em GPUs de consumo, mas o Qwen3 frequentemente oferece melhor alinhamento e profundidade de raciocínio, especialmente em casos de uso complexos.
O Qwen3 tem uma opção de comprimento de contexto estendido mais longo disponível (até 262.144 tokens) em comparação com os 128.000 tokens do GPT-OSS, beneficiando tarefas que exigem compreensão de contexto muito longo.

Recomendação de Uso

Escolha Qwen3:30b-instruct para casos de uso que exigem seguimento de instruções superior, geração criativa, suporte multilíngue e raciocínio complexo.
Escolha GPT-OSS:20b se a eficiência de memória, velocidade de inferência em hardware de consumo e desempenho de linha de base competitivo com menos parâmetros forem a prioridade.

Esta comparação destaca o Qwen3:30b-instruct como um modelo mais profundo e capaz, com ajuste de instruções avançado, enquanto o GPT-OSS:20b oferece uma alternativa mais compacta e eficiente com desempenho competitivo em benchmarks padrão.

Pontuações de benchmark que comparam especificamente Qwen3:30b-instruct e GPT-OSS:20b para seguimento de instruções e parâmetros-chave de desempenho (MMLU, LMEval, HumanEval) não estão diretamente disponíveis nos resultados da busca. No entanto, com base em relatórios de benchmark multilíngue e multitarefa publicados existentes:

MMLU (Massive Multitask Language Understanding)

Difícil encontrar detalhes, apenas:

Os modelos da série Qwen3, especialmente na escala de 30B e acima, demonstram pontuações MMLU fortes, tipicamente excedendo 89%, indicando capacidades de compreensão de conhecimento e raciocínio muito competitivas em 57 domínios diversos.
O GPT-OSS:20b também se sai bem nos benchmarks MMLU, mas geralmente pontua abaixo dos modelos Qwen maiores devido à menor contagem de parâmetros e menor ênfase no ajuste fino de instruções.

LMEval (Language Model Evaluation Toolkit)

Poucos detalhes no momento:

Os modelos Qwen3 mostram melhoria significativa em raciocínio e tarefas relacionadas a código dentro do LMEval, com pontuações aprimoradas em lógica, raciocínio matemático e capacidades gerais.
O GPT-OSS:20b fornece desempenho de linha de base robusto no LMEval, mas geralmente fica atrás do Qwen3:30b-instruct em sub-tarefas de raciocínio avançado e seguimento de instruções.

HumanEval (Benchmark de Geração de Código)

Poucos dados, apenas:

O Qwen3:30b-instruct exibe forte desempenho em benchmarks de geração de código multilíngue como o HumanEval-XL, suportando mais de 20 linguagens de programação e fornecendo precisão superior na geração de código cross-lingual.
O GPT-OSS:20b, embora competitivo, performa um pouco abaixo do Qwen3:30b-instruct nos benchmarks HumanEval, especialmente em contextos de programação multilíngue e multi-idioma devido ao treinamento multilíngue menos extensivo.

Tabela Resumo (tendências aproximadas da literatura):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Notas
Acurácia MMLU	~89-91%	~80-85%	Qwen3 mais forte em conhecimento amplo e raciocínio
Pontuações LMEval	Alto, raciocínio & código avançados	Moderado, raciocínio de linha de base	Qwen3 excelencia em matemática e lógica
HumanEval	Alto desempenho em geração de código multilíngue	Moderado	Qwen3 melhor em geração de código cross-lingual

Se números exatos de benchmark forem necessários, benchmarks multilíngues de grande escala especializados como P-MMEval e HumanEval-XL referenciados em artigos de pesquisa recentes fornecem pontuações detalhadas para modelos incluindo Qwen3 e variantes comparáveis do GPT-OSS, mas estes não estão publicamente organizados para recuperação direta de pontuações lado a lado neste momento.

Comparação de Velocidade entre Qwen3:30b e GPT-OSS:20b

No meu hardware (16GB VRAM) estou obtendo Qwen3:30b e GPT-OSS:20b rodando com janela de contexto 4000, e eles estão produzindo:

qwen3:30b-a3b => 45,68 tokens/s
gpt-oss:20b => 129,52 tokens/s

E para comparação, também testei o qwen3:14b e gpt-oss:120b

qwen3:14b => 60,12 tokens/s
gpt-oss:120b => 12,87 tokens/s

Em janelas de contexto mais longas, a velocidade será mais lenta, no caso do qwen3:30b-a3b provavelmente muito mais lenta. Isso é, novamente, no meu PC. Detalhes técnicos tirados do output verbose e memória alocada estão abaixo, comandos para tentar:

ollama run qwen3:30b-a3b –verbose descrever diferença climática entre capitais de estado na australia
ollama ps mostrando alocação de memória no contexto 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Variantes do Qwen3:30b

Existem três variantes do modelo qwen3:30b disponíveis: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.

Principais Diferenças & Recomendações

qwen3:30b-instruct é o melhor para conversas onde instruções do usuário, clareza e diálogo natural são priorizados.
qwen3:30b é a fundação geral, adequado se tanto o seguimento de instruções quanto o uso de ferramentas forem importantes em tarefas diversas.
qwen3:30b-thinking excelencia quando raciocínio profundo, matemática e codificação são o foco principal. Superou os outros em tarefas que medem rigor lógico/matemático, mas não é necessariamente melhor para escrita criativa ou conversas casuais.

Comparação Direta de Benchmark

Modelo	Raciocínio (AIME25)	Codificação (LiveCodeBench)	Conhecimento Geral (MMLU Redux)	Velocidade & Contexto	Caso de Uso Ideal
qwen3:30b	70.9	57.4	89.5	256K tokens; Rápido	Linguagem geral/agentes/multilíngue
qwen3:30b-instruct	N/A (Próximo do 30b)	N/A	~Mesmo que 30b	256K tokens	Seguimento de instruções, alinhamento
qwen3:30b-thinking	85.0	66.0	91.4	256K tokens	Matemática, código, raciocínio, documentos longos

Para mais benchmarks, escolhas de hardware e ajuste de desempenho, consulte nosso hub de Desempenho de LLMs: Benchmarks, Gargalos & Otimização.