Comparação: Qwen3:30b vs GPT-OSS:20b
Comparando velocidade, parâmetros e desempenho desses dois modelos
Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b
focando em seguir instruções e parâmetros de desempenho, especificações e velocidade:
Arquitetura e Parâmetros
Feature | Qwen3:30b-instruct | GPT-OSS:20b |
---|---|---|
Parâmetros Totais | 30,5 bilhões | 21 bilhões |
Parâmetros Ativados | ~3,3 bilhões | ~3,6 bilhões |
Número de Camadas | 48 | 24 |
Especialistas MoE por Camada | 128 (8 ativos por token) | 32 (4 ativos por token) |
Mecanismo de Atenção | Atenção Agrupada por Consulta (32Q /4KV) | Atenção Agrupada Multi-Query (64Q /8KV) |
Janela de Contexto | 32.768 nativa; Até 262.144 estendida | 128.000 tokens |
Tokenizer | Baseado em BPE, 151.936 vocabulário | Baseado em GPT, ≈ 200k vocabulário |
Seguimento de Instruções
- Qwen3:30b-instruct é otimizado para seguir instruções com forte alinhamento com preferências humanas. Excelente em escrita criativa, interpretação de papéis, diálogos multivisitas e seguimento de instruções multilíngues. Esta variante foi finamente ajustada especificamente para fornecer respostas mais naturais, controladas e envolventes alinhadas com as instruções do usuário.
- GPT-OSS:20b suporta o seguimento de instruções, mas geralmente é avaliado como ligeiramente inferior ao Qwen3:30b-instruct em ajustes de instruções sutis. Ele fornece funções de chamada comparáveis, saídas estruturadas e modos de raciocínio, mas pode atrasar no alinhamento conversacional e diálogos criativos.
Desempenho e Eficiência
- Qwen3:30b-instruct destaca-se em raciocínio matemático, programação, tarefas lógicas complexas e cenários multilíngues que abrangem 119 idiomas e dialetos. Seu modo “pensando” permite raciocínio aprimorado, mas vem com custos de memória mais altos.
- GPT-OSS:20b alcança desempenho comparável ao modelo o3-mini da OpenAI. Ele usa menos camadas, mas especialistas mais largos por camada e quantização nativa MXFP4 para inferência eficiente em hardware de consumo com requisitos de memória mais baixos (~16 GB vs mais alto para Qwen3).
- GPT-OSS é aproximadamente 33% mais eficiente em memória e mais rápido em certas configurações de hardware, especialmente em GPUs de consumo, mas Qwen3 frequentemente fornece melhor alinhamento e profundidade de raciocínio, especialmente em casos de uso complexos.
- Qwen3 tem uma opção de comprimento de contexto estendido mais longa disponível (até 262.144 tokens) em comparação com GPT-OSS 128.000 tokens, beneficiando tarefas que exigem compreensão de contexto muito longo.
Recomendação de Uso
- Escolha Qwen3:30b-instruct para casos de uso que demandam seguimento de instruções superior, geração criativa, suporte multilíngue e raciocínio complexo.
- Escolha GPT-OSS:20b se a eficiência de memória, velocidade de inferência em hardware de consumo e desempenho competitivo com menos parâmetros for a prioridade.
Esta comparação destaca Qwen3:30b-instruct como um modelo mais profundo e capaz com ajustes avançados de instruções, enquanto GPT-OSS:20b oferece uma alternativa mais compacta e eficiente com desempenho competitivo em benchmarks padrão.
Pontuações de benchmark especificamente comparando Qwen3:30b-instruct e GPT-OSS:20b para seguimento de instruções e parâmetros-chave de desempenho (MMLU, LMEval, HumanEval) não estão diretamente disponíveis nos resultados da pesquisa. No entanto, com base em relatórios publicados de benchmarks multilíngues e multitarefas existentes:
MMLU (Massive Multitask Language Understanding)
Difícil encontrar detalhes, apenas:
- Os modelos da série Qwen3, especialmente na escala de 30B e acima, demonstram pontuações fortes de MMLU, geralmente excedendo 89%, indicando compreensão e capacidades de raciocínio muito competitivas em 57 domínios diversos.
- GPT-OSS:20b também desempenha bem em benchmarks MMLU, mas normalmente obtém pontuação inferior aos modelos Qwen maiores devido ao menor número de parâmetros e menos ênfase no ajuste de instruções.
LMEval (Language Model Evaluation Toolkit)
Não há muitos detalhes no momento:
- Os modelos Qwen3 mostram melhorias significativas em tarefas de raciocínio e de código dentro do LMEval, com pontuações aprimoradas em lógica, raciocínio matemático e capacidades gerais.
- GPT-OSS:20b fornece desempenho robusto no LMEval, mas geralmente fica atrás do Qwen3:30b-instruct em subtarefas de raciocínio avançado e seguimento de instruções.
HumanEval (Benchmark de Geração de Código)
Poucos dados, apenas:
- Qwen3:30b-instruct exibe forte desempenho em benchmarks de geração de código multilíngue como HumanEval-XL, suportando mais de 20 linguagens de programação e fornecendo precisão superior de geração de código translingual.
- GPT-OSS:20b, embora competitivo, desempenha-se um pouco inferior ao Qwen3:30b-instruct em benchmarks HumanEval, especialmente em contextos de programação multilíngue e multilíngue devido ao treinamento multilíngue menos extenso.
Tabela de Resumo (tendências aproximadas da literatura):
Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Notas |
---|---|---|---|
Acurácia MMLU | ~89-91% | ~80-85% | Qwen3 mais forte em conhecimento e raciocínio amplos |
Pontuação LMEval | Alta, raciocínio avançado e código | Moderada, raciocínio básico | Qwen3 destaca-se em matemática e lógica |
HumanEval | Alta performance de geração de código multilíngue | Moderada | Qwen3 melhor em geração de código translingual |
Se forem necessários números exatos de benchmark, benchmarks multilíngues de grande escala como P-MMEval e HumanEval-XL mencionados em artigos de pesquisa recentes fornecem pontuações detalhadas para modelos incluindo Qwen3 e variantes comparáveis de GPT-OSS, mas não estão atualmente publicamente otimizados para recuperação direta de pontuação lado a lado.
Comparação de Velocidade entre Qwen3:30b e GPT-OSS:20b
No meu hardware (16 GB de VRAM) estou obtendo Qwen3:30b e GPT-OSS:20b rodando com janela de contexto de 4000, e eles estão produzindo:
- qwen3:30b-a3b => 45,68 tokens/s
- gpt-oss:20b => 129,52 tokens/s
E para comparação, também testei o qwen3:14b e gpt-oss:120b
- qwen3:14b => 60,12 tokens/s
- gpt-oss:120b => 12,87 tokens/s
Em janelas de contexto mais longas a velocidade será mais lenta, no caso do qwen3:30b-a3b provavelmente muito mais lenta. Isso novamente, no meu PC. Detalhes técnicos tirados da saída detalhada e memória alocada estão abaixo, comandos para tentar:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps mostrando alocação de memória em contexto de 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutos a partir de agora
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutos a partir de agora
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutos a partir de agora
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutos a partir de agora
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutos a partir de agora
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Variantes de Qwen3:30b
Há três variantes do modelo qwen3:30b disponíveis: qwen3:30b, qwen3:30b-instruct e qwen3:30b-thinking.
Diferenças Principais & Recomendações
- qwen3:30b-instruct é ideal para conversas onde as instruções do usuário, clareza e diálogo natural são priorizadas.
- qwen3:30b é a base geral, adequada se o seguimento de instruções e o uso de ferramentas forem importantes em tarefas diversas.
- qwen3:30b-thinking destaca-se quando o raciocínio profundo, matemática e programação são o foco principal. Ele supera os outros em tarefas que medem rigor lógico/matemático, mas nem necessariamente é melhor para escrita criativa ou conversas casuais.
Comparação Direta de Benchmark
Modelo | Raciocínio (AIME25) | Programação (LiveCodeBench) | Conhecimento Geral (MMLU Redux) | Velocidade & Contexto | Caso de Uso Ideal |
---|---|---|---|---|---|
qwen3:30b | 70.9 | 57.4 | 89.5 | 256K tokens; Rápido | Linguagem/agentes/multilíngue geral |
qwen3:30b-instruct | N/A (Próximo a 30b) | N/A | ~Mesmo que 30b | 256K tokens | Seguimento de instruções, alinhamento |
qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K tokens | Matemática, código, raciocínio, documentos longos |