Comparación: Qwen3:30b vs GPT-OSS:20b

Comparando velocidad, parámetros y rendimiento de estos dos modelos

Índice

Aquí hay una comparación entre Qwen3:30b y GPT-OSS:20b centrada en el seguimiento de instrucciones y parámetros de rendimiento, especificaciones y velocidad.

Para obtener más información sobre el throughput, la latencia, la VRAM y los benchmarks en diferentes entornos de ejecución y hardware, consulte Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.

7 llamas

Arquitectura y Parámetros

Característica Qwen3:30b-instruct GPT-OSS:20b
Parámetros Totales 30.5 mil millones 21 mil millones
Parámetros Activados ~3.3 mil millones ~3.6 mil millones
Número de Capas 48 24
Expertos MoE por Capa 128 (8 activos por token) 32 (4 activos por token)
Mecanismo de Atención Atención Agrupada por Consulta (32Q /4KV) Atención Agrupada por Consulta Multi (64Q /8KV)
Ventana de Contexto 32,768 nativo; Hasta 262,144 extendido 128,000 tokens
Tokenizer Basado en BPE, vocabulario de 151,936 Basado en GPT, vocabulario de ≈ 200k

Seguimiento de Instrucciones

  • Qwen3:30b-instruct está optimizado para el seguimiento de instrucciones con una fuerte alineación con las preferencias humanas. Excelle en escritura creativa, role-playing, diálogos multirrondos y seguimiento de instrucciones multilingües. Esta variante se entrena específicamente para proporcionar respuestas más naturales, controladas y atractivas alineadas con las instrucciones del usuario.
  • GPT-OSS:20b admite el seguimiento de instrucciones pero generalmente se califica ligeramente por detrás de Qwen3:30b-instruct en la sintonización de instrucciones sutiles. Proporciona funciones de llamada comparable, salida estructurada y modos de razonamiento, pero puede retrasarse en la alineación conversacional y el diálogo creativo.

Rendimiento y Eficiencia

  • Qwen3:30b-instruct destaca en razonamiento matemático, programación, tareas lógicas complejas y escenarios multilingües que cubren 119 idiomas y dialectos. Su modo “pensando” permite un razonamiento mejorado pero conlleva un costo de memoria más alto.
  • GPT-OSS:20b alcanza un rendimiento comparable al del modelo o3-mini de OpenAI. Usa menos capas pero expertos más anchos por capa y cuantización nativa MXFP4 para una inferencia eficiente en hardware de consumo con requisitos de memoria más bajos (~16 GB vs más alto para Qwen3).
  • GPT-OSS es aproximadamente un 33% más eficiente en memoria y más rápido en ciertas configuraciones de hardware, especialmente en GPUs de consumo, pero Qwen3 a menudo proporciona una mejor alineación y profundidad de razonamiento, especialmente en casos de uso complejos.
  • Qwen3 tiene una opción de longitud de contexto extendida disponible más larga (hasta 262,144 tokens) en comparación con los 128,000 tokens de GPT-OSS, beneficiando tareas que requieren una comprensión de contexto muy larga.

Recomendación de Uso

  • Elija Qwen3:30b-instruct para casos de uso que requieran un seguimiento de instrucciones superior, generación creativa, soporte multilingüe y razonamiento complejo.
  • Elija GPT-OSS:20b si la eficiencia de memoria, la velocidad de inferencia en hardware de consumo y un rendimiento competitivo con menos parámetros es la prioridad.

Esta comparación destaca a Qwen3:30b-instruct como un modelo más profundo y capaz con una sintonización avanzada de instrucciones, mientras que GPT-OSS:20b ofrece una alternativa más compacta y eficiente con un rendimiento competitivo en benchmarks estándar.

No están disponibles en los resultados de búsqueda las puntuaciones específicas que comparan directamente Qwen3:30b-instruct y GPT-OSS:20b para el seguimiento de instrucciones y parámetros clave de rendimiento (MMLU, LMEval, HumanEval). Sin embargo, basado en informes publicados de benchmarks multilingües y multitarea existentes:

MMLU (Massive Multitask Language Understanding)

Difícil encontrar detalles, solo:

  • Los modelos de la serie Qwen3, especialmente en escala de 30B y superior, muestran puntuaciones MMLU fuertes generalmente superiores al 89%, indicando una comprensión y capacidad de razonamiento muy competitivas en 57 dominios diversos.
  • GPT-OSS:20b también se desempeña bien en benchmarks MMLU pero generalmente obtiene puntajes más bajos que los modelos Qwen más grandes debido a su menor cantidad de parámetros y menor énfasis en el ajuste de instrucciones.

LMEval (Language Model Evaluation Toolkit)

No hay muchos detalles en este momento:

  • Los modelos Qwen3 muestran mejoras significativas en tareas de razonamiento y código dentro de LMEval, con puntajes mejorados en lógica, razonamiento matemático y capacidades generales.
  • GPT-OSS:20b proporciona un rendimiento sólido de línea base en LMEval pero generalmente se retrasa detrás de Qwen3:30b-instruct en subtareas de razonamiento avanzado y seguimiento de instrucciones.

HumanEval (Benchmark de Generación de Código)

No hay muchos datos, solo:

  • Qwen3:30b-instruct muestra un buen rendimiento en benchmarks de generación de código multilingüe como HumanEval-XL, apoyando más de 20 lenguajes de programación y proporcionando una precisión superior de generación de código entre idiomas.
  • GPT-OSS:20b, aunque competitivo, obtiene un rendimiento algo inferior al de Qwen3:30b-instruct en benchmarks HumanEval, especialmente en contextos de programación multilingüe y multilingüe debido a una formación multilingüe menos extensa.

Tabla de Resumen (tendencias aproximadas según la literatura):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Notas
Precisión MMLU ~89-91% ~80-85% Qwen3 más fuerte en conocimiento general y razonamiento
Puntuaciones LMEval Alta, razonamiento avanzado y código Moderada, razonamiento básico Qwen3 sobresale en matemáticas y lógica
HumanEval Alta en generación de código multilingüe Moderada Qwen3 mejor en generación de código entre idiomas

Si se necesitan números exactos de benchmarks, benchmarks multilingües a gran escala como P-MMEval y HumanEval-XL mencionados en artículos de investigación recientes proporcionan puntuaciones detalladas para modelos que incluyen Qwen3 y variantes comparables de GPT-OSS, pero no están actualmente optimizados para la recuperación directa de puntuaciones comparativas lado a lado.

Comparación de Velocidad entre Qwen3:30b y GPT-OSS:20b

En mi hardware (16 GB VRAM) estoy obteniendo Qwen3:30b y GPT-OSS:20b ejecutándose con una ventana de contexto de 4000, y están produciendo:

  • qwen3:30b-a3b => 45.68 tokens/s
  • gpt-oss:20b => 129.52 tokens/s

Y también he probado el qwen3:14b y gpt-oss:120b como comparación:

  • qwen3:14b => 60.12 tokens/s
  • gpt-oss:120b => 12.87 tokens/s

En ventanas de contexto más largas la velocidad será más lenta, en el caso de qwen3:30b-a3b probablemente mucho más lenta. Eso es nuevamente en mi PC. Los detalles técnicos se tomaron del output detallado y la memoria asignada está a continuación, comandos para probar:

  • ollama run qwen3:30b-a3b –verbose describe diferencia entre capitales de estados en Australia
  • ollama ps mostrando asignación de memoria en contexto de 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutos desde ahora
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutos desde ahora
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutos desde ahora
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutos desde ahora    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutos desde ahora
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Variantes de Qwen3:30b

Hay tres variantes del modelo qwen3:30b disponibles: qwen3:30b, qwen3:30b-instruct y qwen3:30b-thinking.

Diferencias Clave y Recomendaciones

  • qwen3:30b-instruct es el mejor para conversaciones donde se prioriza el seguimiento de instrucciones, claridad y diálogo natural.
  • qwen3:30b es la base general, adecuado si tanto el seguimiento de instrucciones como el uso de herramientas son importantes en tareas diversas.
  • qwen3:30b-thinking destaca cuando el razonamiento profundo, las matemáticas y la programación son el enfoque principal. Sobresale en tareas que miden rigurosidad lógica/matemática pero no necesariamente es mejor para la escritura creativa o conversaciones informales.

Comparación Directa de Benchmarks

Modelo Razonamiento (AIME25) Programación (LiveCodeBench) Conocimiento General (MMLU Redux) Velocidad y Contexto Caso de Uso Ideal
qwen3:30b 70.9 57.4 89.5 256K tokens; Rápido Lenguaje general/agentes/multilingüe
qwen3:30b-instruct N/A (Cerrado cerca de 30b) N/A ~Mismo que 30b 256K tokens Seguimiento de instrucciones, alineación
qwen3:30b-thinking 85.0 66.0 91.4 256K tokens Matemáticas, código, razonamiento, documentos largos

Para más benchmarks, opciones de hardware y ajuste de rendimiento, consulte nuestro Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.

Enlaces Útiles