¿Cómo se compara Qwen3:30b con GPT-OSS:20b?

Qwen3:30b es más inteligente que GPT-OSS:20b, pero GPT-OSS:20b es más rápido.

Comparación: Qwen3:30b vs GPT-OSS:20b

Comparando la velocidad, parámetros y rendimiento de estos dos modelos

Índice

Aquí hay una comparación entre Qwen3:30b y GPT-OSS:20b enfocada en el seguimiento de instrucciones y parámetros de rendimiento, especificaciones y velocidad:

7 llamas

Arquitectura y Parámetros

Característica	Qwen3:30b-instruct	GPT-OSS:20b
Parámetros Totales	30.5 mil millones	21 mil millones
Parámetros Activados	~3.3 mil millones	~3.6 mil millones
Número de Capas	48	24
Expertos MoE por Capa	128 (8 activos por token)	32 (4 activos por token)
Mecanismo de Atención	Atención Agrupada por Consulta (32Q /4KV)	Atención Agrupada Multi-Consulta (64Q /8KV)
Ventana de Contexto	32,768 nativo; Hasta 262,144 extendido	128,000 tokens
Tokenizador	Basado en BPE, vocabulario de 151,936	Basado en GPT, vocabulario ≈ 200k

Seguimiento de Instrucciones

Qwen3:30b-instruct está optimizado para el seguimiento de instrucciones con una fuerte alineación con las preferencias humanas. Excelle en escritura creativa, interpretación de roles, diálogos multirronda y seguimiento de instrucciones multilingües. Esta variante se ha afinado específicamente para proporcionar respuestas más naturales, controladas y atractivas alineadas con las instrucciones del usuario.
GPT-OSS:20b admite el seguimiento de instrucciones pero generalmente se califica ligeramente por detrás de Qwen3:30b-instruct en la sintonización de instrucciones sutiles. Proporciona funciones de llamada comparable, salida estructurada y modos de razonamiento, pero puede retrasarse en la alineación conversacional y el diálogo creativo.

Rendimiento y Eficiencia

Qwen3:30b-instruct destaca en razonamiento matemático, programación, tareas lógicas complejas y escenarios multilingües que abarcan 119 idiomas y dialectos. Su modo “pensamiento” permite un razonamiento mejorado pero con mayores costos de memoria.
GPT-OSS:20b alcanza un rendimiento comparable al del modelo o3-mini de OpenAI. Utiliza menos capas pero expertos más amplios por capa y cuantización nativa MXFP4 para una inferencia eficiente en hardware de consumo con requisitos de memoria más bajos (~16 GB vs mayores para Qwen3).
GPT-OSS es aproximadamente un 33% más eficiente en memoria y más rápido en ciertas configuraciones de hardware, especialmente en GPUs de consumo, pero Qwen3 suele proporcionar una mejor alineación y profundidad de razonamiento, especialmente en casos de uso complejos.
Qwen3 tiene una opción de longitud de contexto extendida disponible más larga (hasta 262,144 tokens) en comparación con los 128,000 tokens de GPT-OSS, beneficiando tareas que requieren una comprensión de contexto muy larga.

Recomendación de Uso

Elige Qwen3:30b-instruct para casos de uso que requieran un seguimiento de instrucciones superior, generación creativa, soporte multilingüe y razonamiento complejo.
Elige GPT-OSS:20b si la eficiencia de memoria, la velocidad de inferencia en hardware de consumo y un rendimiento competitivo con menos parámetros es la prioridad.

Esta comparación destaca a Qwen3:30b-instruct como un modelo más profundo y capaz con una sintonización avanzada de instrucciones, mientras que GPT-OSS:20b ofrece una alternativa más compacta y eficiente con un rendimiento competitivo en benchmarks estándar.

No están disponibles directamente en los resultados de búsqueda las puntuaciones de benchmarks específicamente comparando Qwen3:30b-instruct y GPT-OSS:20b para el seguimiento de instrucciones y parámetros clave de rendimiento (MMLU, LMEval, HumanEval). Sin embargo, basado en informes publicados de benchmarks multilingües y multitarea existentes:

MMLU (Massive Multitask Language Understanding)

Difícil encontrar los detalles, solo:

Los modelos de la serie Qwen3, especialmente a escala de 30B y superior, muestran puntuaciones fuertes de MMLU típicamente superiores al 89%, indicando una comprensión y capacidad de razonamiento muy competitivas en 57 dominios diversos.
GPT-OSS:20b también se desempeña bien en benchmarks de MMLU pero generalmente obtiene puntuaciones más bajas que los modelos Qwen más grandes debido al menor número de parámetros y menor énfasis en la sintonización de instrucciones.

LMEval (Language Model Evaluation Toolkit)

No hay muchos detalles en este momento:

Los modelos Qwen3 muestran mejoras significativas en tareas de razonamiento y código dentro de LMEval, con puntuaciones mejoradas en lógica, razonamiento matemático y capacidades generales.
GPT-OSS:20b proporciona un rendimiento sólido en LMEval pero generalmente se retrasa detrás de Qwen3:30b-instruct en subtareas de razonamiento avanzado y seguimiento de instrucciones.

HumanEval (Benchmark de Generación de Código)

No hay mucha información, solo:

Qwen3:30b-instruct muestra un buen rendimiento en benchmarks de generación de código multilingüe como HumanEval-XL, apoyando más de 20 lenguajes de programación y proporcionando una precisión superior de generación de código translingüe.
GPT-OSS:20b, aunque competitivo, se desempeña algo peor que Qwen3:30b-instruct en benchmarks de HumanEval, especialmente en contextos de programación multilingüe y multilenguaje debido a una formación multilingüe menos extensa.

Tabla de Resumen (tendencias aproximadas de la literatura):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Notas
Precisión MMLU	~89-91%	~80-85%	Qwen3 más fuerte en conocimiento general y razonamiento
Puntuaciones LMEval	Alta, razonamiento avanzado y código	Moderada, razonamiento básico	Qwen3 destaca en matemáticas y lógica
HumanEval	Alta en generación de código multilingüe	Moderada	Qwen3 mejor en generación de código translingüe

Si se necesitan números exactos de benchmarks, benchmarks multilingües a gran escala como P-MMEval y HumanEval-XL mencionados en artículos de investigación recientes proporcionan puntuaciones detalladas para modelos incluyendo Qwen3 y variantes comparables de GPT-OSS, pero estos no están actualmente optimizados públicamente para una recuperación directa de puntuaciones comparativas lado a lado.

Comparación de Velocidad entre Qwen3:30b y GPT-OSS:20b

En mi hardware (16 GB de VRAM) estoy obteniendo Qwen3:30b y GPT-OSS:20b funcionando con una ventana de contexto de 4000, y están produciendo:

qwen3:30b-a3b => 45.68 tokens/s
gpt-oss:20b => 129.52 tokens/s

Y para comparación también he probado el qwen3:14b y gpt-oss:120b

qwen3:14b => 60.12 tokens/s
gpt-oss:120b => 12.87 tokens/s

En ventanas de contexto más largas la velocidad será más lenta, en el caso de qwen3:30b-a3b probablemente mucho más lenta. Eso es nuevamente en mi PC. Los detalles técnicos se tomaron del output detallado y la memoria asignada es la siguiente, comandos para probar:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps mostrando asignación de memoria en contexto de 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutos desde ahora
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutos desde ahora
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutos desde ahora
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutos desde ahora    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutos desde ahora
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Variantes de Qwen3:30b

Hay tres variantes del modelo qwen3:30b disponibles: qwen3:30b, qwen3:30b-instruct y qwen3:30b-thinking.

Diferencias Clave y Recomendaciones

qwen3:30b-instruct es el mejor para conversaciones donde se priorizan las instrucciones del usuario, claridad y diálogo natural.
qwen3:30b es la base general, adecuado si tanto el seguimiento de instrucciones como el uso de herramientas son importantes en tareas diversas.
qwen3:30b-thinking destaca cuando el razonamiento profundo, las matemáticas y la programación son el enfoque principal. Supera a los demás en tareas que miden rigor lógico/matemático pero no necesariamente es mejor para la escritura creativa o conversaciones informales.

Comparación Directa de Benchmarks

Modelo	Razonamiento (AIME25)	Programación (LiveCodeBench)	Conocimiento General (MMLU Redux)	Velocidad y Contexto	Caso de Uso Ideal
qwen3:30b	70.9	57.4	89.5	256K tokens; Rápido	Lenguaje general/agentes/multilingüe
qwen3:30b-instruct	N/A (Cerrado cerca de 30b)	N/A	~Mismo que 30b	256K tokens	Seguimiento de instrucciones, alineación
qwen3:30b-thinking	85.0	66.0	91.4	256K tokens	Matemáticas, código, razonamiento, documentos largos