¿Cómo se compara Qwen3 30b con GPT-OSS 20b?

Qwen3 30b ofrece generalmente un mejor seguimiento de instrucciones, razonamiento y rendimiento multilingüe. GPT-OSS 20b es más rápido y eficiente en el uso de memoria en GPUs de consumo (por ejemplo, aproximadamente un 33 % menos de VRAM y más tokens por segundo en muchas configuraciones).

¿Qué modelo es más rápido, Qwen3 30b o GPT-OSS 20b?

GPT-OSS 20b suele ser más rápido. Con 16 GB de VRAM y un contexto de 4K, GPT-OSS 20b puede alcanzar alrededor de 130 tokens por segundo, frente a unos 46 tokens por segundo de Qwen3 30b a3b, aunque las cifras exactas dependen del hardware y del tamaño del contexto.

¿Cuándo debería elegir Qwen3 30b en lugar de GPT-OSS 20b?

Elige Qwen3 30b cuando necesites un mejor seguimiento de instrucciones, salida creativa o multilingüe, razonamiento complejo o un contexto más largo (p. ej., hasta 262K tokens). Elige GPT-OSS 20b cuando la velocidad y el menor uso de VRAM en hardware de consumo sean más importantes.

¿Qué VRAM necesitan Qwen3 30b y GPT-OSS 20b?

Qwen3 30b a3b puede ejecutarse con 16 GB de VRAM utilizando descarga al CPU (por ejemplo, modelo de aproximadamente 20 GB). GPT-OSS 20b se ajusta más cómodamente en una GPU de 16 GB (por ejemplo, unos 14 GB asignados) y puede ejecutarse completamente en la GPU.

¿Dónde puedo encontrar más información sobre el rendimiento y las comparativas de los LLM?

Nuestro centro de rendimiento de LLM aborda la relación entre el rendimiento y la latencia, los límites de VRAM, las solicitudes paralelas y las pruebas de referencia en diferentes entornos de ejecución y hardware.

Comparación: Qwen3:30b vs GPT-OSS:20b

Comparando la velocidad, los parámetros y el rendimiento de estos dos modelos

Índice

Aquí tienes una comparación entre Qwen3:30b y GPT-OSS:20b centrada en el seguimiento de instrucciones y los parámetros de rendimiento, especificaciones y velocidad.

Para más información sobre el rendimiento (throughput), latencia, VRAM y benchmarks en diferentes entornos de ejecución y hardware, consulta Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.

7 llamas

Para obtener los valores predeterminados de muestreo orientados a bucles de agentes en la nueva línea de Qwen (incluyendo penalizaciones y ajustes preestablecidos de pensamiento frente a codificación), consulta la referencia consolidada de parámetros de inferencia agéntica para Qwen y Gemma.

Arquitectura y Parámetros

Característica	Qwen3:30b-instruct	GPT-OSS:20b
Parámetros Totales	30.5 mil millones	21 mil millones
Parámetros Activados	~3.3 mil millones	~3.6 mil millones
Número de Capas	48	24
Expertos MoE por Capa	128 (8 activos por token)	32 (4 activos por token)
Mecanismo de Atención	Grouped Query Attention (32Q /4KV)	Grouped Multi-Query Attention (64Q /8KV)
Ventana de Contexto	32,768 nativa; Hasta 262,144 extendida	128,000 tokens
Tokenizador	Basado en BPE, vocabulario de 151,936	Basado en GPT, vocabulario ≈ 200k

Seguimiento de Instrucciones

Qwen3:30b-instruct está optimizado para el seguimiento de instrucciones con una fuerte alineación de preferencias humanas. Destaca en escritura creativa, juegos de roles, diálogos de múltiples turnos y seguimiento de instrucciones multilingües. Esta variante está afinada específicamente para proporcionar respuestas más naturales, controladas y atractivas, alineadas con las instrucciones del usuario.
GPT-OSS:20b admite el seguimiento de instrucciones, pero generalmente se sitúa ligeramente por detrás de Qwen3:30b-instruct en el ajuste fino de instrucciones matizadas. Ofrece llamadas a funciones, salida estructurada y modos de razonamiento comparables, pero puede rezagar en la alineación conversacional y el diálogo creativo.

Rendimiento y Eficiencia

Qwen3:30b-instruct destaca en razonamiento matemático, codificación, tareas lógicas complejas y escenarios multilingües que cubren 119 idiomas y dialectos. Su modo de “pensamiento” permite un razonamiento mejorado, pero conlleva mayores costos de memoria.
GPT-OSS:20b logra un rendimiento comparable al modelo o3-mini de OpenAI. Utiliza menos capas pero expertos más anchos por capa y cuantización MXFP4 nativa para una inferencia eficiente en hardware de consumo con requisitos de memoria más bajos (~16GB frente a los más altos de Qwen3).
GPT-OSS es aproximadamente un 33% más eficiente en memoria y más rápido en ciertas configuraciones de hardware, especialmente en GPUs de consumo, pero Qwen3 suele ofrecer una mejor alineación y profundidad de razonamiento, especialmente en casos de uso complejos.
Qwen3 tiene una opción de longitud de contexto extendida disponible más larga (hasta 262,144 tokens) en comparación con los 128,000 tokens de GPT-OSS, lo que beneficia a las tareas que requieren comprensión de contexto muy largo.

Recomendación de Uso

Elige Qwen3:30b-instruct para casos de uso que demanden un seguimiento de instrucciones superior, generación creativa, soporte multilingüe y razonamiento complejo.
Elige GPT-OSS:20b si la eficiencia de memoria, la velocidad de inferencia en hardware de consumo y un rendimiento base competitivo con menos parámetros son la prioridad.

Esta comparación destaca a Qwen3:30b-instruct como un modelo más profundo y capaz con un ajuste fino de instrucciones avanzado, mientras que GPT-OSS:20b ofrece una alternativa más compacta y eficiente con un rendimiento competitivo en benchmarks estándar.

Las puntuaciones de benchmark que comparan específicamente Qwen3:30b-instruct y GPT-OSS:20b para el seguimiento de instrucciones y los parámetros clave de rendimiento (MMLU, LMEval, HumanEval) no están disponibles directamente en los resultados de búsqueda. Sin embargo, basándose en los informes de benchmarks multilingües y multitarea publicados existentes:

MMLU (Comprensión Lingüística Multitarea Masiva)

Es difícil encontrar los detalles, solo:

Los modelos de la serie Qwen3, especialmente a escala de 30B y superior, demuestran puntuaciones MMLU fuertes que típicamente superan el 89%, lo que indica capacidades de comprensión del conocimiento y razonamiento muy competitivas en 57 dominios diversos.
GPT-OSS:20b también rinde bien en los benchmarks de MMLU, pero generalmente obtiene puntuaciones más bajas que los modelos Qwen más grandes debido a su menor cantidad de parámetros y menor énfasis en el ajuste fino de instrucciones.

LMEval (Kit de Herramientas de Evaluación de Modelos de Lenguaje)

No hay muchos detalles actualmente:

Los modelos Qwen3 muestran una mejora significativa en tareas de razonamiento y código dentro de LMEval, con puntuaciones mejoradas en lógica, razonamiento matemático y capacidades generales.
GPT-OSS:20b proporciona un rendimiento base robusto en LMEval, pero generalmente se queda atrás de Qwen3:30b-instruct en sub-tareas de razonamiento avanzado y seguimiento de instrucciones.

HumanEval (Benchmark de Generación de Código)

No mucha data, solo:

Qwen3:30b-instruct exhibe un fuerte rendimiento en benchmarks de generación de código multilingüe como HumanEval-XL, soportando más de 20 lenguajes de programación y proporcionando una precisión superior en la generación de código entre idiomas.
GPT-OSS:20b, aunque competitivo, rinde algo peor que Qwen3:30b-instruct en los benchmarks de HumanEval, especialmente en contextos de programación multilingüe y multiidioma debido a un entrenamiento multilingüe menos extenso.

Tabla Resumen (tendencias aproximadas de la literatura):

Benchmark	Qwen3:30b-instruct	GPT-OSS:20b	Notas
Precisión MMLU	~89-91%	~80-85%	Qwen3 es más fuerte en conocimiento amplio y razonamiento
Puntuaciones LMEval	Altas, razonamiento avanzado y código	Moderadas, razonamiento base	Qwen3 destaca en matemáticas y lógica
HumanEval	Alto rendimiento en generación de código multilingüe	Moderado	Qwen3 es mejor en generación de código entre idiomas

Si se necesitan números exactos de benchmark, los benchmarks multilingües a gran escala especializados como P-MMEval y HumanEval-XL, referenciados en papers de investigación recientes, proporcionan puntuaciones detalladas para modelos que incluyen Qwen3 y variantes comparables de GPT-OSS, pero estos no están organizados públicamente para una recuperación directa de puntuaciones lado a lado en este momento.

Comparación de Velocidad entre Qwen3:30b y GPT-OSS:20b

En mi hardware (16GB VRAM) estoy obteniendo que Qwen3:30b y GPT-OSS:20b funcionan con una ventana de contexto de 4000, y están produciendo:

qwen3:30b-a3b => 45.68 tokens/s
gpt-oss:20b => 129.52 tokens/s

Y para comparar, también he probado qwen3:14b y gpt-oss:120b

qwen3:14b => 60.12 tokens/s
gpt-oss:120b => 12.87 tokens/s

En ventanas de contexto más largas la velocidad será más lenta, en el caso de qwen3:30b-a3b probablemente mucho más lenta. Esto es, nuevamente, en mi PC. Los detalles técnicos tomados de la salida detallada y la memoria asignada se muestran a continuación, comandos para probar:

ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
ollama ps mostrando la asignación de memoria en contexto 4K

qwen3:30b-a3b

NAME             ID              SIZE     PROCESSOR          CONTEXT    UNTIL
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       28.151133548s
load duration:        1.980696196s
prompt eval count:    16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate:     98.41 tokens/s
eval count:           1188 token(s)
eval duration:        26.007424856s
eval rate:            45.68 tokens/s

qwen3:30b-thinking

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 minutes from now
total duration:       1m8.317354579s
load duration:        1.984986882s
prompt eval count:    18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate:     81.95 tokens/s
eval count:           2722 token(s)
eval duration:        1m6.11230524s
eval rate:            41.17 tokens/s

gpt-oss:20b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 minutes from now
total duration:       31.505397616s
load duration:        13.744361948s
prompt eval count:    75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate:     300.77 tokens/s
eval count:           2268 token(s)
eval duration:        17.510262884s
eval rate:            129.52 tokens/s

qwen3:14b

NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 minutes from now    
total duration:       36.902729562s
load duration:        38.669074ms
prompt eval count:    18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate:     509.61 tokens/s
eval count:           2214 token(s)
eval duration:        36.828268069s
eval rate:            60.12 tokens/s

gpt-oss:120b

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 minutes from now
49GB RAM + 14.4GB VRAM
total duration:       3m59.967272019s
load duration:        76.758783ms
prompt eval count:    75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate:     252.26 tokens/s
eval count:           3084 token(s)
eval duration:        3m59.592764501s
eval rate:            12.87 tokens/s

Variantes de Qwen3:30b

Existen tres variantes del modelo qwen3:30b disponibles: qwen3:30b, qwen3:30b-instruct y qwen3:30b-thinking.

Principales Diferencias y Recomendaciones

qwen3:30b-instruct es el mejor para conversaciones donde las instrucciones del usuario, la claridad y el diálogo natural son prioritarios.
qwen3:30b es la base general, adecuada si tanto el seguimiento de instrucciones como el uso de herramientas son importantes en diversas tareas.
qwen3:30b-thinking destaca cuando el razonamiento profundo, las matemáticas y la codificación son el foco principal. Supera a los demás en tareas que miden el rigor lógico/matемático, pero no es necesariamente mejor para la escritura creativa o las conversaciones casuales.

Comparación Directa de Benchmarks

Modelo	Razonamiento (AIME25)	Codificación (LiveCodeBench)	Conocimiento General (MMLU Redux)	Velocidad y Contexto	Caso de Uso Ideal
qwen3:30b	70.9	57.4	89.5	256K tokens; Rápido	Idioma general/agentes/multilingüe
qwen3:30b-instruct	N/A (Cercano a 30b)	N/A	~Igual que 30b	256K tokens	Seguimiento de instrucciones, alineación
qwen3:30b-thinking	85.0	66.0	91.4	256K tokens	Matemáticas, código, razonamiento, documentos largos

Para más benchmarks, opciones de hardware y ajuste de rendimiento, consulta nuestro hub de Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.