Comparación: Qwen3:30b vs GPT-OSS:20b
Comparando la velocidad, los parámetros y el rendimiento de estos dos modelos
Aquí tienes una comparación entre Qwen3:30b y GPT-OSS:20b centrada en el seguimiento de instrucciones y los parámetros de rendimiento, especificaciones y velocidad.
Para más información sobre el rendimiento (throughput), latencia, VRAM y benchmarks en diferentes entornos de ejecución y hardware, consulta Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.

Para obtener los valores predeterminados de muestreo orientados a bucles de agentes en la nueva línea de Qwen (incluyendo penalizaciones y ajustes preestablecidos de pensamiento frente a codificación), consulta la referencia consolidada de parámetros de inferencia agéntica para Qwen y Gemma.
Arquitectura y Parámetros
| Característica | Qwen3:30b-instruct | GPT-OSS:20b |
|---|---|---|
| Parámetros Totales | 30.5 mil millones | 21 mil millones |
| Parámetros Activados | ~3.3 mil millones | ~3.6 mil millones |
| Número de Capas | 48 | 24 |
| Expertos MoE por Capa | 128 (8 activos por token) | 32 (4 activos por token) |
| Mecanismo de Atención | Grouped Query Attention (32Q /4KV) | Grouped Multi-Query Attention (64Q /8KV) |
| Ventana de Contexto | 32,768 nativa; Hasta 262,144 extendida | 128,000 tokens |
| Tokenizador | Basado en BPE, vocabulario de 151,936 | Basado en GPT, vocabulario ≈ 200k |
Seguimiento de Instrucciones
- Qwen3:30b-instruct está optimizado para el seguimiento de instrucciones con una fuerte alineación de preferencias humanas. Destaca en escritura creativa, juegos de roles, diálogos de múltiples turnos y seguimiento de instrucciones multilingües. Esta variante está afinada específicamente para proporcionar respuestas más naturales, controladas y atractivas, alineadas con las instrucciones del usuario.
- GPT-OSS:20b admite el seguimiento de instrucciones, pero generalmente se sitúa ligeramente por detrás de Qwen3:30b-instruct en el ajuste fino de instrucciones matizadas. Ofrece llamadas a funciones, salida estructurada y modos de razonamiento comparables, pero puede rezagar en la alineación conversacional y el diálogo creativo.
Rendimiento y Eficiencia
- Qwen3:30b-instruct destaca en razonamiento matemático, codificación, tareas lógicas complejas y escenarios multilingües que cubren 119 idiomas y dialectos. Su modo de “pensamiento” permite un razonamiento mejorado, pero conlleva mayores costos de memoria.
- GPT-OSS:20b logra un rendimiento comparable al modelo o3-mini de OpenAI. Utiliza menos capas pero expertos más anchos por capa y cuantización MXFP4 nativa para una inferencia eficiente en hardware de consumo con requisitos de memoria más bajos (~16GB frente a los más altos de Qwen3).
- GPT-OSS es aproximadamente un 33% más eficiente en memoria y más rápido en ciertas configuraciones de hardware, especialmente en GPUs de consumo, pero Qwen3 suele ofrecer una mejor alineación y profundidad de razonamiento, especialmente en casos de uso complejos.
- Qwen3 tiene una opción de longitud de contexto extendida disponible más larga (hasta 262,144 tokens) en comparación con los 128,000 tokens de GPT-OSS, lo que beneficia a las tareas que requieren comprensión de contexto muy largo.
Recomendación de Uso
- Elige Qwen3:30b-instruct para casos de uso que demanden un seguimiento de instrucciones superior, generación creativa, soporte multilingüe y razonamiento complejo.
- Elige GPT-OSS:20b si la eficiencia de memoria, la velocidad de inferencia en hardware de consumo y un rendimiento base competitivo con menos parámetros son la prioridad.
Esta comparación destaca a Qwen3:30b-instruct como un modelo más profundo y capaz con un ajuste fino de instrucciones avanzado, mientras que GPT-OSS:20b ofrece una alternativa más compacta y eficiente con un rendimiento competitivo en benchmarks estándar.
Las puntuaciones de benchmark que comparan específicamente Qwen3:30b-instruct y GPT-OSS:20b para el seguimiento de instrucciones y los parámetros clave de rendimiento (MMLU, LMEval, HumanEval) no están disponibles directamente en los resultados de búsqueda. Sin embargo, basándose en los informes de benchmarks multilingües y multitarea publicados existentes:
MMLU (Comprensión Lingüística Multitarea Masiva)
Es difícil encontrar los detalles, solo:
- Los modelos de la serie Qwen3, especialmente a escala de 30B y superior, demuestran puntuaciones MMLU fuertes que típicamente superan el 89%, lo que indica capacidades de comprensión del conocimiento y razonamiento muy competitivas en 57 dominios diversos.
- GPT-OSS:20b también rinde bien en los benchmarks de MMLU, pero generalmente obtiene puntuaciones más bajas que los modelos Qwen más grandes debido a su menor cantidad de parámetros y menor énfasis en el ajuste fino de instrucciones.
LMEval (Kit de Herramientas de Evaluación de Modelos de Lenguaje)
No hay muchos detalles actualmente:
- Los modelos Qwen3 muestran una mejora significativa en tareas de razonamiento y código dentro de LMEval, con puntuaciones mejoradas en lógica, razonamiento matemático y capacidades generales.
- GPT-OSS:20b proporciona un rendimiento base robusto en LMEval, pero generalmente se queda atrás de Qwen3:30b-instruct en sub-tareas de razonamiento avanzado y seguimiento de instrucciones.
HumanEval (Benchmark de Generación de Código)
No mucha data, solo:
- Qwen3:30b-instruct exhibe un fuerte rendimiento en benchmarks de generación de código multilingüe como HumanEval-XL, soportando más de 20 lenguajes de programación y proporcionando una precisión superior en la generación de código entre idiomas.
- GPT-OSS:20b, aunque competitivo, rinde algo peor que Qwen3:30b-instruct en los benchmarks de HumanEval, especialmente en contextos de programación multilingüe y multiidioma debido a un entrenamiento multilingüe menos extenso.
Tabla Resumen (tendencias aproximadas de la literatura):
| Benchmark | Qwen3:30b-instruct | GPT-OSS:20b | Notas |
|---|---|---|---|
| Precisión MMLU | ~89-91% | ~80-85% | Qwen3 es más fuerte en conocimiento amplio y razonamiento |
| Puntuaciones LMEval | Altas, razonamiento avanzado y código | Moderadas, razonamiento base | Qwen3 destaca en matemáticas y lógica |
| HumanEval | Alto rendimiento en generación de código multilingüe | Moderado | Qwen3 es mejor en generación de código entre idiomas |
Si se necesitan números exactos de benchmark, los benchmarks multilingües a gran escala especializados como P-MMEval y HumanEval-XL, referenciados en papers de investigación recientes, proporcionan puntuaciones detalladas para modelos que incluyen Qwen3 y variantes comparables de GPT-OSS, pero estos no están organizados públicamente para una recuperación directa de puntuaciones lado a lado en este momento.
Comparación de Velocidad entre Qwen3:30b y GPT-OSS:20b
En mi hardware (16GB VRAM) estoy obteniendo que Qwen3:30b y GPT-OSS:20b funcionan con una ventana de contexto de 4000, y están produciendo:
- qwen3:30b-a3b => 45.68 tokens/s
- gpt-oss:20b => 129.52 tokens/s
Y para comparar, también he probado qwen3:14b y gpt-oss:120b
- qwen3:14b => 60.12 tokens/s
- gpt-oss:120b => 12.87 tokens/s
En ventanas de contexto más largas la velocidad será más lenta, en el caso de qwen3:30b-a3b probablemente mucho más lenta. Esto es, nuevamente, en mi PC. Los detalles técnicos tomados de la salida detallada y la memoria asignada se muestran a continuación, comandos para probar:
- ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
- ollama ps mostrando la asignación de memoria en contexto 4K
qwen3:30b-a3b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-a3b 19e422b02313 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 28.151133548s
load duration: 1.980696196s
prompt eval count: 16 token(s)
prompt eval duration: 162.58803ms
prompt eval rate: 98.41 tokens/s
eval count: 1188 token(s)
eval duration: 26.007424856s
eval rate: 45.68 tokens/s
qwen3:30b-thinking
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:30b-thinking ad815644918f 20 GB 23%/77% CPU/GPU 4096 4 minutes from now
total duration: 1m8.317354579s
load duration: 1.984986882s
prompt eval count: 18 token(s)
prompt eval duration: 219.657034ms
prompt eval rate: 81.95 tokens/s
eval count: 2722 token(s)
eval duration: 1m6.11230524s
eval rate: 41.17 tokens/s
gpt-oss:20b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b aa4295ac10c3 14 GB 100% GPU 4096 4 minutes from now
total duration: 31.505397616s
load duration: 13.744361948s
prompt eval count: 75 token(s)
prompt eval duration: 249.363069ms
prompt eval rate: 300.77 tokens/s
eval count: 2268 token(s)
eval duration: 17.510262884s
eval rate: 129.52 tokens/s
qwen3:14b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
qwen3:14b bdbd181c33f2 10 GB 100% GPU 4096 4 minutes from now
total duration: 36.902729562s
load duration: 38.669074ms
prompt eval count: 18 token(s)
prompt eval duration: 35.321423ms
prompt eval rate: 509.61 tokens/s
eval count: 2214 token(s)
eval duration: 36.828268069s
eval rate: 60.12 tokens/s
gpt-oss:120b
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b f7f8e2f8f4e0 65 GB 78%/22% CPU/GPU 4096 2 minutes from now
49GB RAM + 14.4GB VRAM
total duration: 3m59.967272019s
load duration: 76.758783ms
prompt eval count: 75 token(s)
prompt eval duration: 297.312854ms
prompt eval rate: 252.26 tokens/s
eval count: 3084 token(s)
eval duration: 3m59.592764501s
eval rate: 12.87 tokens/s
Variantes de Qwen3:30b
Existen tres variantes del modelo qwen3:30b disponibles: qwen3:30b, qwen3:30b-instruct y qwen3:30b-thinking.
Principales Diferencias y Recomendaciones
- qwen3:30b-instruct es el mejor para conversaciones donde las instrucciones del usuario, la claridad y el diálogo natural son prioritarios.
- qwen3:30b es la base general, adecuada si tanto el seguimiento de instrucciones como el uso de herramientas son importantes en diversas tareas.
- qwen3:30b-thinking destaca cuando el razonamiento profundo, las matemáticas y la codificación son el foco principal. Supera a los demás en tareas que miden el rigor lógico/matемático, pero no es necesariamente mejor para la escritura creativa o las conversaciones casuales.
Comparación Directa de Benchmarks
| Modelo | Razonamiento (AIME25) | Codificación (LiveCodeBench) | Conocimiento General (MMLU Redux) | Velocidad y Contexto | Caso de Uso Ideal |
|---|---|---|---|---|---|
| qwen3:30b | 70.9 | 57.4 | 89.5 | 256K tokens; Rápido | Idioma general/agentes/multilingüe |
| qwen3:30b-instruct | N/A (Cercano a 30b) | N/A | ~Igual que 30b | 256K tokens | Seguimiento de instrucciones, alineación |
| qwen3:30b-thinking | 85.0 | 66.0 | 91.4 | 256K tokens | Matemáticas, código, razonamiento, documentos largos |
Para más benchmarks, opciones de hardware y ajuste de rendimiento, consulta nuestro hub de Rendimiento de LLM: Benchmarks, Cuellos de Botella y Optimización.
Enlaces Útiles
- https://ollama.com/library/qwen3
- https://ollama.com/library/gpt-oss
- https://artificialanalysis.ai/articles/analysis-openai-gpt-oss-models
- https://artificialanalysis.ai/models/qwen3-30b-a3b-2507
- Instalar y configurar Ollama
- Hoja de trucos de Ollama - comandos más útiles
- Restringir LLMs con Salida Estructurada: Ollama, Qwen3 & Python o Go
- Integración de Ollama con Python: Ejemplos de API REST y Cliente Python