NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación de rendimiento de Ollama

Resultados de benchmarks de GPT-OSS 120b en tres plataformas de IA

Índice

Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65 GB, lo que significa que no cabe en los 16 GB de VRAM de una RTX 4080 (ni en la más reciente RTX 5080).

Sí, el modelo puede ejecutarse con un desalojo parcial a la CPU, y si tienes 64 GB de RAM del sistema (como yo), puedes probarlo. Sin embargo, esta configuración no se consideraría en absoluto apta para producción. Para cargas de trabajo realmente exigentes, podrías necesitar algo como el NVIDIA DGX Spark, que está diseñado específicamente para cargas de trabajo de IA de alta capacidad.

7 llamas

Esperaba que este LLM obtendría beneficios significativos al ejecutarse en un dispositivo de “alta RAM para IA” como el DGX Spark. Aunque los resultados son buenos, no son tan claramente mejores como podrías esperar dado el diferencial de precios entre DGX Spark y opciones más económicas.

TL;DR

Ollama ejecutando GPT-OSS 120b comparación de rendimiento en tres plataformas:

Dispositivo Rendimiento de Evaluación de Prompt (tokens/segundo) Rendimiento de Generación (tokens/segundo) Notas
NVIDIA DGX Spark 1159 41 Mejor rendimiento general, totalmente acelerado por GPU
Mac Studio Desconocido 34 → 6 Un test mostró degradación con el aumento del tamaño del contexto
RTX 4080 969 12.45 78% CPU / 22% GPU debido a limitaciones de VRAM

Especificaciones del modelo:

  • Modelo: GPT-OSS 120b
  • Parámetros: 117B (arquitectura Mixture-of-Experts)
  • Parámetros activos por paso: 5.1B
  • Cuantización: MXFP4
  • Tamaño del modelo: 65 GB

Esto es similar en arquitectura a otros modelos MoE como Qwen3:30b, pero a una escala mucho mayor.

GPT-OSS 120b en NVIDIA DGX Spark

Los datos de rendimiento del LLM en NVIDIA DGX Spark provienen del blog oficial de Ollama (enlazado más abajo en la sección de enlaces útiles). El DGX Spark representa la entrada de NVIDIA al mercado de superordenadores personales de IA, con 128 GB de memoria unificada especialmente diseñada para ejecutar modelos de lenguaje grandes.

tabla de rendimiento de ollama en dgx spark

El rendimiento de GPT-OSS 120b parece impresionante con 41 tokens/segundo para la generación. Esto lo convierte claramente en el ganador para este modelo en particular, mostrando que la capacidad adicional de memoria puede hacer una diferencia real para modelos extremadamente grandes.

Sin embargo, el rendimiento de los LLMs medianos a grandes no parece tan atractivo. Esto es particularmente notorio con Qwen3:32b y Llama3.1:70b—exactamente los modelos donde esperarías que la alta capacidad de RAM brillara. El rendimiento en DGX Spark para estos modelos no es inspirador cuando se compara con el premium de precio. Si estás trabajando principalmente con modelos en el rango de 30-70B de parámetros, podrías considerar alternativas como una estación de trabajo bien configurada o incluso un Quadro RTX 5880 Ada con sus 48 GB de VRAM.

GPT-OSS 120b en Mac Studio Max

El canal de YouTube Slinging Bits realizó pruebas exhaustivas ejecutando GPT-OSS 120b en Ollama con tamaños de contexto variables. Los resultados revelan una preocupación significativa de rendimiento: la velocidad de generación del modelo cayó drásticamente de 34 tokens/s a solo 6 tokens/s a medida que aumentaba el tamaño del contexto.

Esta degradación de rendimiento probablemente se debe a la presión de memoria y a cómo macOS gestiona la arquitectura de memoria unificada. Aunque el Mac Studio Max tiene una memoria unificada impresionante (hasta 192 GB en la configuración M2 Ultra), la forma en que maneja modelos muy grandes bajo cargas de contexto crecientes difiere significativamente de la VRAM dedicada de la GPU.

ollama con gpt-oss 120b en mac studio

“resumen de ollama-gpt-oss-120b-en-mac-studio”

Para aplicaciones que requieren un rendimiento consistente en diferentes longitudes de contexto, esto hace que el Mac Studio sea menos ideal para GPT-OSS 120b, a pesar de sus capacidades excelentes para cargas de trabajo de IA en general. Podrías tener más suerte con modelos más pequeños o considerar usar las funciones de manejo de solicitudes paralelas de Ollama para maximizar el throughput en escenarios de producción.

GPT-OSS 120b en RTX 4080

Inicialmente creí que ejecutar Ollama con GPT-OSS 120b en mi PC de consumo no sería particularmente emocionante, pero los resultados me sorprendieron agradablemente. Aquí está lo que sucedió cuando realicé la prueba con esta consulta:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include 
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the 
numbers, but the broad patterns remain unchanged.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Ahora aquí está lo interesante—Ollama con este LLM estaba ejecutándose principalmente en la CPU! El modelo simplemente no cabe en los 16 GB de VRAM, así que Ollama desalojó inteligentemente la mayor parte a la memoria RAM del sistema. Puedes ver este comportamiento usando el comando ollama ps:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

A pesar de ejecutarse con una división de 78% CPU / 22% GPU, la RTX 4080 aún entrega un rendimiento respetable para un modelo de este tamaño. La evaluación del prompt es increíblemente rápida a 969 tokens/s, y incluso la velocidad de generación de 12.45 tokens/s es útil para muchas aplicaciones.

Esto es particularmente impresionante cuando consideras que:

  1. El modelo es casi 4 veces más grande que la VRAM disponible
  2. La mayor parte del cálculo ocurre en la CPU (lo que se beneficia de mis 64 GB de RAM del sistema)
  3. Entender cómo Ollama utiliza los núcleos de CPU puede ayudar a optimizar esta configuración aún más

¿Quién hubiera pensado que una GPU de consumo podría manejar un modelo de 117B de parámetros en absoluto, y aún más con un rendimiento útil? Esto demuestra el poder del manejo inteligente de memoria de Ollama y la importancia de tener suficiente RAM del sistema. Si estás interesado en integrar Ollama en tus aplicaciones, consulta esta guía sobre usar Ollama con Python.

Nota: Aunque esto funciona para experimentación y pruebas, notarás que GPT-OSS puede tener algunas peculiaridades, especialmente con formatos de salida estructurada.

Fuentes primarias

Lectura relacionada

Comparaciones de hardware y precios

Guías de Ollama y rendimiento

Comparaciones de modelos