NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama
Benchmarks do GPT-OSS 120b em três plataformas de IA
Fui atrás de alguns testes de desempenho interessantes do GPT-OSS 120b em execução no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama tem 65GB, o que significa que ele não cabe na VRAM de 16GB de um RTX 4080 (ou no mais novo RTX 5080).
Sim, o modelo pode ser executado com offloading parcial para o CPU, e se você tiver 64GB de memória RAM do sistema (como eu tenho), você pode tentar. No entanto, esse setup não seria considerado nem perto de um desempenho adequado para produção. Para cargas de trabalho realmente exigentes, você pode precisar de algo como o NVIDIA DGX Spark, que foi projetado especificamente para cargas de trabalho de IA de alta capacidade.

Eu esperava que esse LLM se beneficiasse significativamente ao rodar em um “dispositivo de IA de alta memória” como o DGX Spark. Embora os resultados sejam bons, eles não são tão melhorados drasticamente quanto você poderia esperar considerando a diferença de preço entre DGX Spark e opções mais acessíveis.
TL;DR
Ollama executando GPT-OSS 120b comparação de desempenho em três plataformas:
| Dispositivo | Desempenho de Avaliação de Prompt (tokens/segundo) | Desempenho de Geração (tokens/segundo) | Notas |
|---|---|---|---|
| NVIDIA DGX Spark | 1159 | 41 | Melhor desempenho geral, totalmente acelerado por GPU |
| Mac Studio | Desconhecido | 34 → 6 | Um teste mostrou degradação com aumento do tamanho do contexto |
| RTX 4080 | 969 | 12,45 | Divisão de 78% CPU / 22% GPU devido a limitações de VRAM |
Especificações do modelo:
- Modelo: GPT-OSS 120b
- Parâmetros: 117B (arquitetura Mixture-of-Experts)
- Parâmetros ativos por passo: 5,1B
- Quantização: MXFP4
- Tamanho do modelo: 65GB
Isso é semelhante em arquitetura a outros modelos MoE, como Qwen3:30b, mas em uma escala muito maior.
GPT-OSS 120b no NVIDIA DGX Spark
Os dados de desempenho do LLM no NVIDIA DGX Spark vêm do post oficial do blog Ollama (linkado abaixo na seção de links úteis). O DGX Spark representa a entrada da NVIDIA no mercado de supercomputadores pessoais de IA, com 128GB de memória unificada especificamente projetada para rodar modelos de linguagem grandes.

O desempenho do GPT-OSS 120b parece impressionante com 41 tokens/segundo para geração. Isso o torna claramente o vencedor para esse modelo específico, mostrando que a capacidade adicional de memória pode realmente fazer a diferença para modelos extremamente grandes.
No entanto, o desempenho dos LLMs médios e grandes não parece tão convincente. Isso é particularmente notável com Qwen3:32b e Llama3.1:70b — exatamente os modelos onde você esperaria que a alta capacidade de memória brilhasse. O desempenho desses modelos no DGX Spark não é inspirador quando comparado ao溢价 de preço. Se você estiver trabalhando principalmente com modelos no intervalo de 30-70B de parâmetros, talvez queira considerar alternativas como uma estação de trabalho bem configurada ou até mesmo um Quadro RTX 5880 Ada com seus 48GB de VRAM.
GPT-OSS 120b no Mac Studio Max
O canal de YouTube Slinging Bits conduziu testes abrangentes executando o GPT-OSS 120b no Ollama com tamanhos de contexto variáveis. Os resultados revelam uma preocupação significativa de desempenho: a velocidade de geração do modelo caiu drasticamente de 34 tokens/s para apenas 6 tokens/s à medida que o tamanho do contexto aumentava.
Essa degradação de desempenho é provavelmente devida à pressão de memória e à forma como o macOS gerencia a arquitetura de memória unificada. Embora o Mac Studio Max tenha uma memória unificada impressionante (até 192GB na configuração M2 Ultra), a maneira como ele lida com modelos muito grandes sob cargas de contexto crescentes difere significativamente da VRAM dedicada da GPU.


Para aplicações que exigem desempenho consistente em diferentes comprimentos de contexto, isso torna o Mac Studio menos ideal para o GPT-OSS 120b, apesar de suas capacidades excelentes para cargas de trabalho de IA. Você pode ter mais sorte com modelos menores ou considere usar as funcionalidades de tratamento de solicitações paralelas do Ollama para maximizar o throughput em cenários de produção.
GPT-OSS 120b no RTX 4080
Inicialmente, pensei que executar o Ollama com o GPT-OSS 120b no meu PC de consumo não seria particularmente emocionante, mas os resultados me surpreenderam de forma agradável. Aqui está o que aconteceu quando testei com essa consulta:
$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia
Pensando...
Precisamos comparar o clima nas capitais dos estados da Austrália. Forneça uma comparação, talvez inclua
...
*Todos os dados acessados em setembro de 2024; quaisquer atualizações do BOM após essa data podem ajustar levemente os
números, mas os padrões gerais permanecem inalterados.*
duração total: 4m39.942105769s
duração de carregamento: 75.843974ms
contagem de avaliação de prompt: 75 token(s)
duração de avaliação de prompt: 77.341981ms
taxa de avaliação de prompt: 969,72 tokens/s
contagem de avaliação: 3483 token(s)
duração de avaliação: 4m39.788119563s
taxa de avaliação: 12,45 tokens/s
Agora, aqui está a parte interessante — o Ollama com esse LLM estava rodando principalmente no CPU! O modelo simplesmente não cabe na VRAM de 16GB, então o Ollama offloadou inteligentemente a maior parte dele para a memória RAM do sistema. Você pode ver esse comportamento usando o comando ollama ps:
$ ollama ps
NOME ID TAMANHO PROCESSADOR CONTEXTO
gpt-oss:120b a951a23b46a1 65 GB 78%/22% CPU/GPU 4096
Apesar de rodar com uma divisão de 78% CPU / 22% GPU, o RTX 4080 ainda entrega um desempenho respeitável para um modelo desse tamanho. A avaliação do prompt é incrivelmente rápida, com 969 tokens/s, e mesmo a velocidade de geração de 12,45 tokens/s é utilizável para muitas aplicações.
Isso é particularmente impressionante quando você considera que:
- O modelo é quase 4 vezes maior que a VRAM disponível
- A maior parte da computação acontece no CPU (que se beneficia da minha memória RAM de 64GB)
- Entender como o Ollama usa os núcleos do CPU pode ajudar a otimizar esse setup ainda mais
Quem diria que um GPU de consumo poderia lidar com um modelo de 117B de parâmetros de forma alguma, deixando de lado um desempenho útil? Isso demonstra o poder da gestão inteligente de memória do Ollama e a importância de ter uma quantidade suficiente de memória RAM do sistema. Se você estiver interessado em integrar o Ollama em suas aplicações, confira este guia sobre como usar o Ollama com Python.
Nota: Embora isso funcione para experimentação e testes, você notará alguns peculiaridades do GPT-OSS, particularmente com formatos de saída estruturada.
Fontes Principais
- Ollama no NVIDIA DGX Spark: Benchmarks de Desempenho - Post oficial do blog Ollama com dados abrangentes de desempenho do DGX Spark
- GPT-OSS 120B no Mac Studio - Canal Slinging Bits no YouTube - Vídeo detalhado testando o GPT-OSS 120b com tamanhos de contexto variáveis
Leitura Relacionada
Comparações de Hardware e Preços
- DGX Spark vs. Mac Studio: Uma Visão Prática e com Preços Verificados do Supercomputador de IA Pessoal da NVIDIA - Explicação detalhada das configurações do DGX Spark, preços globais e comparação direta com o Mac Studio para trabalhos locais de IA
- NVIDIA DGX Spark - Antecipação - Cobertura inicial do DGX Spark: disponibilidade, preços e especificações técnicas
- Preços do NVidia RTX 5080 e RTX 5090 na Austrália - Outubro de 2025 - Preços atuais do mercado para GPUs de consumo da próxima geração
- O Quadro RTX 5880 Ada 48GB é Bom? - Resenha da alternativa de GPU de workstation de 48GB para cargas de trabalho de IA
Guias do Ollama e Desempenho
- Dica rápida do Ollama - Referência completa de comandos e dicas para o Ollama
- Como o Ollama Trata Solicitações Paralelas - Entendendo o processamento de solicitações concorrentes em produção
- Como o Ollama usa os núcleos de desempenho e eficiência do Intel CPU - Análise detalhada dos padrões de utilização de núcleos de CPU
- Integrando o Ollama com Python: Exemplos de API REST e Cliente Python - Integração prática com API REST e cliente oficial
Comparações de Modelos
- Comparação de LLMs: Qwen3:30b vs GPT-OSS:20b - Comparação técnica de dois modelos MoE populares
- Problemas de Saída Estruturada do Ollama GPT-OSS - Limitações conhecidas ao usar o GPT-OSS para geração de dados estruturados