A RTX 4080 consegue executar o GPT-OSS 120b de forma eficaz?

Sim, surpreendentemente bem. A RTX 4080 alcança 969 tokens/s para avaliação de prompt e 12,45 tokens/s para geração, embora o modelo execute 78% no CPU e apenas 22% no GPU devido ao tamanho do modelo de 65 GB exceder a VRAM de 16 GB.

Como o Mac Studio se desempenha com o GPT-OSS 120b?

O Mac Studio começa em 34 tokens/s, mas o desempenho degrada significativamente para 6 tokens/s à medida que o tamanho do contexto aumenta, tornando-o menos adequado para tarefas com contexto longo com este modelo.

A NVIDIA DGX Spark vale a pena para executar modelos de linguagem grandes?

Para o GPT-OSS 120b, o DGX Spark oferece um desempenho excelente de 41 tokens/s. No entanto, para modelos médios e grandes, como o Qwen3:32b e o Llama3.1:70b, o desempenho não é tão impressionante, sugerindo que ele é mais benéfico para modelos muito grandes que realmente necessitam da alta capacidade de RAM.

O que é o GPT-OSS 120b e por que é significativo?

O GPT-OSS 120b é um modelo Mixture-of-Experts (MoE) com 117B parâmetros, com 5,1B parâmetros ativos por passo, utilizando a quantização MXFP4. Com 65GB, é um dos maiores modelos disponíveis publicamente, tornando-o um bom benchmark para testar hardware de IA de alta capacidade.

Posso executar o GPT-OSS 120b em um sistema com apenas 16 GB de VRAM?

Não totalmente na GPU. Com 16 GB de VRAM, o modelo dependerá muito do desempenho da CPU. Você precisará de pelo menos 64 GB de RAM do sistema para um desempenho razoável, embora não esteja pronto para produção. O modelo desempenha-se melhor em sistemas com alta VRAM ou arquiteturas de memória unificada.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama

Benchmarks do GPT-OSS 120b em três plataformas de IA

Conteúdo da página

Fui atrás de alguns testes de desempenho interessantes do GPT-OSS 120b em execução no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama tem 65GB, o que significa que ele não cabe na VRAM de 16GB de um RTX 4080 (ou no mais novo RTX 5080).

Sim, o modelo pode ser executado com offloading parcial para o CPU, e se você tiver 64GB de memória RAM do sistema (como eu tenho), você pode tentar. No entanto, esse setup não seria considerado nem perto de um desempenho adequado para produção. Para cargas de trabalho realmente exigentes, você pode precisar de algo como o NVIDIA DGX Spark, que foi projetado especificamente para cargas de trabalho de IA de alta capacidade.

7 llamas

Eu esperava que esse LLM se beneficiasse significativamente ao rodar em um “dispositivo de IA de alta memória” como o DGX Spark. Embora os resultados sejam bons, eles não são tão melhorados drasticamente quanto você poderia esperar considerando a diferença de preço entre DGX Spark e opções mais acessíveis.

TL;DR

Ollama executando GPT-OSS 120b comparação de desempenho em três plataformas:

Dispositivo	Desempenho de Avaliação de Prompt (tokens/segundo)	Desempenho de Geração (tokens/segundo)	Notas
NVIDIA DGX Spark	1159	41	Melhor desempenho geral, totalmente acelerado por GPU
Mac Studio	Desconhecido	34 → 6	Um teste mostrou degradação com aumento do tamanho do contexto
RTX 4080	969	12,45	Divisão de 78% CPU / 22% GPU devido a limitações de VRAM

Especificações do modelo:

Modelo: GPT-OSS 120b
Parâmetros: 117B (arquitetura Mixture-of-Experts)
Parâmetros ativos por passo: 5,1B
Quantização: MXFP4
Tamanho do modelo: 65GB

Isso é semelhante em arquitetura a outros modelos MoE, como Qwen3:30b, mas em uma escala muito maior.

GPT-OSS 120b no NVIDIA DGX Spark

Os dados de desempenho do LLM no NVIDIA DGX Spark vêm do post oficial do blog Ollama (linkado abaixo na seção de links úteis). O DGX Spark representa a entrada da NVIDIA no mercado de supercomputadores pessoais de IA, com 128GB de memória unificada especificamente projetada para rodar modelos de linguagem grandes.

tabela de desempenho do ollama no dgx spark

O desempenho do GPT-OSS 120b parece impressionante com 41 tokens/segundo para geração. Isso o torna claramente o vencedor para esse modelo específico, mostrando que a capacidade adicional de memória pode realmente fazer a diferença para modelos extremamente grandes.

No entanto, o desempenho dos LLMs médios e grandes não parece tão convincente. Isso é particularmente notável com Qwen3:32b e Llama3.1:70b — exatamente os modelos onde você esperaria que a alta capacidade de memória brilhasse. O desempenho desses modelos no DGX Spark não é inspirador quando comparado ao溢价 de preço. Se você estiver trabalhando principalmente com modelos no intervalo de 30-70B de parâmetros, talvez queira considerar alternativas como uma estação de trabalho bem configurada ou até mesmo um Quadro RTX 5880 Ada com seus 48GB de VRAM.

GPT-OSS 120b no Mac Studio Max

O canal de YouTube Slinging Bits conduziu testes abrangentes executando o GPT-OSS 120b no Ollama com tamanhos de contexto variáveis. Os resultados revelam uma preocupação significativa de desempenho: a velocidade de geração do modelo caiu drasticamente de 34 tokens/s para apenas 6 tokens/s à medida que o tamanho do contexto aumentava.

Essa degradação de desempenho é provavelmente devida à pressão de memória e à forma como o macOS gerencia a arquitetura de memória unificada. Embora o Mac Studio Max tenha uma memória unificada impressionante (até 192GB na configuração M2 Ultra), a maneira como ele lida com modelos muito grandes sob cargas de contexto crescentes difere significativamente da VRAM dedicada da GPU.

ollama com gpt-oss 120b no mac studio

“ollama-gpt-oss-120b-on-mac-studio-resumo”

Para aplicações que exigem desempenho consistente em diferentes comprimentos de contexto, isso torna o Mac Studio menos ideal para o GPT-OSS 120b, apesar de suas capacidades excelentes para cargas de trabalho de IA. Você pode ter mais sorte com modelos menores ou considere usar as funcionalidades de tratamento de solicitações paralelas do Ollama para maximizar o throughput em cenários de produção.

GPT-OSS 120b no RTX 4080

Inicialmente, pensei que executar o Ollama com o GPT-OSS 120b no meu PC de consumo não seria particularmente emocionante, mas os resultados me surpreenderam de forma agradável. Aqui está o que aconteceu quando testei com essa consulta:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Pensando...
Precisamos comparar o clima nas capitais dos estados da Austrália. Forneça uma comparação, talvez inclua 
...
*Todos os dados acessados em setembro de 2024; quaisquer atualizações do BOM após essa data podem ajustar levemente os 
números, mas os padrões gerais permanecem inalterados.*


duração total:       4m39.942105769s
duração de carregamento:        75.843974ms
contagem de avaliação de prompt:    75 token(s)
duração de avaliação de prompt: 77.341981ms
taxa de avaliação de prompt:     969,72 tokens/s
contagem de avaliação:           3483 token(s)
duração de avaliação:        4m39.788119563s
taxa de avaliação:            12,45 tokens/s

Agora, aqui está a parte interessante — o Ollama com esse LLM estava rodando principalmente no CPU! O modelo simplesmente não cabe na VRAM de 16GB, então o Ollama offloadou inteligentemente a maior parte dele para a memória RAM do sistema. Você pode ver esse comportamento usando o comando ollama ps:

$ ollama ps

NOME            ID              TAMANHO     PROCESSADOR          CONTEXTO 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Apesar de rodar com uma divisão de 78% CPU / 22% GPU, o RTX 4080 ainda entrega um desempenho respeitável para um modelo desse tamanho. A avaliação do prompt é incrivelmente rápida, com 969 tokens/s, e mesmo a velocidade de geração de 12,45 tokens/s é utilizável para muitas aplicações.

Isso é particularmente impressionante quando você considera que:

O modelo é quase 4 vezes maior que a VRAM disponível
A maior parte da computação acontece no CPU (que se beneficia da minha memória RAM de 64GB)
Entender como o Ollama usa os núcleos do CPU pode ajudar a otimizar esse setup ainda mais

Quem diria que um GPU de consumo poderia lidar com um modelo de 117B de parâmetros de forma alguma, deixando de lado um desempenho útil? Isso demonstra o poder da gestão inteligente de memória do Ollama e a importância de ter uma quantidade suficiente de memória RAM do sistema. Se você estiver interessado em integrar o Ollama em suas aplicações, confira este guia sobre como usar o Ollama com Python.

Nota: Embora isso funcione para experimentação e testes, você notará alguns peculiaridades do GPT-OSS, particularmente com formatos de saída estruturada.

Fontes Principais

Ollama no NVIDIA DGX Spark: Benchmarks de Desempenho - Post oficial do blog Ollama com dados abrangentes de desempenho do DGX Spark
GPT-OSS 120B no Mac Studio - Canal Slinging Bits no YouTube - Vídeo detalhado testando o GPT-OSS 120b com tamanhos de contexto variáveis

Leitura Relacionada

Comparações de Hardware e Preços

DGX Spark vs. Mac Studio: Uma Visão Prática e com Preços Verificados do Supercomputador de IA Pessoal da NVIDIA - Explicação detalhada das configurações do DGX Spark, preços globais e comparação direta com o Mac Studio para trabalhos locais de IA
NVIDIA DGX Spark - Antecipação - Cobertura inicial do DGX Spark: disponibilidade, preços e especificações técnicas
Preços do NVidia RTX 5080 e RTX 5090 na Austrália - Outubro de 2025 - Preços atuais do mercado para GPUs de consumo da próxima geração
O Quadro RTX 5880 Ada 48GB é Bom? - Resenha da alternativa de GPU de workstation de 48GB para cargas de trabalho de IA

Guias do Ollama e Desempenho

Dica rápida do Ollama - Referência completa de comandos e dicas para o Ollama
Como o Ollama Trata Solicitações Paralelas - Entendendo o processamento de solicitações concorrentes em produção
Como o Ollama usa os núcleos de desempenho e eficiência do Intel CPU - Análise detalhada dos padrões de utilização de núcleos de CPU
Integrando o Ollama com Python: Exemplos de API REST e Cliente Python - Integração prática com API REST e cliente oficial

Comparações de Modelos

Comparação de LLMs: Qwen3:30b vs GPT-OSS:20b - Comparação técnica de dois modelos MoE populares
Problemas de Saída Estruturada do Ollama GPT-OSS - Limitações conhecidas ao usar o GPT-OSS para geração de dados estruturados