NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama 성능 비교
GPT-OSS 120b의 세 개 AI 플랫폼에서의 벤치마크
저는 NVIDIA DGX Spark, Mac Studio, 그리고 RTX 4080 세 가지 다른 플랫폼에서 Ollama를 사용하여 GPT-OSS 120b의 흥미로운 성능 테스트 결과를 조사했습니다. Ollama 라이브러리에서 제공하는 GPT-OSS 120b 모델은 65GB의 크기를 가지며, 이는 RTX 4080의 16GB VRAM에 맞지 않으므로, 또는 더 최근의 RTX 5080에도 맞지 않습니다.
네, 모델은 CPU로 부분적으로 오프로딩하여 실행할 수 있으며, 저는 64GB의 시스템 RAM을 가지고 있으므로 이를 시도해 볼 수 있습니다. 그러나 이 설정은 생산성에 가까운 성능으로 보기 어렵습니다. 정말로 고부하 작업이 필요한 경우, 고용량 AI 작업을 위해 특별히 설계된 NVIDIA DGX Spark와 같은 장비가 필요할 수 있습니다.

DGX Spark와 같은 “고-RAM AI 장치"에서 이 LLM이 크게 이점을 얻을 것으로 예상했습니다. 결과는 좋지만, 가격 차이가 큰 DGX Spark와 더 저렴한 옵션 사이의 가격 비교를 고려할 때 예상보다 그렇게 극적인 차이를 보이지는 않았습니다.
TL;DR
Ollama에서 실행되는 GPT-OSS 120b의 세 가지 플랫폼 간 성능 비교:
| 장비 | 프롬프트 평가 성능 (토큰/초) | 생성 성능 (토큰/초) | 비고 |
|---|---|---|---|
| NVIDIA DGX Spark | 1159 | 41 | 전체적으로 가장 우수한 성능, 완전히 GPU 가속 |
| Mac Studio | 미상 | 34 → 6 | 하나의 테스트에서 컨텍스트 크기 증가로 성능 저하 |
| RTX 4080 | 969 | 12.45 | VRAM 제한으로 인해 78% CPU / 22% GPU 분할 |
모델 사양:
- 모델: GPT-OSS 120b
- 파라미터: 117B (Mixture-of-Experts 아키텍처)
- 패스당 활성 파라미터: 5.1B
- 양자화: MXFP4
- 모델 크기: 65GB
이것은 Qwen3:30b와 같은 다른 MoE 모델과 유사한 아키텍처를 가지지만, 훨씬 더 큰 규모입니다.
NVIDIA DGX Spark에서의 GPT-OSS 120b
NVIDIA DGX Spark의 LLM 성능 데이터는 아래의 “유용한 링크” 섹션에서 링크된 공식 Ollama 블로그 게시물에서 나옵니다. DGX Spark는 NVIDIA가 개인용 AI 슈퍼컴퓨터 시장에 진입한 제품으로, 대규모 언어 모델을 실행하기 위해 특별히 설계된 128GB의 통합 메모리를 갖추고 있습니다.

GPT-OSS 120b의 생성 성능은 41 토큰/초로 매우 인상적이며, 이는 이 특정 모델에 대해 가장 우수한 성능을 보여주고 있습니다. 이는 매우 큰 모델에 대해 추가 메모리 용량이 실제로 차이를 만들 수 있음을 보여줍니다.
그러나 중간에서 큰 LLM의 성능은 그렇게 매력적이지 않습니다. 특히 Qwen3:32b와 Llama3.1:70b와 같은 모델에서 이 현상이 두드러지며, 이는 고용량 메모리가 빛날 것으로 예상되는 모델들입니다. 이러한 모델들에 대한 DGX Spark의 성능은 가격 차이에 비해 그렇게 인상적이지 않습니다. 주로 30-70B 파라미터 범위의 모델을 사용하는 경우, 잘 구성된 워크스테이션과 같은 대안을 고려하거나, 48GB의 VRAM을 갖춘 Quadro RTX 5880 Ada를 사용하는 것이 더 나을 수 있습니다.
Mac Studio Max에서의 GPT-OSS 120b
Youtube 채널 Slinging Bits는 다양한 컨텍스트 크기에서 Ollama를 사용하여 GPT-OSS 120b를 실행하는 포괄적인 테스트를 수행했습니다. 결과는 중요한 성능 문제를 드러냅니다: 컨텍스트 크기가 증가함에 따라 생성 속도가 34 토큰/초에서 단지 6 토큰/초로 급격히 떨어졌습니다.
이 성능 저하는 아마도 메모리 압력과 macOS가 통합 메모리 아키텍처를 관리하는 방식 때문일 것입니다. Mac Studio Max는 M2 Ultra 구성에서 최대 192GB의 통합 메모리를 갖추고 있어 인상적이지만, 증가하는 컨텍스트 부하 하에서 매우 큰 모델을 처리하는 방식은 전용 GPU VRAM과 크게 다릅니다.


변화하는 컨텍스트 길이에 걸쳐 일관된 성능이 필요한 경우, 이는 GPT-OSS 120b에 대해 Mac Studio가 적합하지 않음을 보여줍니다. 이는 AI 작업에 대한 뛰어난 능력에도 불구하고, 작은 모델을 사용하거나 Ollama의 병렬 요청 처리 기능을 사용하여 생산 환경에서의 처리량을 극대화하는 것이 더 나을 수 있습니다.
RTX 4080에서의 GPT-OSS 120b
처음에는 내 소비자용 PC에서 Ollama와 GPT-OSS 120b를 실행하는 것이 특별히 흥미롭지 않을 것이라고 생각했지만, 결과는 나를 기쁘게 했습니다. 이 쿼리로 테스트했을 때 발생한 일은 다음과 같습니다:
$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia
Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the
numbers, but the broad patterns remain unchanged.*
total duration: 4m39.942105769s
load duration: 75.843974ms
prompt eval count: 75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate: 969.72 tokens/s
eval count: 3483 token(s)
eval duration: 4m39.788119563s
eval rate: 12.45 tokens/s
이제 흥미로운 부분입니다—이 LLM과 함께 Ollama는 대부분 CPU에서 실행되고 있습니다! 모델은 16GB VRAM에 맞지 않기 때문에, Ollama는 대부분을 시스템 RAM으로 스마트하게 오프로딩합니다. 이 동작은 ollama ps 명령어를 사용하여 확인할 수 있습니다:
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT
gpt-oss:120b a951a23b46a1 65 GB 78%/22% CPU/GPU 4096
78% CPU / 22% GPU 분할로 실행되더라도, RTX 4080은 이 크기의 모델에 대해 꽤 우수한 성능을 제공합니다. 프롬프트 평가는 969 토큰/초로 매우 빠르며, 12.45 토큰/초의 생성 속도도 많은 응용 프로그램에서 사용 가능합니다.
이것은 다음과 같은 점을 고려할 때 특히 인상적이며:
- 모델은 사용 가능한 VRAM의 거의 4배 크기입니다.
- 대부분의 계산은 CPU에서 수행되며, 이는 제 64GB의 시스템 RAM 덕분입니다.
- Ollama가 CPU 코어를 어떻게 사용하는지를 이해하면 이 설정을 더 최적화할 수 있습니다.
소비자용 GPU가 117B 파라미터 모델을 처리할 수 있다는 것을 누가 예상했겠습니까, 그것도 사용 가능한 성능으로? 이는 Ollama의 스마트한 메모리 관리의 힘과 충분한 시스템 RAM의 중요성을 보여줍니다. Ollama를 응용 프로그램에 통합하려는 경우, Python과 함께 Ollama 사용에 대한 이 가이드를 확인해 보세요.
참고: 이는 실험과 테스트에 적합하지만, GPT-OSS에는 몇 가지 특이한 점이 있을 수 있습니다, 특히 구조화된 출력 형식에 대해 그렇습니다.
주요 출처
- Ollama on NVIDIA DGX Spark: Performance Benchmarks - 공식 Ollama 블로그 게시물로 DGX Spark 성능 데이터를 포함
- GPT-OSS 120B on Mac Studio - Slinging Bits YouTube - 다양한 컨텍스트 크기에서 GPT-OSS 120b를 테스트한 상세한 동영상
관련 읽기
하드웨어 비교 및 가격
- DGX Spark vs. Mac Studio: NVIDIA의 개인용 AI 슈퍼컴퓨터에 대한 실용적이고 가격을 고려한 비교 - DGX Spark 구성, 전 세계 가격, 그리고 로컬 AI 작업을 위한 Mac Studio와의 직접 비교
- NVIDIA DGX Spark - 기대 - DGX Spark의 초기 보도: 가용성, 가격, 기술 사양
- NVidia RTX 5080 및 RTX 5090의 호주 가격 - 2025년 10월 - 차세대 소비자용 GPU의 현재 시장 가격
- Quadro RTX 5880 Ada 48GB은 어떤가요? - AI 작업에 대한 워크스테이션용 GPU 대안에 대한 리뷰
Ollama 가이드 및 성능
- Ollama cheatsheet - Ollama에 대한 포괄적인 명령어 참조 및 팁
- Ollama가 병렬 요청을 어떻게 처리하는가 - 생산 환경에서의 동시 요청 처리 이해
- Ollama가 인텔 CPU 성능 및 효율 코어를 어떻게 사용하는가 - CPU 코어 사용 패턴에 대한 심층 분석
- Python과 함께 Ollama 통합: REST API 및 Python 클라이언트 예제 - REST API 및 공식 클라이언트와의 실용적인 Python 통합
모델 비교
- LLMs 비교: Qwen3:30b vs GPT-OSS:20b - 두 인기 있는 MoE 모델 간의 기술적 비교
- Ollama GPT-OSS 구조화된 출력 문제 - 구조화된 데이터 생성을 위해 GPT-OSS를 사용할 때의 알려진 한계