NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama 성능 비교

GPT-OSS 120b의 세 개 AI 플랫폼에서의 벤치마크

Page content

저는 NVIDIA DGX Spark, Mac Studio, 그리고 RTX 4080 세 가지 다른 플랫폼에서 Ollama를 사용하여 GPT-OSS 120b의 흥미로운 성능 테스트 결과를 조사했습니다. Ollama 라이브러리에서 제공하는 GPT-OSS 120b 모델은 65GB의 크기를 가지며, 이는 RTX 4080의 16GB VRAM에 맞지 않으므로, 또는 더 최근의 RTX 5080에도 맞지 않습니다.

네, 모델은 CPU로 부분적으로 오프로딩하여 실행할 수 있으며, 저는 64GB의 시스템 RAM을 가지고 있으므로 이를 시도해 볼 수 있습니다. 그러나 이 설정은 생산성에 가까운 성능으로 보기 어렵습니다. 정말로 고부하 작업이 필요한 경우, 고용량 AI 작업을 위해 특별히 설계된 NVIDIA DGX Spark와 같은 장비가 필요할 수 있습니다.

7 llamas

DGX Spark와 같은 “고-RAM AI 장치"에서 이 LLM이 크게 이점을 얻을 것으로 예상했습니다. 결과는 좋지만, 가격 차이가 큰 DGX Spark와 더 저렴한 옵션 사이의 가격 비교를 고려할 때 예상보다 그렇게 극적인 차이를 보이지는 않았습니다.

TL;DR

Ollama에서 실행되는 GPT-OSS 120b의 세 가지 플랫폼 간 성능 비교:

장비 프롬프트 평가 성능 (토큰/초) 생성 성능 (토큰/초) 비고
NVIDIA DGX Spark 1159 41 전체적으로 가장 우수한 성능, 완전히 GPU 가속
Mac Studio 미상 34 → 6 하나의 테스트에서 컨텍스트 크기 증가로 성능 저하
RTX 4080 969 12.45 VRAM 제한으로 인해 78% CPU / 22% GPU 분할

모델 사양:

  • 모델: GPT-OSS 120b
  • 파라미터: 117B (Mixture-of-Experts 아키텍처)
  • 패스당 활성 파라미터: 5.1B
  • 양자화: MXFP4
  • 모델 크기: 65GB

이것은 Qwen3:30b와 같은 다른 MoE 모델과 유사한 아키텍처를 가지지만, 훨씬 더 큰 규모입니다.

NVIDIA DGX Spark에서의 GPT-OSS 120b

NVIDIA DGX Spark의 LLM 성능 데이터는 아래의 “유용한 링크” 섹션에서 링크된 공식 Ollama 블로그 게시물에서 나옵니다. DGX Spark는 NVIDIA가 개인용 AI 슈퍼컴퓨터 시장에 진입한 제품으로, 대규모 언어 모델을 실행하기 위해 특별히 설계된 128GB의 통합 메모리를 갖추고 있습니다.

ollama on dgx spark performance table

GPT-OSS 120b의 생성 성능은 41 토큰/초로 매우 인상적이며, 이는 이 특정 모델에 대해 가장 우수한 성능을 보여주고 있습니다. 이는 매우 큰 모델에 대해 추가 메모리 용량이 실제로 차이를 만들 수 있음을 보여줍니다.

그러나 중간에서 큰 LLM의 성능은 그렇게 매력적이지 않습니다. 특히 Qwen3:32b와 Llama3.1:70b와 같은 모델에서 이 현상이 두드러지며, 이는 고용량 메모리가 빛날 것으로 예상되는 모델들입니다. 이러한 모델들에 대한 DGX Spark의 성능은 가격 차이에 비해 그렇게 인상적이지 않습니다. 주로 30-70B 파라미터 범위의 모델을 사용하는 경우, 잘 구성된 워크스테이션과 같은 대안을 고려하거나, 48GB의 VRAM을 갖춘 Quadro RTX 5880 Ada를 사용하는 것이 더 나을 수 있습니다.

Mac Studio Max에서의 GPT-OSS 120b

Youtube 채널 Slinging Bits는 다양한 컨텍스트 크기에서 Ollama를 사용하여 GPT-OSS 120b를 실행하는 포괄적인 테스트를 수행했습니다. 결과는 중요한 성능 문제를 드러냅니다: 컨텍스트 크기가 증가함에 따라 생성 속도가 34 토큰/초에서 단지 6 토큰/초로 급격히 떨어졌습니다.

이 성능 저하는 아마도 메모리 압력과 macOS가 통합 메모리 아키텍처를 관리하는 방식 때문일 것입니다. Mac Studio Max는 M2 Ultra 구성에서 최대 192GB의 통합 메모리를 갖추고 있어 인상적이지만, 증가하는 컨텍스트 부하 하에서 매우 큰 모델을 처리하는 방식은 전용 GPU VRAM과 크게 다릅니다.

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

변화하는 컨텍스트 길이에 걸쳐 일관된 성능이 필요한 경우, 이는 GPT-OSS 120b에 대해 Mac Studio가 적합하지 않음을 보여줍니다. 이는 AI 작업에 대한 뛰어난 능력에도 불구하고, 작은 모델을 사용하거나 Ollama의 병렬 요청 처리 기능을 사용하여 생산 환경에서의 처리량을 극대화하는 것이 더 나을 수 있습니다.

RTX 4080에서의 GPT-OSS 120b

처음에는 내 소비자용 PC에서 Ollama와 GPT-OSS 120b를 실행하는 것이 특별히 흥미롭지 않을 것이라고 생각했지만, 결과는 나를 기쁘게 했습니다. 이 쿼리로 테스트했을 때 발생한 일은 다음과 같습니다:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include 
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the 
numbers, but the broad patterns remain unchanged.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

이제 흥미로운 부분입니다—이 LLM과 함께 Ollama는 대부분 CPU에서 실행되고 있습니다! 모델은 16GB VRAM에 맞지 않기 때문에, Ollama는 대부분을 시스템 RAM으로 스마트하게 오프로딩합니다. 이 동작은 ollama ps 명령어를 사용하여 확인할 수 있습니다:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

78% CPU / 22% GPU 분할로 실행되더라도, RTX 4080은 이 크기의 모델에 대해 꽤 우수한 성능을 제공합니다. 프롬프트 평가는 969 토큰/초로 매우 빠르며, 12.45 토큰/초의 생성 속도도 많은 응용 프로그램에서 사용 가능합니다.

이것은 다음과 같은 점을 고려할 때 특히 인상적이며:

  1. 모델은 사용 가능한 VRAM의 거의 4배 크기입니다.
  2. 대부분의 계산은 CPU에서 수행되며, 이는 제 64GB의 시스템 RAM 덕분입니다.
  3. Ollama가 CPU 코어를 어떻게 사용하는지를 이해하면 이 설정을 더 최적화할 수 있습니다.

소비자용 GPU가 117B 파라미터 모델을 처리할 수 있다는 것을 누가 예상했겠습니까, 그것도 사용 가능한 성능으로? 이는 Ollama의 스마트한 메모리 관리의 힘과 충분한 시스템 RAM의 중요성을 보여줍니다. Ollama를 응용 프로그램에 통합하려는 경우, Python과 함께 Ollama 사용에 대한 이 가이드를 확인해 보세요.

참고: 이는 실험과 테스트에 적합하지만, GPT-OSS에는 몇 가지 특이한 점이 있을 수 있습니다, 특히 구조화된 출력 형식에 대해 그렇습니다.

주요 출처

관련 읽기

하드웨어 비교 및 가격

Ollama 가이드 및 성능

모델 비교