NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaのパフォーマンス比較

GPT-OSS 120bの3つのAIプラットフォームでのベンチマーク

目次

私は、NVIDIA DGX Spark、Mac Studio、およびRTX 4080の3つの異なるプラットフォーム上で、Ollama上で動作するGPT-OSS 120bの興味深いパフォーマンステストをいくつか見つけました。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080(または新しいRTX 5080の16GBのVRAMには収まらないことを意味します。

はい、モデルはCPUへの部分的なオフロードで動作できます。私は64GBのシステムRAMを持っているので、試してみることができます。ただし、この設定は生産性に近いパフォーマンスとは言えません。本当に厳しいワークロードが必要な場合は、NVIDIA DGX Sparkのようなものが必要になるかもしれません。これは、高容量のAIワークロードに特化して設計されています。

7 llamas

DGX Sparkのような「高RAM AIデバイス」上でこのLLMを実行すると、パフォーマンスが大幅に向上すると予想していました。結果は良いですが、DGX Sparkとより安価なオプションの価格差を考慮すると、予想ほど劇的に良いとは言えません。

TL;DR

OllamaGPT-OSS 120bを3つのプラットフォームで実行したパフォーマンス比較:

デバイス プロンプト評価パフォーマンス(トークン/秒) 生成パフォーマンス(トークン/秒) メモ
NVIDIA DGX Spark 1159 41 全体的に最良のパフォーマンス、完全にGPU加速
Mac Studio 未知 34 → 6 1つのテストではコンテキストサイズの増加によりパフォーマンスが低下
RTX 4080 969 12.45 VRAMの制限により、78% CPU / 22% GPUの分割

モデル仕様:

  • モデル:GPT-OSS 120b
  • パラメータ:117B(Mixture-of-Expertsアーキテクチャ)
  • 1回の処理でアクティブなパラメータ:5.1B
  • 量子化:MXFP4
  • モデルサイズ:65GB

これは、Qwen3:30bなどの他のMoEモデルとアーキテクチャが似ていますが、はるかに大規模です。

NVIDIA DGX Spark上のGPT-OSS 120b

NVIDIA DGX SparkのLLMパフォーマンスデータは、以下の「役に立つリンク」セクションにリンクされている公式のOllamaブログ投稿から来ています。DGX Sparkは、NVIDIAが個人用AIスーパーコンピュータ市場に進出するために設計されたもので、特に大規模言語モデルを実行するために設計された128GBの統合メモリを備えています。

ollama on dgx spark performance table

GPT-OSS 120bの生成パフォーマンスは41トークン/秒で、これは非常に印象的です。このモデルにとってこれは明確な勝者であり、非常に大きなモデルに対してメモリ容量が実際に差を生むことを示しています。

しかし、中規模から大規模のLLMのパフォーマンスはそれほど魅力的ではありません。特にQwen3:32bとLlama3.1:70bでは、高RAM容量が光るはずのモデルで、DGX Sparkでのパフォーマンスは価格のプレミアムと比較してあまり魅力的ではありません。30-70Bパラメータの範囲のモデルを主に使用している場合は、よく設定されたワークステーションなどの代替手段を検討するか、48GBのVRAMを持つQuadro RTX 5880 Adaを検討するかもしれません。

Mac Studio Max上のGPT-OSS 120b

Youtubeチャンネル「Slinging Bits」は、Ollama上でGPT-OSS 120bを実行し、さまざまなコンテキストサイズでテストしました。その結果、モデルの生成速度がコンテキストサイズが増加するにつれて34トークン/秒からわずか6トークン/秒に劇的に低下するという重大なパフォーマンス上の問題が明らかになりました。

このパフォーマンスの低下は、メモリの圧力とmacOSが統合メモリアーキテクチャをどのように管理するかによる可能性があります。Mac Studio Maxは、M2 Ultra構成では最大192GBの統合メモリを備えており、非常に印象的ですが、非常に大きなモデルを増加するコンテキスト負荷の下で処理する方法は、専用GPU VRAMと大きく異なります。

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

変動するコンテキスト長で一貫したパフォーマンスを必要とするアプリケーションでは、GPT-OSS 120bに対してMac Studioは理想的ではありません。ただし、AIワークロードに対しては他の面で優れた能力を備えています。小さなモデルを使用するか、Ollamaの並列リクエスト処理の機能を使用して、生産環境でのスループットを最大化する方法を検討するかもしれません。

RTX 4080上のGPT-OSS 120b

最初は、私の消費者向けPC上でOllamaとGPT-OSS 120bを実行するのには特に興味深いものではないと考えていましたが、結果は私を驚かせました。このクエリでテストした際の結果は以下の通りです:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include 
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the 
numbers, but the broad patterns remain unchanged.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

ここに興味深い点があります—このLLMを使用したOllamaはほぼCPU上で動作しています!モデルは16GBのVRAMに収まらないため、OllamaはそれをシステムRAMにスマートにオフロードしています。この動作はollama psコマンドを使用して確認できます:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

78% CPU / 22% GPUの分割で動作しているにもかかわらず、RTX 4080はこのサイズのモデルに対して実に良いパフォーマンスを提供しています。プロンプト評価は969トークン/秒という非常に高速で、12.45トークン/秒という生成速度は多くのアプリケーションで使用可能です。

これは特に印象的です。なぜなら:

  1. モデルは利用可能なVRAMのほぼ4倍のサイズです
  2. 計算の大部分はCPUで行われています(これは私の64GBのシステムRAMに恩恵を受けています)
  3. OllamaがCPUコアを使用する方法を理解することで、この設定をさらに最適化できます

誰が予想したでしょう?消費者向けGPUが117Bパラメータモデルを処理できるとは、ましてや使用可能なパフォーマンスで?これはOllamaのスマートなメモリ管理の力と、十分なシステムRAMを持つことの重要性を示しています。Ollamaをアプリケーションに統合したい場合は、PythonでのOllamaの使用に関するガイドをご覧ください。

注意:これは実験やテストには適していますが、GPT-OSSにはいくつかのクセがあることに注意してください、特に構造化された出力形式では。

主な出典

関連記事

ハードウェア比較と価格

Ollamaガイドとパフォーマンス

モデル比較