NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaのパフォーマンス比較
GPT-OSS 120bの3つのAIプラットフォームでのベンチマーク
私は、NVIDIA DGX Spark、Mac Studio、およびRTX 4080の3つの異なるプラットフォーム上で、Ollama上で動作するGPT-OSS 120bの興味深いパフォーマンステストをいくつか見つけました。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080(または新しいRTX 5080の16GBのVRAMには収まらないことを意味します。
はい、モデルはCPUへの部分的なオフロードで動作できます。私は64GBのシステムRAMを持っているので、試してみることができます。ただし、この設定は生産性に近いパフォーマンスとは言えません。本当に厳しいワークロードが必要な場合は、NVIDIA DGX Sparkのようなものが必要になるかもしれません。これは、高容量のAIワークロードに特化して設計されています。

DGX Sparkのような「高RAM AIデバイス」上でこのLLMを実行すると、パフォーマンスが大幅に向上すると予想していました。結果は良いですが、DGX Sparkとより安価なオプションの価格差を考慮すると、予想ほど劇的に良いとは言えません。
TL;DR
OllamaでGPT-OSS 120bを3つのプラットフォームで実行したパフォーマンス比較:
| デバイス | プロンプト評価パフォーマンス(トークン/秒) | 生成パフォーマンス(トークン/秒) | メモ |
|---|---|---|---|
| NVIDIA DGX Spark | 1159 | 41 | 全体的に最良のパフォーマンス、完全にGPU加速 |
| Mac Studio | 未知 | 34 → 6 | 1つのテストではコンテキストサイズの増加によりパフォーマンスが低下 |
| RTX 4080 | 969 | 12.45 | VRAMの制限により、78% CPU / 22% GPUの分割 |
モデル仕様:
- モデル:GPT-OSS 120b
- パラメータ:117B(Mixture-of-Expertsアーキテクチャ)
- 1回の処理でアクティブなパラメータ:5.1B
- 量子化:MXFP4
- モデルサイズ:65GB
これは、Qwen3:30bなどの他のMoEモデルとアーキテクチャが似ていますが、はるかに大規模です。
NVIDIA DGX Spark上のGPT-OSS 120b
NVIDIA DGX SparkのLLMパフォーマンスデータは、以下の「役に立つリンク」セクションにリンクされている公式のOllamaブログ投稿から来ています。DGX Sparkは、NVIDIAが個人用AIスーパーコンピュータ市場に進出するために設計されたもので、特に大規模言語モデルを実行するために設計された128GBの統合メモリを備えています。

GPT-OSS 120bの生成パフォーマンスは41トークン/秒で、これは非常に印象的です。このモデルにとってこれは明確な勝者であり、非常に大きなモデルに対してメモリ容量が実際に差を生むことを示しています。
しかし、中規模から大規模のLLMのパフォーマンスはそれほど魅力的ではありません。特にQwen3:32bとLlama3.1:70bでは、高RAM容量が光るはずのモデルで、DGX Sparkでのパフォーマンスは価格のプレミアムと比較してあまり魅力的ではありません。30-70Bパラメータの範囲のモデルを主に使用している場合は、よく設定されたワークステーションなどの代替手段を検討するか、48GBのVRAMを持つQuadro RTX 5880 Adaを検討するかもしれません。
Mac Studio Max上のGPT-OSS 120b
Youtubeチャンネル「Slinging Bits」は、Ollama上でGPT-OSS 120bを実行し、さまざまなコンテキストサイズでテストしました。その結果、モデルの生成速度がコンテキストサイズが増加するにつれて34トークン/秒からわずか6トークン/秒に劇的に低下するという重大なパフォーマンス上の問題が明らかになりました。
このパフォーマンスの低下は、メモリの圧力とmacOSが統合メモリアーキテクチャをどのように管理するかによる可能性があります。Mac Studio Maxは、M2 Ultra構成では最大192GBの統合メモリを備えており、非常に印象的ですが、非常に大きなモデルを増加するコンテキスト負荷の下で処理する方法は、専用GPU VRAMと大きく異なります。


変動するコンテキスト長で一貫したパフォーマンスを必要とするアプリケーションでは、GPT-OSS 120bに対してMac Studioは理想的ではありません。ただし、AIワークロードに対しては他の面で優れた能力を備えています。小さなモデルを使用するか、Ollamaの並列リクエスト処理の機能を使用して、生産環境でのスループットを最大化する方法を検討するかもしれません。
RTX 4080上のGPT-OSS 120b
最初は、私の消費者向けPC上でOllamaとGPT-OSS 120bを実行するのには特に興味深いものではないと考えていましたが、結果は私を驚かせました。このクエリでテストした際の結果は以下の通りです:
$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia
Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the
numbers, but the broad patterns remain unchanged.*
total duration: 4m39.942105769s
load duration: 75.843974ms
prompt eval count: 75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate: 969.72 tokens/s
eval count: 3483 token(s)
eval duration: 4m39.788119563s
eval rate: 12.45 tokens/s
ここに興味深い点があります—このLLMを使用したOllamaはほぼCPU上で動作しています!モデルは16GBのVRAMに収まらないため、OllamaはそれをシステムRAMにスマートにオフロードしています。この動作はollama psコマンドを使用して確認できます:
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT
gpt-oss:120b a951a23b46a1 65 GB 78%/22% CPU/GPU 4096
78% CPU / 22% GPUの分割で動作しているにもかかわらず、RTX 4080はこのサイズのモデルに対して実に良いパフォーマンスを提供しています。プロンプト評価は969トークン/秒という非常に高速で、12.45トークン/秒という生成速度は多くのアプリケーションで使用可能です。
これは特に印象的です。なぜなら:
- モデルは利用可能なVRAMのほぼ4倍のサイズです
- 計算の大部分はCPUで行われています(これは私の64GBのシステムRAMに恩恵を受けています)
- OllamaがCPUコアを使用する方法を理解することで、この設定をさらに最適化できます
誰が予想したでしょう?消費者向けGPUが117Bパラメータモデルを処理できるとは、ましてや使用可能なパフォーマンスで?これはOllamaのスマートなメモリ管理の力と、十分なシステムRAMを持つことの重要性を示しています。Ollamaをアプリケーションに統合したい場合は、PythonでのOllamaの使用に関するガイドをご覧ください。
注意:これは実験やテストには適していますが、GPT-OSSにはいくつかのクセがあることに注意してください、特に構造化された出力形式では。
主な出典
- Ollama on NVIDIA DGX Spark: Performance Benchmarks - Ollama公式ブログ投稿でDGX Sparkのパフォーマンスデータを包括的に紹介
- GPT-OSS 120B on Mac Studio - Slinging Bits YouTube - 多様なコンテキストサイズでGPT-OSS 120bをテストした詳細な動画
関連記事
ハードウェア比較と価格
- DGX Spark vs. Mac Studio: NVIDIAの個人用AIスーパーコンピュータの実用的価格比較 - DGX Sparkの構成、グローバル価格、ローカルAI作業用のMac Studioとの直接比較
- NVIDIA DGX Spark - 期待 - DGX Sparkの初期報道:入手可能性、価格、技術仕様
- NVidia RTX 5080およびRTX 5090のオーストラリアでの価格 - 2025年10月 - 次世代の消費者向けGPUの現在の市場価格
- Quadro RTX 5880 Ada 48GBはAIワークロードに適しているか? - AIワークロード用の48GBワークステーションGPUの代替手段のレビュー
Ollamaガイドとパフォーマンス
- Ollama cheatsheet - Ollamaの包括的なコマンドリファレンスとヒント
- Ollamaが並列リクエストを処理する方法 - 生産環境での並列リクエスト処理の理解
- OllamaがインテルCPUのパフォーマンスコアと効率コアを使用する方法 - CPUコア利用率のパターンの詳細な分析
- PythonでのOllama統合:REST APIとPythonクライアントの例 - REST APIと公式クライアントを使用した実用的なPython統合
モデル比較
- LLMs比較:Qwen3:30b vs GPT-OSS:20b - 2つの人気のあるMoEモデルの技術的比較
- Ollama GPT-OSS構造化出力の問題 - 構造化データ生成でGPT-OSSを使用する際の既知の制限