RTX 4080はGPT-OSS 120bを効果的に実行できますか？

はい、驚くほどよく動作します。RTX 4080では、プロンプト評価で969トークン/秒、生成では12.45トークン/秒を達成しています。ただし、モデルサイズが65GBであり、16GBのVRAMを越えるため、CPUで78％、GPUで22％しか動作していません。

GPT-OSS 120bを使用した場合、Mac Studioの性能はいかがですか？

Mac Studioは最大で34トークン/秒の性能ですが、コンテキストサイズが増加するにつれて性能が大幅に低下し、6トークン/秒まで落ち込み、このモデルは長文処理タスクにはあまり適していません。

NVIDIA DGX Sparkは、大規模言語モデルの実行に値するか？

GPT-OSS 120bでは、DGX Sparkが41トークン/秒の優れたパフォーマンスを実現します。しかし、Qwen3:32bやLlama3.1:70bなどの中規模から大規模モデルでは、そのパフォーマンスはそれほど目立たず、高RAM容量が必要な非常に大規模なモデルに対して最も効果的であることを示唆しています。

GPT-OSS 120bとは何であり、なぜ重要なのか？

GPT-OSS 120bは、MXFP4量子化を採用し、1パスあたり5.1Bのアクティブパラメータを持つ117BパラメータのMixture-of-Experts（MoE）モデルです。65GBというサイズから、オープンに利用可能なモデルの中でも最大級であり、高容量のAIハードウェアをテストするための良いベンチマークとなります。

16GBのVRAMしかないシステムでGPT-OSS 120bを実行できますか？

GPUに完全に依存しているわけではありません。16GBのVRAMでは、モデルはCPUのオフロードに大きく依存することになります。ある程度のパフォーマンスを得るには、システムメモリとして少なくとも64GBが必要ですが、それは本番環境での利用には向いていません。モデルは、高VRAMまたは統合メモリアーキテクチャを備えたシステムで最もよく動作します。

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaのパフォーマンス比較

GPT-OSS 120bの3つのAIプラットフォームでのベンチマーク

私は、NVIDIA DGX Spark、Mac Studio、およびRTX 4080の3つの異なるプラットフォーム上で、Ollama上で動作するGPT-OSS 120bの興味深いパフォーマンステストをいくつか見つけました。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080（または新しいRTX 5080の16GBのVRAMには収まらないことを意味します。

はい、モデルはCPUへの部分的なオフロードで動作できます。私は64GBのシステムRAMを持っているので、試してみることができます。ただし、この設定は生産性に近いパフォーマンスとは言えません。本当に厳しいワークロードが必要な場合は、NVIDIA DGX Sparkのようなものが必要になるかもしれません。これは、高容量のAIワークロードに特化して設計されています。

7 llamas

DGX Sparkのような「高RAM AIデバイス」上でこのLLMを実行すると、パフォーマンスが大幅に向上すると予想していました。結果は良いですが、DGX Sparkとより安価なオプションの価格差を考慮すると、予想ほど劇的に良いとは言えません。

TL;DR

OllamaでGPT-OSS 120bを3つのプラットフォームで実行したパフォーマンス比較：

デバイス	プロンプト評価パフォーマンス（トークン/秒）	生成パフォーマンス（トークン/秒）	メモ
NVIDIA DGX Spark	1159	41	全体的に最良のパフォーマンス、完全にGPU加速
Mac Studio	未知	34 → 6	1つのテストではコンテキストサイズの増加によりパフォーマンスが低下
RTX 4080	969	12.45	VRAMの制限により、78% CPU / 22% GPUの分割

モデル仕様：

モデル：GPT-OSS 120b
パラメータ：117B（Mixture-of-Expertsアーキテクチャ）
1回の処理でアクティブなパラメータ：5.1B
量子化：MXFP4
モデルサイズ：65GB

これは、Qwen3:30bなどの他のMoEモデルとアーキテクチャが似ていますが、はるかに大規模です。

NVIDIA DGX Spark上のGPT-OSS 120b

NVIDIA DGX SparkのLLMパフォーマンスデータは、以下の「役に立つリンク」セクションにリンクされている公式のOllamaブログ投稿から来ています。DGX Sparkは、NVIDIAが個人用AIスーパーコンピュータ市場に進出するために設計されたもので、特に大規模言語モデルを実行するために設計された128GBの統合メモリを備えています。

ollama on dgx spark performance table

GPT-OSS 120bの生成パフォーマンスは41トークン/秒で、これは非常に印象的です。このモデルにとってこれは明確な勝者であり、非常に大きなモデルに対してメモリ容量が実際に差を生むことを示しています。

しかし、中規模から大規模のLLMのパフォーマンスはそれほど魅力的ではありません。特にQwen3:32bとLlama3.1:70bでは、高RAM容量が光るはずのモデルで、DGX Sparkでのパフォーマンスは価格のプレミアムと比較してあまり魅力的ではありません。30-70Bパラメータの範囲のモデルを主に使用している場合は、よく設定されたワークステーションなどの代替手段を検討するか、48GBのVRAMを持つQuadro RTX 5880 Adaを検討するかもしれません。

Mac Studio Max上のGPT-OSS 120b

Youtubeチャンネル「Slinging Bits」は、Ollama上でGPT-OSS 120bを実行し、さまざまなコンテキストサイズでテストしました。その結果、モデルの生成速度がコンテキストサイズが増加するにつれて34トークン/秒からわずか6トークン/秒に劇的に低下するという重大なパフォーマンス上の問題が明らかになりました。

このパフォーマンスの低下は、メモリの圧力とmacOSが統合メモリアーキテクチャをどのように管理するかによる可能性があります。Mac Studio Maxは、M2 Ultra構成では最大192GBの統合メモリを備えており、非常に印象的ですが、非常に大きなモデルを増加するコンテキスト負荷の下で処理する方法は、専用GPU VRAMと大きく異なります。

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

変動するコンテキスト長で一貫したパフォーマンスを必要とするアプリケーションでは、GPT-OSS 120bに対してMac Studioは理想的ではありません。ただし、AIワークロードに対しては他の面で優れた能力を備えています。小さなモデルを使用するか、Ollamaの並列リクエスト処理の機能を使用して、生産環境でのスループットを最大化する方法を検討するかもしれません。

RTX 4080上のGPT-OSS 120b

最初は、私の消費者向けPC上でOllamaとGPT-OSS 120bを実行するのには特に興味深いものではないと考えていましたが、結果は私を驚かせました。このクエリでテストした際の結果は以下の通りです：

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia


Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include 
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the 
numbers, but the broad patterns remain unchanged.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

ここに興味深い点があります—このLLMを使用したOllamaはほぼCPU上で動作しています！モデルは16GBのVRAMに収まらないため、OllamaはそれをシステムRAMにスマートにオフロードしています。この動作はollama psコマンドを使用して確認できます：

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

78% CPU / 22% GPUの分割で動作しているにもかかわらず、RTX 4080はこのサイズのモデルに対して実に良いパフォーマンスを提供しています。プロンプト評価は969トークン/秒という非常に高速で、12.45トークン/秒という生成速度は多くのアプリケーションで使用可能です。

これは特に印象的です。なぜなら：

モデルは利用可能なVRAMのほぼ4倍のサイズです
計算の大部分はCPUで行われています（これは私の64GBのシステムRAMに恩恵を受けています）
OllamaがCPUコアを使用する方法を理解することで、この設定をさらに最適化できます

誰が予想したでしょう？消費者向けGPUが117Bパラメータモデルを処理できるとは、ましてや使用可能なパフォーマンスで？これはOllamaのスマートなメモリ管理の力と、十分なシステムRAMを持つことの重要性を示しています。Ollamaをアプリケーションに統合したい場合は、PythonでのOllamaの使用に関するガイドをご覧ください。

注意：これは実験やテストには適していますが、GPT-OSSにはいくつかのクセがあることに注意してください、特に構造化された出力形式では。

主な出典

Ollama on NVIDIA DGX Spark: Performance Benchmarks - Ollama公式ブログ投稿でDGX Sparkのパフォーマンスデータを包括的に紹介
GPT-OSS 120B on Mac Studio - Slinging Bits YouTube - 多様なコンテキストサイズでGPT-OSS 120bをテストした詳細な動画

ハードウェア比較と価格

DGX Spark vs. Mac Studio: NVIDIAの個人用AIスーパーコンピュータの実用的価格比較 - DGX Sparkの構成、グローバル価格、ローカルAI作業用のMac Studioとの直接比較
NVIDIA DGX Spark - 期待 - DGX Sparkの初期報道：入手可能性、価格、技術仕様
NVidia RTX 5080およびRTX 5090のオーストラリアでの価格 - 2025年10月 - 次世代の消費者向けGPUの現在の市場価格
Quadro RTX 5880 Ada 48GBはAIワークロードに適しているか？ - AIワークロード用の48GBワークステーションGPUの代替手段のレビュー

Ollamaガイドとパフォーマンス

Ollama cheatsheet - Ollamaの包括的なコマンドリファレンスとヒント
Ollamaが並列リクエストを処理する方法 - 生産環境での並列リクエスト処理の理解
OllamaがインテルCPUのパフォーマンスコアと効率コアを使用する方法 - CPUコア利用率のパターンの詳細な分析
PythonでのOllama統合：REST APIとPythonクライアントの例 - REST APIと公式クライアントを使用した実用的なPython統合

モデル比較

LLMs比較：Qwen3:30b vs GPT-OSS:20b - 2つの人気のあるMoEモデルの技術的比較
Ollama GPT-OSS構造化出力の問題 - 構造化データ生成でGPT-OSSを使用する際の既知の制限