एनवीडिया डीजीएक्स स्पार्क बनाम मैक स्टूडियो बनाम आरटीएक्स-4080: ओल्लामा प्रदर्शन तुलना

GPT-OSS 120b तीन AI प्लेटफॉर्म पर बेंचमार्क

Page content

मैंने कुछ दिलचस्प प्रदर्शन परीक्षणों का पता लगाया है GPT-OSS 120b का जो Ollama पर चल रहा है, तीन अलग-अलग प्लेटफॉर्मों पर: NVIDIA DGX Spark, Mac Studio, और RTX 4080। Ollama लाइब्रेरी का GPT-OSS 120b मॉडल 65GB का है, जिसका मतलब है कि यह RTX 4080 के 16GB VRAM में नहीं फिट होता है (या नए RTX 5080).

हाँ, मॉडल CPU पर आंशिक ऑफलोडिंग के साथ चल सकता है, और अगर आपके पास 64GB सिस्टम RAM है (जैसे कि मेरे पास है), तो आप इसे ट्राई कर सकते हैं। हालांकि, यह सेटअप किसी भी उत्पादन-तैयार प्रदर्शन के करीब नहीं माना जाएगा। वास्तव में मांग वाले वर्कलोड्स के लिए, आपको शायद NVIDIA DGX Spark की तरह कुछ चाहिए, जो उच्च-क्षमता AI वर्कलोड्स के लिए विशेष रूप से डिज़ाइन किया गया है।

7 llamas

मैंने उम्मीद की थी कि यह LLM “हाई-RAM AI डिवाइस” जैसे DGX Spark पर चलने से काफी फायदा उठाएगा। जबकि परिणाम अच्छे हैं, वे DGX Spark और अधिक किफायती विकल्पों के बीच की कीमत अंतर के अनुसार उतने ड्रामैटिक रूप से बेहतर नहीं हैं।

TL;DR

Ollama GPT-OSS 120b के प्रदर्शन की तुलना तीन प्लेटफॉर्मों पर:

डिवाइस प्रॉम्प्ट मूल्यांकन प्रदर्शन (टोकन्स/सेकंड) जनरेशन प्रदर्शन (टोकन्स/सेकंड) नोट्स
NVIDIA DGX Spark 1159 41 सर्वोत्तम समग्र प्रदर्शन, पूर्ण GPU-त्वरित
Mac Studio अज्ञात 34 → 6 एक परीक्षण ने बढ़ते कॉन्टेक्स्ट साइज के साथ गिरावट दिखाई
RTX 4080 969 12.45 VRAM सीमाओं के कारण 78% CPU / 22% GPU विभाजन

मॉडल विन्यास:

  • मॉडल: GPT-OSS 120b
  • पैरामीटर्स: 117B (Mixture-of-Experts आर्किटेक्चर)
  • प्रति पास सक्रिय पैरामीटर्स: 5.1B
  • क्वांटाइजेशन: MXFP4
  • मॉडल साइज: 65GB

यह Qwen3:30b जैसे अन्य MoE मॉडल्स के आर्किटेक्चर के समान है, लेकिन बहुत बड़े पैमाने पर।

GPT-OSS 120b पर NVIDIA DGX Spark

NVIDIA DGX Spark के लिए LLM प्रदर्शन डेटा आधिकारिक Ollama ब्लॉग पोस्ट से आता है (नीचे उपयोगी लिंक्स अनुभाग में लिंक किया गया है)। DGX Spark NVIDIA का व्यक्तिगत AI सुपरकंप्यूटर बाजार में प्रवेश का प्रतिनिधित्व करता है, जिसमें 128GB एकीकृत मेमोरी है जो बड़े भाषा मॉडल्स को चलाने के लिए विशेष रूप से डिज़ाइन किया गया है।

ollama on dgx spark performance table

GPT-OSS 120b का प्रदर्शन जनरेशन के लिए 41 टोकन्स/सेकंड पर प्रभावशाली लग रहा है। यह इस विशेष मॉडल के लिए स्पष्ट विजेता है, जो दिखाता है कि अतिरिक्त मेमोरी क्षमता वास्तव में बहुत बड़े मॉडल्स के लिए अंतर कर सकती है।

हालांकि, मध्यम से बड़े LLM प्रदर्शन उतने आकर्षक नहीं लगते। यह विशेष रूप से Qwen3:32b और Llama3.1:70b के साथ स्पष्ट है—वही मॉडल्स जहां आप उच्च RAM क्षमता को चमकने की उम्मीद करते हैं। DGX Spark पर इन मॉडल्स का प्रदर्शन कीमत प्रीमियम के मुकाबले प्रेरित नहीं करता है। अगर आप मुख्य रूप से 30-70B पैरामीटर्स के रेंज में मॉडल्स के साथ काम कर रहे हैं, तो आप अल्टरनेटिव्स जैसे एक अच्छी तरह से कॉन्फ़िगर किया गया वर्कस्टेशन) या यहां तक कि Quadro RTX 5880 Ada के साथ 48GB VRAM का विचार कर सकते हैं।

GPT-OSS 120b पर Mac Studio Max

Slinging Bits यूट्यूब चैनल ने Ollama के साथ GPT-OSS 120b को चलाने के लिए व्यापक परीक्षण किए, विभिन्न कॉन्टेक्स्ट साइज के साथ। परिणाम एक महत्वपूर्ण प्रदर्शन चिंता का खुलासा करते हैं: मॉडल का जनरेशन स्पीड कॉन्टेक्स्ट साइज बढ़ने के साथ 34 टोकन्स/सेकंड से केवल 6 टोकन्स/सेकंड तक महत्वपूर्ण रूप से गिर गया।

यह प्रदर्शन गिरावट संभवतः मेमोरी दबाव और macOS द्वारा एकीकृत मेमोरी आर्किटेक्चर का प्रबंधन करने के तरीके के कारण है। जबकि Mac Studio Max में एकीकृत मेमोरी (M2 Ultra कॉन्फ़िगरेशन में 192GB तक) प्रभावशाली है, यह बहुत बड़े मॉडल्स को बढ़ते कॉन्टेक्स्ट लोड के तहत संभालने का तरीका समर्पित GPU VRAM से काफी अलग है।

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

बढ़ते कॉन्टेक्स्ट लंबाइयों के माध्यम से स्थिर प्रदर्शन की आवश्यकता वाले एप्लिकेशन्स के लिए, यह Mac Studio को GPT-OSS 120b के लिए कम आदर्श बनाता है, इसके बावजूद कि यह AI वर्कलोड्स के लिए अन्यथा उत्कृष्ट क्षमताओं का प्रदर्शन करता है। आपको छोटे मॉडल्स का उपयोग करने में बेहतर भाग्य मिल सकता है या उत्पादन सीनारियों में थ्रूपुट को अधिकतम करने के लिए Ollama के पैरालल रिक्वेस्ट हैंडलिंग फीचर्स का उपयोग करने का विचार कर सकते हैं।

GPT-OSS 120b पर RTX 4080

मैंने पहले से ही सोचा था कि Ollama के साथ GPT-OSS 120b को अपने कंज्यूमर PC पर चलाना विशेष रूप से रोमांचक नहीं होगा, लेकिन परिणाम मुझे अच्छी तरह से आश्चर्यचकित कर गए। जब मैंने इस क्वेरी के साथ इसे परीक्षण किया:

$ ollama run gpt-oss:120b --verbose Compare the weather in state capitals of Australia

Thinking...
We need to compare weather in state capitals of Australia. Provide a comparison, perhaps include
...
*All data accessed September 2024; any updates from the BOM after that date may slightly adjust the
numbers, but the broad patterns remain unchanged.*

total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

अब रोचक बात यह है—Ollama इस LLM को प्रमुख रूप से CPU पर चल रहा था! मॉडल 16GB VRAM में नहीं फिट होता है, इसलिए Ollama ने बुद्धिमानी से अधिकांश को सिस्टम RAM में ऑफलोड किया। आप ollama ps कमांड का उपयोग करके इस व्यवहार को देख सकते हैं:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

78% CPU / 22% GPU विभाजन के बावजूद, RTX 4080 इस आकार के मॉडल के लिए सम्मानजनक प्रदर्शन प्रदान करता है। प्रॉम्प्ट मूल्यांकन 969 टोकन्स/सेकंड पर चमकता है, और जनरेशन स्पीड 12.45 टोकन्स/सेकंड भी कई एप्लिकेशन्स के लिए उपयोग में लाया जा सकता है।

यह विशेष रूप से प्रभावशाली है जब आप विचार करते हैं कि:

  1. मॉडल उपलब्ध VRAM से लगभग 4 गुना बड़ा है
  2. अधिकांश गणना CPU पर होती है (जो मेरे 64GB सिस्टम RAM से फायदा उठाता है)
  3. Ollama CPU कोर का उपयोग कैसे करता है इस सेटअप को और अधिक अनुकूलित करने में मदद कर सकता है

कौन सोच सकता था कि एक कंज्यूमर GPU 117B पैरामीटर्स के मॉडल को संभाल सकता है, और उसमें उपयोग में लाया जा सकता है प्रदर्शन? यह Ollama की बुद्धिमानी भरी मेमोरी प्रबंधन क्षमता और पर्याप्त सिस्टम RAM होने की महत्वपूर्णता को प्रदर्शित करता है। अगर आप Ollama को अपने एप्लिकेशन्स में एकीकृत करने में रुचि रखते हैं, तो Ollama को Python के साथ उपयोग करने के लिए इस गाइड को देखें।

नोट: जबकि यह प्रयोग और परीक्षण के लिए काम करता है, आप GPT-OSS में कुछ क्वर्क्स हो सकते हैं देखेंगे, विशेष रूप से संरचित आउटपुट फॉर्मेट्स के साथ।

प्राथमिक स्रोत

संबंधित पठन

हार्डवेयर तुलना और कीमतें

Ollama गाइड्स और प्रदर्शन

मॉडल तुलना