NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Perbandingan Kinerja Ollama

Benchmark GPT-OSS 120b pada tiga platform AI

Konten Halaman

Saya menemukan beberapa uji kinerja menarik dari GPT-OSS 120b yang berjalan di Ollama di tiga platform berbeda: NVIDIA DGX Spark, Mac Studio, dan RTX 4080. Model GPT-OSS 120b dari perpustakaan Ollama memiliki ukuran 65GB, yang berarti tidak masuk ke dalam 16GB VRAM dari RTX 4080 (atau yang lebih baru RTX 5080).

Ya, model ini dapat berjalan dengan offloading sebagian ke CPU, dan jika Anda memiliki 64GB RAM sistem (seperti yang saya miliki), Anda dapat mencoba. Namun, konfigurasi ini tidak akan dianggap dekat dengan kinerja yang siap diproduksi. Untuk beban kerja yang sangat menuntut, Anda mungkin membutuhkan sesuatu seperti NVIDIA DGX Spark, yang dirancang khusus untuk beban kerja AI berkapasitas tinggi.

7 llamas

Saya mengharapkan LLM ini akan mendapatkan manfaat signifikan dari berjalan di perangkat “high-RAM AI” seperti DGX Spark. Meskipun hasilnya baik, mereka tidak sebaik yang Anda harapkan mengingat perbedaan harga antara DGX Spark dan opsi yang lebih terjangkau.

TL;DR

Ollama berjalan GPT-OSS 120b perbandingan kinerja di tiga platform:

Perangkat Kinerja Evaluasi Prompt (token/detik) Kinerja Generasi (token/detik) Catatan
NVIDIA DGX Spark 1159 41 Kinerja terbaik secara keseluruhan, sepenuhnya dipercepat GPU
Mac Studio Tidak diketahui 34 → 6 Satu uji menunjukkan penurunan kinerja dengan peningkatan ukuran konteks
RTX 4080 969 12,45 78% CPU / 22% GPU karena batasan VRAM

Spesifikasi model:

  • Model: GPT-OSS 120b
  • Parameter: 117B (Arsitektur Mixture-of-Experts)
  • Parameter aktif per pass: 5,1B
  • Kuantisasi: MXFP4
  • Ukuran model: 65GB

Ini mirip dengan arsitektur model MoE lain seperti Qwen3:30b, tetapi pada skala yang jauh lebih besar.

GPT-OSS 120b di NVIDIA DGX Spark

Data kinerja LLM untuk NVIDIA DGX Spark berasal dari posting blog resmi Ollama (dilink di bagian Tautan Berguna di bawah). DGX Spark mewakili masuknya NVIDIA ke pasar superkomputer AI pribadi, dengan 128GB memori terpadu yang dirancang khusus untuk menjalankan model bahasa besar.

ollama on dgx spark performance table

Kinerja GPT-OSS 120b terlihat mengesankan dengan 41 token/detik untuk generasi. Ini membuatnya menjadi pemenang jelas untuk model ini, menunjukkan bahwa kapasitas memori tambahan benar-benar bisa membuat perbedaan untuk model yang sangat besar.

Namun, kinerja LLM sedang hingga besar tidak terlihat sebaik yang diharapkan. Ini terutama terlihat dengan Qwen3:32b dan Llama3.1:70b—model tepat di mana Anda mengharapkan kapasitas RAM tinggi untuk bersinar. Kinerja model-model ini di DGX Spark tidak menarik ketika dibandingkan dengan premi harga. Jika Anda secara utama bekerja dengan model dalam rentang parameter 30-70B, Anda mungkin ingin mempertimbangkan alternatif seperti workstation yang dikonfigurasi dengan baik atau bahkan Quadro RTX 5880 Ada dengan 48GB VRAM-nya.

GPT-OSS 120b di Mac Studio Max

Saluran YouTube Slinging Bits melakukan uji menyeluruh menjalankan GPT-OSS 120b di Ollama dengan ukuran konteks yang berbeda. Hasilnya mengungkapkan kekhawatiran kinerja yang signifikan: kecepatan generasi model turun drastis dari 34 token/detik menjadi hanya 6 token/detik seiring meningkatnya ukuran konteks.

Degradasi kinerja ini kemungkinan besar disebabkan oleh tekanan memori dan cara macOS mengelola arsitektur memori terpadu. Meskipun Mac Studio Max memiliki memori terpadu yang mengesankan (hingga 192GB dalam konfigurasi M2 Ultra), cara mengelolanya saat beban konteks meningkat sangat berbeda dengan VRAM GPU khusus.

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

Untuk aplikasi yang memerlukan kinerja konsisten di berbagai panjang konteks, ini membuat Mac Studio kurang ideal untuk GPT-OSS 120b, meskipun kemampuan AI-nya secara umum luar biasa. Anda mungkin akan lebih beruntung dengan model yang lebih kecil atau mempertimbangkan fitur pengelolaan permintaan paralel Ollama untuk memaksimalkan throughput dalam skenario produksi.

GPT-OSS 120b di RTX 4080

Awalnya saya pikir menjalankan Ollama dengan GPT-OSS 120b di PC konsumen saya tidak akan terlalu menarik, tetapi hasilnya justru mengejutkan saya. Berikut yang terjadi saat saya menguji dengan query ini:

$ ollama run gpt-oss:120b --verbose Bandingkan cuaca di ibukota negara bagian Australia


Berpikir...
Kita perlu membandingkan cuaca di ibukota negara bagian Australia. Sediakan perbandingan, mungkin termasuk 
...
*Semua data diakses September 2024; setiap pembaruan dari BOM setelah tanggal tersebut mungkin sedikit mengubah angka, tetapi pola umum tetap tidak berubah.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Sekarang ini bagian menarik—Ollama dengan LLM ini berjalan hampir sepenuhnya di CPU! Model sederhana tidak masuk ke dalam 16GB VRAM, jadi Ollama secara cerdas mengalihkan sebagian besar ke RAM sistem. Anda dapat melihat perilaku ini menggunakan perintah ollama ps:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Meskipun berjalan dengan pembagian 78% CPU / 22% GPU, RTX 4080 tetap memberikan kinerja yang layak untuk model sebesar ini. Evaluasi prompt sangat cepat dengan 969 token/detik, dan bahkan kecepatan generasi 12,45 token/detik sudah bisa digunakan untuk banyak aplikasi.

Ini terutama mengesankan ketika Anda mempertimbangkan bahwa:

  1. Model hampir 4x lebih besar dari VRAM yang tersedia
  2. Sebagian besar komputasi terjadi di CPU (yang memanfaatkan RAM sistem 64GB saya)
  3. Memahami bagaimana Ollama menggunakan inti CPU dapat membantu mengoptimalkan konfigurasi ini lebih lanjut

Siapa yang akan berpikir GPU konsumen bisa menangani model parameter 117B sama sekali, apalagi dengan kinerja yang bisa digunakan? Ini menunjukkan kekuatan manajemen memori cerdas Ollama dan pentingnya memiliki RAM sistem yang cukup. Jika Anda tertarik mengintegrasikan Ollama ke dalam aplikasi Anda, lihat panduan ini tentang menggunakan Ollama dengan Python.

Catatan: Meskipun ini bekerja untuk eksperimen dan pengujian, Anda akan melihat GPT-OSS bisa memiliki beberapa keanehan, terutama dengan format output terstruktur.

Sumber Utama

Bacaan Terkait

Perbandingan Perangkat & Harga

Panduan Ollama & Kinerja

Perbandingan Model