Apakah RTX 4080 dapat menjalankan GPT-OSS 120b secara efektif?

Ya, mengejutkan, cukup baik. RTX 4080 mencapai 969 token/detik untuk evaluasi prompt dan 12,45 token/detik untuk generasi, meskipun model berjalan 78% di CPU dan hanya 22% di GPU karena ukuran model 65GB melebihi VRAM 16GB.

Bagaimana kinerja Mac Studio dengan GPT-OSS 120b?

Mac Studio mulai dari 34 token/detik, tetapi kinerjanya menurun secara signifikan menjadi 6 token/detik seiring meningkatnya ukuran konteks, sehingga kurang cocok untuk tugas dengan konteks panjang menggunakan model ini.

Apakah NVIDIA DGX Spark layak digunakan untuk menjalankan model bahasa besar?

Untuk GPT-OSS 120b, DGX Spark memberikan kinerja yang sangat baik sebesar 41 token per detik. Namun, untuk model sedang hingga besar seperti Qwen3:32b dan Llama3.1:70b, kinerjanya tidak seimpressive, yang menunjukkan bahwa DGX Spark paling bermanfaat untuk model sangat besar yang benar-benar membutuhkan kapasitas RAM tinggi.

Apa itu GPT-OSS 120b dan mengapa hal itu penting?

GPT-OSS 120b adalah model Mixture-of-Experts (MoE) dengan 117B parameter yang memiliki 5,1B parameter aktif per pass, menggunakan kuantisasi MXFP4. Dengan ukuran 65GB, ini merupakan salah satu model terbesar yang tersedia secara terbuka, sehingga menjadi benchmark yang baik untuk menguji perangkat keras AI berkapasitas tinggi.

Apakah saya dapat menjalankan GPT-OSS 120b pada sistem dengan hanya 16GB VRAM?

Tidak sepenuhnya di GPU. Dengan 16GB VRAM, model akan sangat bergantung pada offloading CPU. Anda membutuhkan setidaknya 64GB RAM sistem untuk kinerja yang wajar, meskipun tidak akan siap untuk produksi. Model bekerja terbaik pada sistem dengan VRAM tinggi atau arsitektur memori terpadu.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Perbandingan Kinerja Ollama

Benchmark GPT-OSS 120b pada tiga platform AI

Konten Halaman

Saya menemukan beberapa uji kinerja menarik dari GPT-OSS 120b yang berjalan di Ollama di tiga platform berbeda: NVIDIA DGX Spark, Mac Studio, dan RTX 4080. Model GPT-OSS 120b dari perpustakaan Ollama memiliki ukuran 65GB, yang berarti tidak masuk ke dalam 16GB VRAM dari RTX 4080 (atau yang lebih baru RTX 5080).

Ya, model ini dapat berjalan dengan offloading sebagian ke CPU, dan jika Anda memiliki 64GB RAM sistem (seperti yang saya miliki), Anda dapat mencoba. Namun, konfigurasi ini tidak akan dianggap dekat dengan kinerja yang siap diproduksi. Untuk beban kerja yang sangat menuntut, Anda mungkin membutuhkan sesuatu seperti NVIDIA DGX Spark, yang dirancang khusus untuk beban kerja AI berkapasitas tinggi.

7 llamas

Saya mengharapkan LLM ini akan mendapatkan manfaat signifikan dari berjalan di perangkat “high-RAM AI” seperti DGX Spark. Meskipun hasilnya baik, mereka tidak sebaik yang Anda harapkan mengingat perbedaan harga antara DGX Spark dan opsi yang lebih terjangkau.

TL;DR

Ollama berjalan GPT-OSS 120b perbandingan kinerja di tiga platform:

Perangkat	Kinerja Evaluasi Prompt (token/detik)	Kinerja Generasi (token/detik)	Catatan
NVIDIA DGX Spark	1159	41	Kinerja terbaik secara keseluruhan, sepenuhnya dipercepat GPU
Mac Studio	Tidak diketahui	34 → 6	Satu uji menunjukkan penurunan kinerja dengan peningkatan ukuran konteks
RTX 4080	969	12,45	78% CPU / 22% GPU karena batasan VRAM

Spesifikasi model:

Model: GPT-OSS 120b
Parameter: 117B (Arsitektur Mixture-of-Experts)
Parameter aktif per pass: 5,1B
Kuantisasi: MXFP4
Ukuran model: 65GB

Ini mirip dengan arsitektur model MoE lain seperti Qwen3:30b, tetapi pada skala yang jauh lebih besar.

GPT-OSS 120b di NVIDIA DGX Spark

Data kinerja LLM untuk NVIDIA DGX Spark berasal dari posting blog resmi Ollama (dilink di bagian Tautan Berguna di bawah). DGX Spark mewakili masuknya NVIDIA ke pasar superkomputer AI pribadi, dengan 128GB memori terpadu yang dirancang khusus untuk menjalankan model bahasa besar.

ollama on dgx spark performance table

Kinerja GPT-OSS 120b terlihat mengesankan dengan 41 token/detik untuk generasi. Ini membuatnya menjadi pemenang jelas untuk model ini, menunjukkan bahwa kapasitas memori tambahan benar-benar bisa membuat perbedaan untuk model yang sangat besar.

Namun, kinerja LLM sedang hingga besar tidak terlihat sebaik yang diharapkan. Ini terutama terlihat dengan Qwen3:32b dan Llama3.1:70b—model tepat di mana Anda mengharapkan kapasitas RAM tinggi untuk bersinar. Kinerja model-model ini di DGX Spark tidak menarik ketika dibandingkan dengan premi harga. Jika Anda secara utama bekerja dengan model dalam rentang parameter 30-70B, Anda mungkin ingin mempertimbangkan alternatif seperti workstation yang dikonfigurasi dengan baik atau bahkan Quadro RTX 5880 Ada dengan 48GB VRAM-nya.

GPT-OSS 120b di Mac Studio Max

Saluran YouTube Slinging Bits melakukan uji menyeluruh menjalankan GPT-OSS 120b di Ollama dengan ukuran konteks yang berbeda. Hasilnya mengungkapkan kekhawatiran kinerja yang signifikan: kecepatan generasi model turun drastis dari 34 token/detik menjadi hanya 6 token/detik seiring meningkatnya ukuran konteks.

Degradasi kinerja ini kemungkinan besar disebabkan oleh tekanan memori dan cara macOS mengelola arsitektur memori terpadu. Meskipun Mac Studio Max memiliki memori terpadu yang mengesankan (hingga 192GB dalam konfigurasi M2 Ultra), cara mengelolanya saat beban konteks meningkat sangat berbeda dengan VRAM GPU khusus.

ollama with gpt-oss 120b on mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

Untuk aplikasi yang memerlukan kinerja konsisten di berbagai panjang konteks, ini membuat Mac Studio kurang ideal untuk GPT-OSS 120b, meskipun kemampuan AI-nya secara umum luar biasa. Anda mungkin akan lebih beruntung dengan model yang lebih kecil atau mempertimbangkan fitur pengelolaan permintaan paralel Ollama untuk memaksimalkan throughput dalam skenario produksi.

GPT-OSS 120b di RTX 4080

Awalnya saya pikir menjalankan Ollama dengan GPT-OSS 120b di PC konsumen saya tidak akan terlalu menarik, tetapi hasilnya justru mengejutkan saya. Berikut yang terjadi saat saya menguji dengan query ini:

$ ollama run gpt-oss:120b --verbose Bandingkan cuaca di ibukota negara bagian Australia


Berpikir...
Kita perlu membandingkan cuaca di ibukota negara bagian Australia. Sediakan perbandingan, mungkin termasuk 
...
*Semua data diakses September 2024; setiap pembaruan dari BOM setelah tanggal tersebut mungkin sedikit mengubah angka, tetapi pola umum tetap tidak berubah.*


total duration:       4m39.942105769s
load duration:        75.843974ms
prompt eval count:    75 token(s)
prompt eval duration: 77.341981ms
prompt eval rate:     969.72 tokens/s
eval count:           3483 token(s)
eval duration:        4m39.788119563s
eval rate:            12.45 tokens/s

Sekarang ini bagian menarik—Ollama dengan LLM ini berjalan hampir sepenuhnya di CPU! Model sederhana tidak masuk ke dalam 16GB VRAM, jadi Ollama secara cerdas mengalihkan sebagian besar ke RAM sistem. Anda dapat melihat perilaku ini menggunakan perintah ollama ps:

$ ollama ps

NAME            ID              SIZE     PROCESSOR          CONTEXT 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Meskipun berjalan dengan pembagian 78% CPU / 22% GPU, RTX 4080 tetap memberikan kinerja yang layak untuk model sebesar ini. Evaluasi prompt sangat cepat dengan 969 token/detik, dan bahkan kecepatan generasi 12,45 token/detik sudah bisa digunakan untuk banyak aplikasi.

Ini terutama mengesankan ketika Anda mempertimbangkan bahwa:

Model hampir 4x lebih besar dari VRAM yang tersedia
Sebagian besar komputasi terjadi di CPU (yang memanfaatkan RAM sistem 64GB saya)
Memahami bagaimana Ollama menggunakan inti CPU dapat membantu mengoptimalkan konfigurasi ini lebih lanjut

Siapa yang akan berpikir GPU konsumen bisa menangani model parameter 117B sama sekali, apalagi dengan kinerja yang bisa digunakan? Ini menunjukkan kekuatan manajemen memori cerdas Ollama dan pentingnya memiliki RAM sistem yang cukup. Jika Anda tertarik mengintegrasikan Ollama ke dalam aplikasi Anda, lihat panduan ini tentang menggunakan Ollama dengan Python.

Catatan: Meskipun ini bekerja untuk eksperimen dan pengujian, Anda akan melihat GPT-OSS bisa memiliki beberapa keanehan, terutama dengan format output terstruktur.

Sumber Utama

Ollama di NVIDIA DGX Spark: Benchmark Kinerja - Posting blog resmi Ollama dengan data kinerja DGX Spark yang menyeluruh
GPT-OSS 120B di Mac Studio - Saluran YouTube Slinging Bits - Uji video menyeluruh GPT-OSS 120b dengan ukuran konteks yang berbeda

Bacaan Terkait

Perbandingan Perangkat & Harga

DGX Spark vs. Mac Studio: Pandangan Praktis, Dengan Pemeriksaan Harga untuk Superkomputer AI Pribadi NVIDIA - Penjelasan terperinci tentang konfigurasi DGX Spark, harga global, dan perbandingan langsung dengan Mac Studio untuk pekerjaan AI lokal
NVIDIA DGX Spark - Antisipasi - Liputan awal DGX Spark: ketersediaan, harga, dan spesifikasi teknis
Harga NVidia RTX 5080 dan RTX 5090 di Australia - Oktober 2025 - Harga pasar saat ini untuk GPU konsumen generasi berikutnya
Apakah Quadro RTX 5880 Ada 48GB Baik? - Ulasan GPU workstation alternatif untuk beban kerja AI dengan 48GB VRAM

Panduan Ollama & Kinerja

Ollama cheatsheet - Referensi perintah menyeluruh dan tips untuk Ollama
Bagaimana Ollama Mengelola Permintaan Paralel - Memahami pemrosesan permintaan paralel dalam produksi
Bagaimana Ollama Menggunakan Inti CPU Intel Performa dan Efisien - Analisis mendalam tentang pola penggunaan inti CPU
Mengintegrasikan Ollama dengan Python: Contoh REST API dan Klien Python - Integrasi praktis Ollama dengan REST API dan klien resmi

Perbandingan Model

Perbandingan LLM: Qwen3:30b vs GPT-OSS:20b - Perbandingan teknis dua model MoE populer
Masalah Output Terstruktur Ollama GPT-OSS - Keterbatasan yang diketahui saat menggunakan GPT-OSS untuk generasi data terstruktur