Perbandingan: Qwen3:30b vs GPT-OSS:20b

Membandingkan kecepatan, parameter, dan kinerja dari dua model ini

Konten Halaman

Berikut adalah perbandingan antara Qwen3:30b dan GPT-OSS:20b dengan fokus pada pemenuhan instruksi dan parameter kinerja, spesifikasi, serta kecepatan:

7 llamas

Arsitektur dan Parameter

Fitur Qwen3:30b-instruct GPT-OSS:20b
Total Parameter 30,5 miliar 21 miliar
Parameter yang Diaktifkan ~3,3 miliar ~3,6 miliar
Jumlah Lapisan 48 24
Ahli MoE per Lapisan 128 (8 aktif per token) 32 (4 aktif per token)
Mekanisme Perhatian Grouped Query Attention (32Q /4KV) Grouped Multi-Query Attention (64Q /8KV)
Jendela Konteks 32.768 asli; Hingga 262.144 diperpanjang 128.000 token
Tokenizer Berbasis BPE, 151.936 kosakata Berbasis GPT, ≈ 200k kosakata

Pemenuhan Instruksi

  • Qwen3:30b-instruct dioptimalkan untuk pemenuhan instruksi dengan kesejajaran kuat terhadap preferensi manusia. Ia unggul dalam menulis kreatif, bermain peran, dialog multi-putaran, dan pemenuhan instruksi multibahasa. Varian ini dilatih ulang secara khusus untuk memberikan respons yang lebih alami, terkontrol, dan menarik yang sejalan dengan instruksi pengguna.
  • GPT-OSS:20b mendukung pemenuhan instruksi tetapi secara umum dinilai sedikit di bawah Qwen3:30b-instruct dalam penyetelan instruksi yang halus. Ia menyediakan fungsi pemanggilan yang setara, output terstruktur, dan mode penalaran tetapi mungkin tertinggal dalam kesejajaran percakapan dan dialog kreatif.

Kinerja dan Efisiensi

  • Qwen3:30b-instruct unggul dalam penalaran matematika, pemrograman, tugas logis kompleks, dan skenario multibahasa yang mencakup 119 bahasa dan dialek. Mode “berpikir”-nya memungkinkan penalaran yang ditingkatkan tetapi datang dengan biaya memori yang lebih tinggi.
  • GPT-OSS:20b mencapai kinerja yang setara dengan model o3-mini milik OpenAI. Ia menggunakan lapisan yang lebih sedikit tetapi ahli per lapisan yang lebih lebar dan kuantisasi asli MXFP4 untuk inferensi yang efisien pada perangkat konsumen dengan kebutuhan memori yang lebih rendah (~16GB vs lebih tinggi untuk Qwen3).
  • GPT-OSS sekitar 33% lebih efisien dalam penggunaan memori dan lebih cepat pada beberapa konfigurasi perangkat keras, terutama pada GPU konsumen, tetapi Qwen3 sering memberikan kesejajaran dan kedalaman penalaran yang lebih baik, terutama pada kasus penggunaan kompleks.
  • Qwen3 memiliki opsi panjang konteks diperpanjang yang tersedia lebih lama (hingga 262.144 token) dibandingkan GPT-OSS 128.000 token, yang bermanfaat untuk tugas yang memerlukan pemahaman konteks yang sangat panjang.

Rekomendasi Penggunaan

  • Pilih Qwen3:30b-instruct untuk kasus penggunaan yang membutuhkan pemenuhan instruksi yang unggul, pembuatan kreatif, dukungan multibahasa, dan penalaran kompleks.
  • Pilih GPT-OSS:20b jika efisiensi memori, kecepatan inferensi pada perangkat konsumen, dan kinerja dasar kompetitif dengan jumlah parameter yang lebih sedikit menjadi prioritas.

Perbandingan ini menyoroti Qwen3:30b-instruct sebagai model yang lebih dalam dan lebih mampu dengan penyetelan instruksi lanjutan, sementara GPT-OSS:20b menawarkan alternatif yang lebih ringkas dan efisien dengan kinerja kompetitif pada benchmark standar.

Skor benchmark yang secara spesifik membandingkan Qwen3:30b-instruct dan GPT-OSS:20b untuk pemenuhan instruksi dan parameter kinerja utama (MMLU, LMEval, HumanEval) tidak tersedia secara langsung dalam hasil pencarian. Namun, berdasarkan laporan benchmark multibahasa dan multitugas yang telah diterbitkan:

MMLU (Massive Multitask Language Understanding)

Sulit menemukan detailnya, hanya:

  • Model Qwen3 seri, terutama pada skala 30B dan di atasnya, menunjukkan skor MMLU yang kuat biasanya melebihi 89%, menunjukkan kemampuan pemahaman dan penalaran yang sangat kompetitif di 57 domain beragam.
  • GPT-OSS:20b juga berkinerja baik pada benchmark MMLU tetapi biasanya mendapatkan skor lebih rendah dibandingkan model Qwen yang lebih besar karena jumlah parameter yang lebih kecil dan kurangnya penekanan pada penyetelan instruksi.

LMEval (Language Model Evaluation Toolkit)

Tidak banyak detail saat ini:

  • Model Qwen3 menunjukkan peningkatan signifikan dalam tugas penalaran dan pemrograman dalam LMEval, dengan skor yang meningkat pada logika, penalaran matematika, dan kemampuan umum.
  • GPT-OSS:20b menyediakan kinerja dasar yang kuat pada LMEval tetapi secara umum tertinggal dibelakang Qwen3:30b-instruct pada subtugas penalaran lanjutan dan pemenuhan instruksi.

HumanEval (Benchmark Pembuatan Kode)

Tidak banyak data, hanya:

  • Qwen3:30b-instruct menunjukkan kinerja kuat pada benchmark pembuatan kode multibahasa seperti HumanEval-XL, mendukung lebih dari 20 bahasa pemrograman dan memberikan akurasi pembuatan kode lintas bahasa yang unggul.
  • GPT-OSS:20b, meskipun kompetitif, menunjukkan kinerja yang sedikit lebih rendah dibandingkan Qwen3:30b-instruct dalam benchmark HumanEval, terutama dalam konteks pemrograman multibahasa dan multibahasa karena pelatihan multibahasa yang kurang luas.

Tabel Ringkasan (tren pendekatan dari literatur):

Benchmark Qwen3:30b-instruct GPT-OSS:20b Catatan
Akurasi MMLU ~89-91% ~80-85% Qwen3 lebih kuat dalam pengetahuan luas dan penalaran
Skor LMEval Tinggi, penalaran lanjutan & kode Menengah, penalaran dasar Qwen3 unggul dalam matematika dan logika
HumanEval Kinerja pembuatan kode multibahasa yang tinggi Menengah Qwen3 lebih baik dalam pembuatan kode lintas bahasa

Jika angka benchmark yang tepat diperlukan, benchmark multibahasa skala besar seperti P-MMEval dan HumanEval-XL yang dirujuk dalam kertas penelitian terbaru menyediakan skor rinci untuk model termasuk Qwen3 dan varian GPT-OSS yang kompetitif, tetapi ini belum disusun secara umum untuk pengambilan skor langsung berdampingan saat ini.

Perbandingan Kecepatan Qwen3:30b dan GPT-OSS:20b

Pada perangkat keras saya (16GB VRAM) saya mendapatkan Qwen3:30b dan GPT-OSS:20b berjalan dengan 4000 jendela konteks, dan mereka menghasilkan:

  • qwen3:30b-a3b => 45,68 token/detik
  • gpt-oss:20b => 129,52 token/detik

Dan untuk perbandingan saya juga menguji qwen3:14b dan gpt-oss:120b

  • qwen3:14b => 60,12 token/detik
  • gpt-oss:120b => 12,87 token/detik

Pada jendela konteks yang lebih panjang kecepatan akan lebih lambat, dalam kasus qwen3:30b-a3b kemungkinan jauh lebih lambat. Itu kembali lagi, pada PC saya. Detil teknis diambil dari output rinci dan alokasi memori berikut, perintah untuk mencoba:

  • ollama run qwen3:30b-a3b –verbose describe weather difference between state capitals in australia
  • ollama ps menunjukkan alokasi memori pada konteks 4K

qwen3:30b-a3b

NAMA             ID              UKURAN     PROSESOR          KONTAK    HINGGA
qwen3:30b-a3b    19e422b02313    20 GB    23%/77% CPU/GPU    4096       4 menit dari sekarang
total durasi:       28,151133548s
durasi beban:        1,980696196s
jumlah token evaluasi prompt:    16 token
durasi evaluasi prompt: 162,58803ms
tingkat evaluasi prompt:     98,41 token/detik
jumlah token evaluasi:           1188 token
durasi evaluasi:        26,007424856s
tingkat evaluasi:            45,68 token/detik

qwen3:30b-thinking

NAMA         ID              UKURAN     PROSESOR    KONTAK    HINGGA              
qwen3:30b-thinking    ad815644918f    20 GB    23%/77% CPU/GPU    4096       4 menit dari sekarang
total durasi:       1m8,317354579s
durasi beban:        1,984986882s
jumlah token evaluasi prompt:    18 token
durasi evaluasi prompt: 219,657034ms
tingkat evaluasi prompt:     81,95 token/detik
jumlah token evaluasi:           2722 token
durasi evaluasi:        1m6,11230524s
tingkat evaluasi:            41,17 token/detik

gpt-oss:20b

NAMA         ID              UKURAN     PROSESOR    KONTAK    HINGGA              
gpt-oss:20b    aa4295ac10c3    14 GB    100% GPU     4096       4 menit dari sekarang
total durasi:       31,505397616s
durasi beban:        13,744361948s
jumlah token evaluasi prompt:    75 token
durasi evaluasi prompt: 249,363069ms
tingkat evaluasi prompt:     300,77 token/detik
jumlah token evaluasi:           2268 token
durasi evaluasi:        17,510262884s
tingkat evaluasi:            129,52 token/detik

qwen3:14b

NAMA         ID              UKURAN     PROSESOR    KONTAK    HINGGA              
qwen3:14b    bdbd181c33f2    10 GB    100% GPU     4096       4 menit dari sekarang    
total durasi:       36,902729562s
durasi beban:        38,669074ms
jumlah token evaluasi prompt:    18 token
durasi evaluasi prompt: 35,321423ms
tingkat evaluasi prompt:     509,61 token/detik
jumlah token evaluasi:           2214 token
durasi evaluasi:        36,828268069s
tingkat evaluasi:            60,12 token/detik

gpt-oss:120b

NAMA            ID              UKURAN     PROSESOR          KONTAK    HINGGA
gpt-oss:120b    f7f8e2f8f4e0    65 GB    78%/22% CPU/GPU    4096       2 menit dari sekarang
49GB RAM + 14,4GB VRAM
total durasi:       3m59,967272019s
durasi beban:        76,758783ms
jumlah token evaluasi prompt:    75 token
durasi evaluasi prompt: 297,312854ms
tingkat evaluasi prompt:     252,26 token/detik
jumlah token evaluasi:           3084 token
durasi evaluasi:        3m59,592764501s
tingkat evaluasi:            12,87 token/detik

Varian Qwen3:30b

Ada tiga varian model qwen3:30b yang tersedia: qwen3:30b, qwen3:30b-instruct, dan qwen3:30b-thinking.

Perbedaan Utama & Rekomendasi

  • qwen3:30b-instruct terbaik untuk percakapan di mana instruksi pengguna, kejelasan, dan dialog alami menjadi prioritas.
  • qwen3:30b adalah fondasi umum, cocok jika pemenuhan instruksi dan penggunaan alat penting di berbagai tugas.
  • qwen3:30b-thinking unggul ketika penalaran mendalam, matematika, dan pemrograman menjadi fokus utama. Ia unggul dibandingkan yang lain dalam tugas yang mengukur ketatnya logika/matematika tetapi tidak secara otomatis lebih baik untuk penulisan kreatif atau percakapan santai.

Perbandingan Benchmark Langsung

Model Penalaran (AIME25) Pemrograman (LiveCodeBench) Pengetahuan Umum (MMLU Redux) Kecepatan & Konteks Kasus Penggunaan Ideal
qwen3:30b 70,9 57,4 89,5 256K token; Cepat Bahasa/agens/multibahasa umum
qwen3:30b-instruct N/A (Dijadwalkan dekat 30b) N/A ~Sama dengan 30b 256K token Pemenuhan instruksi, kesejajaran
qwen3:30b-thinking 85,0 66,0 91,4 256K token Matematika, kode, penalaran, dokumen panjang

Tautan Berguna