Munculnya ASIC LLM: Mengapa Perangkat Keras Inference Penting

Chip khusus sedang membuat inferensi AI lebih cepat dan murah.

Konten Halaman

Masa depan AI bukan hanya tentang model yang lebih cerdas models — tetapi tentang silikon yang lebih cerdas.
Perangkat keras khusus untuk inference LLM sedang mendorong revolusi yang mirip dengan perpindahan penambangan Bitcoin ke ASICs.

LLM ASIC sirkuit listrik Imajinasi listrik - Flux text to image LLM.

Mengapa LLM Membutuhkan Perangkat Khusus

Model bahasa besar telah mengubah AI, tetapi di balik setiap respons yang lancar terdapat kebutuhan komputasi dan lalu lintas memori yang besar. Seiring biaya inference menjadi dominan — seringkali melebihi biaya pelatihan sepanjang masa hidup model — perangkat keras yang dioptimalkan secara khusus untuk inference menjadi masuk akal secara ekonomi.

Analogi dengan penambangan Bitcoin bukanlah kebetulan. Dalam kedua kasus, beban kerja yang sangat spesifik dan repetitif sangat diuntungkan oleh silikon khusus yang menghilangkan segala sesuatu yang tidak penting.

Pelajaran dari Penambangan Bitcoin

Penambangan Bitcoin berkembang melalui empat generasi:

Era Perangkat Keras Manfaat Utama Keterbatasan
2015–2020 GPU (CUDA, ROCm) Fleksibilitas Boros daya, terbatas memori
2021–2023 TPU, NPU Spesialisasi kasar Masih berorientasi pelatihan
2024–2025 ASIC Transformer Disesuaikan untuk inference rendah bit Keterbatasan generalitas

AI sedang mengikuti jalur serupa. Setiap transisi meningkatkan kinerja dan efisiensi energi dalam orde besar.

Namun, berbeda dengan ASIC Bitcoin (yang hanya menghitung SHA-256), ASIC inference membutuhkan sedikit fleksibilitas. Model berkembang, arsitektur berubah, dan skema presisi meningkat. Triknya adalah untuk spesialisasi cukup — mengkabel ulang pola inti sambil mempertahankan adaptasi di tepi.

Perbedaan Inference dengan Pelatihan LLM

Inference memiliki karakteristik unik yang dapat dimanfaatkan oleh perangkat keras khusus:

  • Presisi rendah mendominasi — aritmetika 8-bit, 4-bit, bahkan ternary atau biner bekerja baik untuk inference
  • Memori adalah hambatan — memindahkan bobot dan cache KV mengonsumsi jauh lebih banyak daya daripada komputasi
  • Latensi lebih penting daripada throughput — pengguna mengharapkan token dalam waktu kurang dari 200ms
  • Paralelisme permintaan besar — ribuan permintaan inference sekaligus per chip
  • Polanya dapat diprediksi — lapisan Transformer sangat terstruktur dan dapat dikabel ulang
  • Peluang sparsity — model semakin menggunakan teknik pruning dan MoE (Mixture-of-Experts)

Chip khusus untuk inference dapat mengkabel ulang asumsi-asumsi ini untuk mencapai 10–50× peningkatan kinerja per watt dibandingkan GPU umum.

Siapa yang Membangun Perangkat Khusus untuk LLM

Pasar ASIC inference sedang memanas dengan pemain mapan dan startup ambisius:

Perusahaan Chip / Platform Khususitas
Groq LPU (Language Processing Unit) Throughput deterministik untuk LLMs
Etched AI Sohu ASIC Engine Transformer yang dikabel ulang
Tenstorrent Grayskull / Blackhole ML umum dengan mesh bandwidth tinggi
OpenAI × Broadcom Chip Inference Khusus Dikabarkan diluncurkan tahun 2026
Intel Crescent Island GPU Xe3P khusus inference dengan 160GB HBM
Cerebras Wafer-Scale Engine (WSE-3) Bandwidth memori besar memory bandwidth

Ini bukanlah vaporware — mereka sudah dideploy di pusat data saat ini. Selain itu, startup seperti d-Matrix, Rain AI, Mythic, dan Tenet sedang merancang chip dari awal berdasarkan pola aritmetika Transformer.

Arsitektur ASIC Inference Transformer

Bagaimana chip yang dioptimalkan untuk Transformer terlihat di bawahnya?

+--------------------------------------+
|         Host Interface               |
|   (PCIe / CXL / NVLink / Ethernet)   |
+--------------------------------------+
|  On-chip Interconnect (mesh/ring)    |
+--------------------------------------+
|  Compute Tiles / Cores               |
|   — Unit perkalian matriks padat     |
|   — ALU presisi rendah (int8/int4)   |
|   — Unit dequantifikasi / aktivasi   |
+--------------------------------------+
|  On-chip SRAM & KV cache buffers     |
|   — Bobot panas, cache terpadu       |
+--------------------------------------+
|  Pipelines Quantisasi / Dequant      |
+--------------------------------------+
|  Scheduler / Controller              |
|   — Mesin eksekusi grafik statis     |
+--------------------------------------+
|  Off-chip DRAM / HBM Interface       |
+--------------------------------------+

Fitur arsitektur utama meliputi:

  • Core komputasi — unit perkalian matriks padat yang dioptimalkan untuk operasi int8, int4, dan ternary
  • SRAM on-chip — buffer besar menyimpan bobot panas dan cache KV, meminimalkan akses DRAM yang mahal
  • Interkoneksi streaming — topologi mesh memungkinkan skalabilitas efisien di seluruh chip
  • Engine kuantisasi — kuantisasi/dequantisasi real-time antar lapisan
  • Stack compiler — mengubah grafik PyTorch/ONNX langsung menjadi micro-ops khusus chip
  • Kernel perhatian dikabel ulang — menghilangkan overhead alur kontrol untuk softmax dan operasi lainnya

Filosofi desain meniru ASIC Bitcoin: setiap transistor melayani beban kerja spesifik. Tidak ada silikon yang terbuang untuk fitur yang tidak diperlukan oleh inference.

Benchmark Nyata: GPU vs. ASIC Inference

Berikut bagaimana perangkat keras inference khusus dibandingkan dengan GPU terkini:

Model Perangkat Keras Throughput (tokens/s) Waktu ke Token Pertama Multiplier Kinerja
Llama-2-70B NVIDIA H100 (8x DGX) ~80–100 ~1.7s Baseline (1×)
Llama-2-70B Groq LPU 241–300 0.22s 3–18× lebih cepat
Llama-3.3-70B Groq LPU ~276 ~0.2s Konsisten 3×
Gemma-7B Groq LPU 814 <0.1s 5–15× lebih cepat

Sumber: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog

Angka-angka ini menggambarkan bukan hanya peningkatan kecil, tetapi peningkatan orde besar dalam throughput dan latency.

Pertukaran Kritis

Spesialisasi kuat tetapi datang dengan tantangan:

  1. Fleksibilitas vs. Efisiensi. ASIC yang sepenuhnya tetap berteriak melalui model Transformer saat ini tetapi mungkin kesulitan dengan arsitektur masa depan. Apa yang terjadi ketika mekanisme perhatian berevolusi atau keluarga model baru muncul?

  2. Kuantisasi dan Akurasi. Presisi rendah menghemat banyak daya, tetapi mengelola degradasi akurasi memerlukan skema kuantisasi yang canggih. Tidak semua model dapat dikuantisasi dengan baik ke 4-bit atau lebih rendah.

  3. Ekosistem Perangkat Lunak. Perangkat keras tanpa kompiler, kernel, dan framework yang kuat tidak berguna. NVIDIA masih mendominasi karena ekosistem CUDA yang matang. Pemula chip baru harus berinvestasi berat di perangkat lunak.

  4. Biaya dan Risiko. Membuat chip membutuhkan jutaan dolar dan memakan waktu 12–24 bulan. Untuk startup, ini adalah taruhan besar pada asumsi arsitektur yang mungkin tidak terbukti.

Namun, di skala hyperscale, bahkan peningkatan efisiensi 2× berarti miliaran dolar penghematan. Untuk penyedia cloud yang menjalankan jutaan permintaan inference per detik, silikon khusus semakin tidak bisa dinegosiasikan.

Tampilan Chip Inference LLM Ideal

Fitur Spesifikasi Ideal
Proses Node 3–5nm
SRAM on-chip 100MB+ terkait erat
Presisi Dukungan native int8 / int4 / ternary
Throughput 500+ tokens/sec (model 70B)
Latensi <100ms waktu ke token pertama
Interkoneksi Koneksi mesh atau optik berlatensi rendah
Compiler Toolchain PyTorch/ONNX → microcode
Energi <0.3 joule per token

Masa Depan: 2026–2030 dan Setelahnya

Diharapkan pemandangan perangkat keras inference akan terstratifikasi menjadi tiga tingkat:

  1. Chip Pelatihan. GPU tingkat tinggi seperti NVIDIA B200 dan AMD Instinct MI400 akan terus mendominasi pelatihan dengan fleksibilitas FP16/FP8 dan bandwidth memori besar.

  2. ASIC Inference. Accelerator Transformer yang dikabel ulang akan menangani pelayanan produksi di hyperscale, dioptimalkan untuk biaya dan efisiensi.

  3. NPUs Edge. Chip kecil, ultra-efisien akan membawa LLM yang dikuantisasi ke ponsel, kendaraan, perangkat IoT, dan robot, memungkinkan kecerdasan di perangkat tanpa ketergantungan cloud.

Selain perangkat keras, kita akan melihat:

  • Cluster Hybrid — GPU untuk pelatihan fleksibel, ASIC untuk pelayanan efisien
  • Inference sebagai Layanan — Penyedia cloud utama mengimplementasikan chip khusus (seperti AWS Inferentia, Google TPU)
  • Ko-Desain Perangkat Keras-Perangkat Lunak — Model yang dirancang secara eksplisit untuk ramah perangkat keras melalui sparsity, kesadaran kuantisasi, dan perhatian blockwise
  • Standar Terbuka — API inferensi standar untuk mencegah ketergantungan vendor

Pikiran Akhir

“ASIC-ization” dari inference AI sudah dimulai. Seperti penambangan Bitcoin yang berkembang dari CPU ke silikon khusus, AI juga mengikuti jalur yang sama.

Revolusi berikutnya dalam AI bukan tentang model yang lebih besar — tetapi tentang chip yang lebih baik. Perangkat keras yang dioptimalkan untuk pola spesifik dari inference Transformer akan menentukan siapa yang dapat mendeploy AI secara ekonomis di skala besar.

Seperti penambang Bitcoin yang mengoptimalkan setiap watt yang terbuang, perangkat keras inference akan memeras setiap FLOP-per-joule terakhir. Ketika hal itu terjadi, terobosan nyata bukan akan terjadi di algoritma — tetapi di silikon yang menjalankannya.

Masa depan AI sedang diukir dalam silikon, satu transistor demi transistor.

Tautan Berguna