De opkomst van LLM-ASICs: waarom het hardware voor inferentie belangrijk is
Specialistische chips maken AI-inferentie sneller en goedkoper.
De toekomst van AI is niet alleen over slimme modellen - het gaat om slimme silicium.
Specialistische hardware voor LLM-inferentie trekt een revolutie aan die vergelijkbaar is met de overgang van Bitcoin-mining naar ASICs.
Elektrische Imagination - Flux tekst naar beeld LLM.
Waarom LLMs hun eigen hardware nodig hebben
Large language models hebben AI veranderd, maar achter elke vloeiende reactie ligt een enorme hoeveelheid rekenkracht en geheugentransport. Aangezien inferentiekosten dominant worden - vaak hoger dan trainingskosten over de levensduur van een model - maakt hardware die specifiek is afgestemd op inferentie economisch zin.
De analogie met Bitcoin-mining is niet toevallig. In beide gevallen profiteert een zeer specifieke, herhalende werklast enorm van aangepaste silicium die alles onbelangrijke weghaalt.
Lessen uit Bitcoin-mining
Bitcoin-mining is doorgegaan via vier generaties:
Tijdperk | Hardware | Belangrijkste voordeel | Beperking |
---|---|---|---|
2015–2020 | GPUs (CUDA, ROCm) | Flexibiliteit | Veel energie, geheugenbeperkt |
2021–2023 | TPUs, NPUs | Grote-grain specialisatie | Nog steeds gericht op training |
2024–2025 | Transformer ASICs | Afgestemd op lage-bits inferentie | Beperkte algemeenheid |
AI volgt een vergelijkbare weg. Elke overgang verbeterde prestaties en energie-efficiëntie met ordes van grootte.
Echter, in tegenstelling tot Bitcoin-ASICs (die alleen SHA-256 berekenen), hebben inferentie-ASICs enige flexibiliteit nodig. Modellen evolueren, architecturen veranderen en precisieschema’s verbeteren. Het trucje is om net genoeg te specialiseren - de kernpatronen hardwireden terwijl flexibiliteit behouden blijft aan de randen.
Wat maakt LLM-inferentie anders dan training
Inferentie werklasten hebben unieke kenmerken die gespecialiseerde hardware kan benutten:
- Lage precisie domineert — 8-bit, 4-bit, zelfs ternaire of binaire rekenkunde werken goed voor inferentie
- Geheugen is het knelpunt — Het verplaatsen van gewichten en KV-caches verbruikt veel meer energie dan rekenen
- Latentie is belangrijker dan doorvoer — Gebruikers verwachten tokens binnen 200 ms
- Massieve aanvraagparalleliteit — Duizenden gelijktijdige inferentie-aanvragen per chip
- Voorspelbare patronen — Transformerlagen zijn zeer gestructureerd en kunnen worden hardwired
- Mogelijkheden voor sparsiteit — Modellen gebruiken steeds vaker snoeien en MoE (Mixture-of-Experts) technieken
Een aangepaste inferentie-chip kan deze aannames hardwireden om 10–50× betere prestaties per watt te bereiken dan algemene doeleinden GPUs.
Wie bouwt LLM-geoptimaliseerde hardware
De inferentie-ASIC markt verhit zich met zowel gevestigde spelers als ambitieuze startups:
Onderneming | Chip / Platform | Specialiteit |
---|---|---|
Groq | LPU (Language Processing Unit) | Deterministische doorvoer voor LLMs |
Etched AI | Sohu ASIC | Hardwired Transformer engine |
Tenstorrent | Grayskull / Blackhole | Algemene ML met hoge-bandbreedte mesh |
OpenAI × Broadcom | Aangepaste inferentie-chip | Geruchte uitrol in 2026 |
Intel | Crescent Island | Inferentie-alleen Xe3P GPU met 160GB HBM |
Cerebras | Wafer-Scale Engine (WSE-3) | Grote on-chip geheugensnelheid |
Deze zijn geen vaporware — ze worden momenteel ingezet in datacenters. Bovendien ontwerpen startups zoals d-Matrix, Rain AI, Mythic en Tenet chips vanaf nul rond transformer rekenpatronen.
Architectuur van een Transformer-inferentie ASIC
Wat ziet een transformer-geoptimaliseerde chip er onder de kabels uit?
+--------------------------------------+
| Host Interface |
| (PCIe / CXL / NVLink / Ethernet) |
+--------------------------------------+
| On-chip Interconnect (mesh/ring) |
+--------------------------------------+
| Compute Tiles / Cores |
| — Dense matrix multiply units |
| — Low-precision (int8/int4) ALUs |
| — Dequant / Activation units |
+--------------------------------------+
| On-chip SRAM & KV cache buffers |
| — Hot weights, fused caches |
+--------------------------------------+
| Quantization / Dequant Pipelines |
+--------------------------------------+
| Scheduler / Controller |
| — Static graph execution engine |
+--------------------------------------+
| Off-chip DRAM / HBM Interface |
+--------------------------------------+
Belangrijke architectuurkenmerken zijn:
- Rekenkernen — Dichte matrixvermenigvuldigingsunits geoptimaliseerd voor int8, int4 en ternaire operaties
- On-chip SRAM — Grote buffers bevatten actieve gewichten en KV-caches, minimaliseren duurzame DRAM-toegang
- Streaming interconnects — Mesh-topologie stelt efficiënt schalen over meerdere chips mogelijk
- Quantisatie-ingenieurs — Real-time quantisatie/dequantisatie tussen lagen
- Compilerstack — Vertaalt PyTorch/ONNX-grafen direct naar chip-specifieke micro-ops
- Hardwired aandacht kernels — Elimineert controlestroom overhead voor softmax en andere operaties
De ontwerpfilosofie spiegelt Bitcoin-ASICs weer: elke transistor dient het specifieke werklast. Geen verspilde silicium op functies die inferentie niet nodig heeft.
Reële benchmarks: GPUs vs. inferentie-ASICs
Hier is hoe gespecialiseerde inferentiehardware zich vergelijkt met state-of-the-art GPUs:
Model | Hardware | Doorvoer (tokens/s) | Tijd tot eerste token | Prestatievermenigvuldiger |
---|---|---|---|---|
Llama-2-70B | NVIDIA H100 (8x DGX) | ~80–100 | ~1,7s | Baseline (1×) |
Llama-2-70B | Groq LPU | 241–300 | 0,22s | 3–18× sneller |
Llama-3.3-70B | Groq LPU | ~276 | ~0,2s | Consistente 3× |
Gemma-7B | Groq LPU | 814 | <0,1s | 5–15× sneller |
Bronnen: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog
Deze getallen illustreren niet alleen verbeteringen, maar orde van grootte winsten in zowel doorvoer als latentie.
De kritieke afwegingen
Specialisatie is krachtig, maar komt met uitdagingen:
-
Flexibiliteit vs. efficiëntie. Een volledig vaste ASIC schreeuwt door huidige transformermodellen, maar kan moeite hebben met morgen’s architecturen. Wat gebeurt er als aandachtmechanismen evolueren of nieuwe modelfamilies verschijnen?
-
Quantisatie en nauwkeurigheid. Lage precisie bespaart enorme hoeveelheden energie, maar het beheren van nauwkeurigheidsverlies vereist geavanceerde quantisatieschema’s. Niet alle modellen quantiseren soepel naar 4-bit of lager.
-
Software-ecosysteem. Hardware zonder robuuste compilers, kernels en frameworks is nutteloos. NVIDIA domineert nog steeds vooral vanwege het rijpe CUDA-ecosysteem. Nieuwe chipmakers moeten zwaar investeren in software.
-
Kosten en risico. Het uitbrengen van een chip kost tientallen miljoenen dollar en duurt 12–24 maanden. Voor startups is dit een enorme gok op architectuurveronderstellingen die mogelijk niet standhouden.
Nog steeds, op hyperschaal, vertalen zelfs 2× efficiëntiegewinnen miljarden in besparingen. Voor cloudproviders die miljoenen inferentie-aanvragen per seconde verwerken, is aangepaste silicium steeds minder onderhandelbaar.
Wat een ideaal LLM-inferentiechip eruitziet
Kenmerk | Ideaal specificatie |
---|---|
Proces | 3–5nm node |
On-chip SRAM | 100MB+ nauw gekoppeld |
Precisie | int8 / int4 / ternaire native ondersteuning |
Doorvoer | 500+ tokens/sec (70B model) |
Latentie | <100ms tijd tot eerste token |
Interconnect | Lage-latentie mesh of optische links |
Compiler | PyTorch/ONNX → microcode toolchain |
Energie | <0,3 joules per token |
De toekomst: 2026–2030 en daarbuiten
Verwacht dat het inferentiehardwarelandschap zich stratificeert in drie lagen:
-
Trainingschips. Hoogwaardige GPUs zoals NVIDIA B200 en AMD Instinct MI400 zullen blijven domineren bij training met hun FP16/FP8 flexibiliteit en grote geheugensnelheid.
-
Inferentie-ASICs. Hardwired, lage-precisie transformeraccelerators zullen productie-serveerproces op hyperschaal hanteren, geoptimaliseerd voor kosten en efficiëntie.
-
Edge NPUs. Kleine, ultra-efficiënte chips zullen gequantiseerde LLMs brengen naar smartphones, voertuigen, IoT-apparaten en robots, waardoor op-apparaat intelligentie mogelijk is zonder afhankelijkheid van de cloud.
Buiten hardware alleen zullen we zien:
- Hybride clusters — GPUs voor flexibele training, ASICs voor efficiënte serveerproces
- Inferentie als dienst — Grote cloudproviders implementeren aangepaste chips (zoals AWS Inferentia, Google TPU)
- Hardware-Software Co-Design — Modellen expliciet ontworpen om hardwarevriendelijk te zijn via sparsiteit, quantisatiebewustzijn en blockwise aandacht
- Open standaarden — Standaardiseerde inferentie-APIs om leverancierskoppeling te voorkomen
Eindgedachten
De “ASIC-izatie” van AI-inferentie is al onderweg. Net zoals Bitcoin-mining evolueerde van CPUs naar gespecialiseerde silicium, volgt AI implementatie dezelfde weg.
De volgende revolutie in AI zal niet over grotere modellen gaan — het zal over betere chips gaan. Hardware geoptimaliseerd voor de specifieke patronen van transformer-inferentie zal bepalen wie AI economisch op schaal kan implementeren.
Net zoals Bitcoin-miners elke verloren watt optimaliseerden, zal inferentiehardware elke laatste FLOP-per-joule persen. Wanneer dat gebeurt, zal de echte doorbraak niet in de algoritmes liggen — het zal in het silicium dat ze draait.
De toekomst van AI wordt momenteel in silicium geschreven, één transistor tegelijk.
Nuttige links
- Groq officiële benchmarks
- Artificial Analysis - LLM-prestatiesleaderboard
- NVIDIA H100 technische korte samenvatting
- Etched AI - Transformer ASIC aankondiging
- Cerebras Wafer-Scale Engine
- NVidia RTX 5080 en RTX 5090-prijzen in Australië - oktober 2025
- AI-coding assistenten vergelijking
- LLM-prestaties en PCIe-lanes: belangrijke overwegingen
- Large Language Models snelheidstest
- Vergelijking NVidia GPU geschiktheid voor AI
- Is de Quadro RTX 5880 Ada 48GB goed?
- Populariteit van programmeertalen en softwareontwikkelaartools