大型语言模型专用芯片的兴起:为何推理硬件至关重要
专用芯片正在让人工智能推理变得更加快速、廉价。
人工智能的未来不仅仅是更聪明的模型,更是更聪明的硅芯片。
专为LLM推理设计的硬件正在引发一场革命,这与比特币挖矿转向ASICs的转变非常相似。
电气想象 - Flux文本到图像LLM.
为什么LLM需要专用硬件
大型语言模型已经改变了人工智能,但每个流畅的回应背后都伴随着巨大的计算和内存流量。随着推理成本成为主导因素——通常在模型生命周期内超过训练成本——专门针对推理优化的硬件在经济上是合理的。
与比特币挖矿的类比并非偶然。在这两种情况下,高度特定且重复的工作负载都能从定制硅芯片中获益匪浅。
比特币挖矿的启示
比特币挖矿经历了四个阶段的演变:
时代 | 硬件 | 关键优势 | 局限性 |
---|---|---|---|
2015–2020 | GPUs (CUDA, ROCm) | 灵活性 | 耗电量高,内存受限 |
2021–2023 | TPUs, NPUs | 粗粒度专业化 | 仍偏向训练 |
2024–2025 | Transformer ASICs | 为低比特推理优化 | 通用性有限 |
人工智能正沿着相似的路径发展。每一次转变都显著提升了性能和能源效率。
然而,与比特币ASIC(仅计算SHA-256)不同,推理ASIC需要一定的灵活性。模型在演变,架构在变化,精度方案也在改进。关键在于适度专业化——在核心模式上硬编码,同时在边缘保持适应性。
为什么LLM推理与训练不同
推理工作负载具有独特的特征,专用硬件可以加以利用:
- 低精度占主导地位 —— 8位、4位,甚至三进制或二进制算术在推理中表现良好
- 内存是瓶颈 —— 移动权重和KV缓存消耗的电量远高于计算
- 延迟比吞吐量更重要 —— 用户期望在200毫秒内得到令牌
- 请求并行性巨大 —— 每个芯片可处理数千个并发推理请求
- 模式可预测 —— Transformer层高度结构化,可以硬编码
- 存在稀疏性机会 —— 模型越来越多地使用剪枝和MoE(专家混合)技术
专为推理设计的芯片可以将这些假设硬编码,实现每瓦性能提升10–50倍,优于通用GPU。
谁在构建LLM优化的硬件
推理ASIC市场正在升温,既有老牌企业,也有雄心勃勃的初创公司:
公司 | 芯片 / 平台 | 专长 |
---|---|---|
Groq | LPU (语言处理单元) | 为LLM提供确定性吞吐量 |
Etched AI | Sohu ASIC | 硬编码Transformer引擎 |
Tenstorrent | Grayskull / Blackhole | 高带宽网格的通用ML |
OpenAI × Broadcom | 定制推理芯片 | 据传2026年发布 |
Intel | Crescent Island | 仅用于推理的Xe3P GPU,配备160GB HBM |
Cerebras | 晶圆级引擎(WSE-3) | 大规模片上 内存带宽 |
这些产品并非只是概念产品——它们今天已经在数据中心部署。此外,像d-Matrix、Rain AI、Mythic和Tenet这样的初创公司正在围绕Transformer算术模式从零开始设计芯片。
Transformer推理ASIC的架构
在内部,一个针对Transformer优化的芯片看起来像什么?
+--------------------------------------+
| 主机接口 |
| (PCIe / CXL / NVLink / Ethernet) |
+--------------------------------------+
| 片上互连(网格/环形) |
+--------------------------------------+
| 计算模块 / 核心 |
| — 密集矩阵乘法单元 |
| — 低精度(int8/int4)ALU |
| — 反量化 / 激活单元 |
+--------------------------------------+
| 片上SRAM & KV缓存缓冲区 |
| — 热权重,融合缓存 |
+--------------------------------------+
| 量化 / 反量化流水线 |
+--------------------------------------+
| 调度器 / 控制器 |
| — 静态图执行引擎 |
+--------------------------------------+
| 片外DRAM / HBM接口 |
+--------------------------------------+
关键的架构特点包括:
- 计算核心 —— 为int8、int4和三进制操作优化的密集矩阵乘法单元
- 片上SRAM —— 大缓冲区存储热权重和KV缓存,减少昂贵的DRAM访问
- 流式互连 —— 网格拓扑结构使跨多个芯片的高效扩展成为可能
- 量化引擎 —— 层间实时量化/反量化
- 编译器栈 —— 将PyTorch/ONNX图直接转换为芯片特定的微操作
- 硬编码注意力内核 —— 消除softmax等操作的控制流开销
设计哲学与比特币ASIC相似:每个晶体管都服务于特定的工作负载。没有浪费硅资源在推理不需要的功能上。
实际基准测试:GPU与推理ASIC
以下是专用推理硬件与最先进GPU的比较:
模型 | 硬件 | 吞吐量(tokens/s) | 首个令牌时间 | 性能倍数 |
---|---|---|---|---|
Llama-2-70B | NVIDIA H100 (8x DGX) | ~80–100 | ~1.7s | 基准(1×) |
Llama-2-70B | Groq LPU | 241–300 | 0.22s | 3–18× 更快 |
Llama-3.3-70B | Groq LPU | ~276 | ~0.2s | 一致的3× |
Gemma-7B | Groq LPU | 814 | <0.1s | 5–15× 更快 |
来源: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog
这些数字说明的不是渐进式改进,而是在吞吐量和延迟方面数量级的提升。
关键的权衡
专业化虽然强大,但也伴随着挑战:
-
灵活性与效率的权衡。 一个完全固定的ASIC可以快速处理当前的Transformer模型,但可能难以应对明天的架构。当注意力机制演变或新模型家族出现时会发生什么?
-
量化与精度。 低精度可以节省大量电力,但管理精度下降需要复杂的量化方案。并非所有模型都能优雅地量化到4位或更低。
-
软件生态系统。 没有强大编译器、内核和框架的硬件是无用的。NVIDIA之所以仍占主导地位,很大程度上是因为CUDA成熟的生态系统。新芯片制造商必须在软件上投入大量资源。
-
成本与风险。 制造芯片的成本高达数千万美元,耗时12–24个月。对于初创公司来说,这是一场对架构假设的巨大赌注,这些假设可能并不成立。
尽管如此,在超大规模部署中,即使2倍的效率提升也能节省数十亿美元。对于云提供商每秒处理数百万个推理请求,定制硅芯片正变得越来越不可或缺。
理想的LLM推理芯片应具备的特征
特性 | 理想规格 |
---|---|
工艺 | 3–5nm节点 |
片上SRAM | 100MB+紧密耦合 |
精度 | 原生支持int8 / int4 / 三进制 |
吞吐量 | 500+ tokens/sec(70B模型) |
延迟 | <100ms首个令牌时间 |
互连 | 低延迟网格或光链路 |
编译器 | PyTorch/ONNX → 微代码工具链 |
能耗 | <0.3焦耳/令牌 |
未来展望:2026–2030年及以后
预计推理硬件市场将分为三个层级:
-
训练芯片。 高端GPU如NVIDIA B200和AMD Instinct MI400将继续主导训练,凭借其FP16/FP8灵活性和巨大的内存带宽。
-
推理ASIC。 硬编码、低精度Transformer加速器将处理超大规模的生产服务,优化成本和效率。
-
边缘NPU。 小型、超高效的芯片将把量化后的LLM带到智能手机、车辆、物联网设备和机器人中,实现无需云端依赖的设备智能。
除了硬件,我们还将看到:
- 混合集群 —— GPU用于灵活训练,ASIC用于高效服务
- 推理即服务 —— 主要云提供商部署定制芯片(如AWS Inferentia、Google TPU)
- 软硬件协同设计 —— 明确设计为硬件友好的模型,通过稀疏性、量化感知和块状注意力
- 开放标准 —— 标准化推理API以防止厂商锁定
最后的想法
人工智能推理的“ASIC化”已经开始。 正如比特币挖矿从CPU演进到专用硅芯片一样,人工智能的部署也遵循着相同的路径。
下一次人工智能革命不会是关于更大的模型,而是关于更好的芯片。专门针对Transformer推理模式优化的硬件将决定谁能在经济上大规模部署人工智能。
正如比特币矿工优化掉每一瓦的浪费一样,推理硬件也将榨干每一焦耳的每FLOP。当这一切发生时,真正的突破不会在算法中,而是在运行它们的硅芯片中。
人工智能的未来正在硅芯片上逐步成型,一个晶体管一个晶体管地雕刻。