大型语言模型专用芯片的兴起:为何推理硬件至关重要

专用芯片正在让人工智能推理变得更加快速、廉价。

目录

人工智能的未来不仅仅是更聪明的模型,更是更聪明的硅芯片。
专为LLM推理设计的硬件正在引发一场革命,这与比特币挖矿转向ASICs的转变非常相似。

LLM ASIC电气电路 电气想象 - Flux文本到图像LLM.

为什么LLM需要专用硬件

大型语言模型已经改变了人工智能,但每个流畅的回应背后都伴随着巨大的计算和内存流量。随着推理成本成为主导因素——通常在模型生命周期内超过训练成本——专门针对推理优化的硬件在经济上是合理的。

与比特币挖矿的类比并非偶然。在这两种情况下,高度特定且重复的工作负载都能从定制硅芯片中获益匪浅。

比特币挖矿的启示

比特币挖矿经历了四个阶段的演变:

时代 硬件 关键优势 局限性
2015–2020 GPUs (CUDA, ROCm) 灵活性 耗电量高,内存受限
2021–2023 TPUs, NPUs 粗粒度专业化 仍偏向训练
2024–2025 Transformer ASICs 为低比特推理优化 通用性有限

人工智能正沿着相似的路径发展。每一次转变都显著提升了性能和能源效率。

然而,与比特币ASIC(仅计算SHA-256)不同,推理ASIC需要一定的灵活性。模型在演变,架构在变化,精度方案也在改进。关键在于适度专业化——在核心模式上硬编码,同时在边缘保持适应性。

为什么LLM推理与训练不同

推理工作负载具有独特的特征,专用硬件可以加以利用:

  • 低精度占主导地位 —— 8位、4位,甚至三进制或二进制算术在推理中表现良好
  • 内存是瓶颈 —— 移动权重和KV缓存消耗的电量远高于计算
  • 延迟比吞吐量更重要 —— 用户期望在200毫秒内得到令牌
  • 请求并行性巨大 —— 每个芯片可处理数千个并发推理请求
  • 模式可预测 —— Transformer层高度结构化,可以硬编码
  • 存在稀疏性机会 —— 模型越来越多地使用剪枝和MoE(专家混合)技术

专为推理设计的芯片可以将这些假设硬编码,实现每瓦性能提升10–50倍,优于通用GPU。

谁在构建LLM优化的硬件

推理ASIC市场正在升温,既有老牌企业,也有雄心勃勃的初创公司:

公司 芯片 / 平台 专长
Groq LPU (语言处理单元) 为LLM提供确定性吞吐量
Etched AI Sohu ASIC 硬编码Transformer引擎
Tenstorrent Grayskull / Blackhole 高带宽网格的通用ML
OpenAI × Broadcom 定制推理芯片 据传2026年发布
Intel Crescent Island 仅用于推理的Xe3P GPU,配备160GB HBM
Cerebras 晶圆级引擎(WSE-3) 大规模片上 内存带宽

这些产品并非只是概念产品——它们今天已经在数据中心部署。此外,像d-MatrixRain AIMythicTenet这样的初创公司正在围绕Transformer算术模式从零开始设计芯片。

Transformer推理ASIC的架构

在内部,一个针对Transformer优化的芯片看起来像什么?

+--------------------------------------+
|         主机接口               |
|   (PCIe / CXL / NVLink / Ethernet)   |
+--------------------------------------+
|  片上互连(网格/环形)    |
+--------------------------------------+
|  计算模块 / 核心               |
|   — 密集矩阵乘法单元      |
|   — 低精度(int8/int4)ALU   |
|   — 反量化 / 激活单元       |
+--------------------------------------+
|  片上SRAM & KV缓存缓冲区     |
|   — 热权重,融合缓存        |
+--------------------------------------+
|  量化 / 反量化流水线    |
+--------------------------------------+
|  调度器 / 控制器              |
|   — 静态图执行引擎    |
+--------------------------------------+
|  片外DRAM / HBM接口       |
+--------------------------------------+

关键的架构特点包括:

  • 计算核心 —— 为int8、int4和三进制操作优化的密集矩阵乘法单元
  • 片上SRAM —— 大缓冲区存储热权重和KV缓存,减少昂贵的DRAM访问
  • 流式互连 —— 网格拓扑结构使跨多个芯片的高效扩展成为可能
  • 量化引擎 —— 层间实时量化/反量化
  • 编译器栈 —— 将PyTorch/ONNX图直接转换为芯片特定的微操作
  • 硬编码注意力内核 —— 消除softmax等操作的控制流开销

设计哲学与比特币ASIC相似:每个晶体管都服务于特定的工作负载。没有浪费硅资源在推理不需要的功能上。

实际基准测试:GPU与推理ASIC

以下是专用推理硬件与最先进GPU的比较:

模型 硬件 吞吐量(tokens/s) 首个令牌时间 性能倍数
Llama-2-70B NVIDIA H100 (8x DGX) ~80–100 ~1.7s 基准(1×)
Llama-2-70B Groq LPU 241–300 0.22s 3–18× 更快
Llama-3.3-70B Groq LPU ~276 ~0.2s 一致的3×
Gemma-7B Groq LPU 814 <0.1s 5–15× 更快

来源: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog

这些数字说明的不是渐进式改进,而是在吞吐量和延迟方面数量级的提升。

关键的权衡

专业化虽然强大,但也伴随着挑战:

  1. 灵活性与效率的权衡。 一个完全固定的ASIC可以快速处理当前的Transformer模型,但可能难以应对明天的架构。当注意力机制演变或新模型家族出现时会发生什么?

  2. 量化与精度。 低精度可以节省大量电力,但管理精度下降需要复杂的量化方案。并非所有模型都能优雅地量化到4位或更低。

  3. 软件生态系统。 没有强大编译器、内核和框架的硬件是无用的。NVIDIA之所以仍占主导地位,很大程度上是因为CUDA成熟的生态系统。新芯片制造商必须在软件上投入大量资源。

  4. 成本与风险。 制造芯片的成本高达数千万美元,耗时12–24个月。对于初创公司来说,这是一场对架构假设的巨大赌注,这些假设可能并不成立。

尽管如此,在超大规模部署中,即使2倍的效率提升也能节省数十亿美元。对于云提供商每秒处理数百万个推理请求,定制硅芯片正变得越来越不可或缺。

理想的LLM推理芯片应具备的特征

特性 理想规格
工艺 3–5nm节点
片上SRAM 100MB+紧密耦合
精度 原生支持int8 / int4 / 三进制
吞吐量 500+ tokens/sec(70B模型)
延迟 <100ms首个令牌时间
互连 低延迟网格或光链路
编译器 PyTorch/ONNX → 微代码工具链
能耗 <0.3焦耳/令牌

未来展望:2026–2030年及以后

预计推理硬件市场将分为三个层级:

  1. 训练芯片。 高端GPU如NVIDIA B200和AMD Instinct MI400将继续主导训练,凭借其FP16/FP8灵活性和巨大的内存带宽。

  2. 推理ASIC。 硬编码、低精度Transformer加速器将处理超大规模的生产服务,优化成本和效率。

  3. 边缘NPU。 小型、超高效的芯片将把量化后的LLM带到智能手机、车辆、物联网设备和机器人中,实现无需云端依赖的设备智能。

除了硬件,我们还将看到:

  • 混合集群 —— GPU用于灵活训练,ASIC用于高效服务
  • 推理即服务 —— 主要云提供商部署定制芯片(如AWS Inferentia、Google TPU)
  • 软硬件协同设计 —— 明确设计为硬件友好的模型,通过稀疏性、量化感知和块状注意力
  • 开放标准 —— 标准化推理API以防止厂商锁定

最后的想法

人工智能推理的“ASIC化”已经开始。 正如比特币挖矿从CPU演进到专用硅芯片一样,人工智能的部署也遵循着相同的路径。

下一次人工智能革命不会是关于更大的模型,而是关于更好的芯片。专门针对Transformer推理模式优化的硬件将决定谁能在经济上大规模部署人工智能。

正如比特币矿工优化掉每一瓦的浪费一样,推理硬件也将榨干每一焦耳的每FLOP。当这一切发生时,真正的突破不会在算法中,而是在运行它们的硅芯片中。

人工智能的未来正在硅芯片上逐步成型,一个晶体管一个晶体管地雕刻。

有用的链接