LLM ASIC의 등장: 추론 하드웨어가 중요한 이유

전문적인 칩이 AI 추론을 더 빠르고 저렴하게 만들어가고 있습니다.

Page content

AI의 미래는 단지 더 똑똑한 모델에만 달려 있지 않다. 그것은 더 똑똑한 실리콘에 달려 있다.
LLM 추론을 위한 전용 하드웨어는 비트코인 채굴이 ASIC으로 이동했던 것과 유사한 혁명을 이끌고 있다.

추론량, 지연 시간, VRAM, 그리고 런타임과 하드웨어에 걸친 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하라.

LLM ASIC 전기 회로 전기적 상상력 - Flux 텍스트로 이미지 생성 LLM.

LLM이 자체 하드웨어가 필요한 이유

대규모 언어 모델AI에 혁명을 가져왔지만, 매끄러운 응답 뒤에는 엄청난 계산과 메모리 트래픽이 숨어 있다. 추론 비용이 점점 주도적인 위치를 차지하게 되면서 - 종종 모델의 수명 동안 훈련 비용을 훨씬 초과하게 되는 경우가 많다 - 추론에 특화된 하드웨어가 경제적으로 의미 있는 선택이 된다.

비트코인 채굴에 대한 비유는 우연이 아니다. 두 경우 모두 매우 특정하고 반복적인 작업이 고유한 실리콘을 통해 엄청난 이점을 얻는다.

비트코인 채굴에서 배운 교훈

비트코인 채굴은 네 세대로 발전해 왔다:

시대 하드웨어 주요 이점 한계점
2015–2020 GPUs (CUDA, ROCm) 유연성 전력 소비가 많고, 메모리 제한
2021–2023 TPUs, NPUs 대규모 특화 여전히 훈련 중심
2024–2025 Transformer ASICs 저비트 추론에 최적화 일반성 한계

AI은 비슷한 경로를 따르고 있다. 각 전환은 성능과 에너지 효율성을 수십 배 향상시켰다.

그러나 비트코인 ASIC(SHA-256만 계산하는 ASIC)과 달리 추론 ASIC은 어느 정도의 유연성이 필요하다. 모델은 진화하고, 아키텍처는 변화하며, 정밀도 방식은 개선된다. 핵심은 정확히 충분한 특화를 이루는 것 - 핵심 패턴을 하드와이어링하면서도 가장자리에서는 적응성을 유지하는 것이다.

추론이 훈련과 다른 점

추론 작업에는 특화된 하드웨어가 활용할 수 있는 고유한 특징이 있다:

  • 저정밀도가 우세 - 8비트, 4비트, 심지어 삼항 또는 이항 연산이 추론에 잘 작동
  • 메모리가 병목 - 가중치와 KV 캐시를 이동하는 데 소비되는 전력이 계산보다 훨씬 많음
  • 지연 시간이 처리량보다 중요 - 사용자는 200ms 이내에 토큰을 기대
  • 대규모 요청 병렬성 - 칩당 수천 개의 동시 추론 요청
  • 예측 가능한 패턴 - Transformer 레이어는 매우 구조화되어 있으며 하드와이어링 가능
  • 희소성 기회 - 모델이 점점 더 가지치기 및 MoE(전문가 혼합) 기술을 사용

목적으로 설계된 추론 칩은 일반 목적 GPU보다 10–50배 더 높은 전력 효율성을 달성할 수 있다.

LLM 최적화 하드웨어를 개발하는 주요 기업들

추론 ASIC 시장은 기존 기업들과 용감한 스타트업들이 함께 가열되고 있다:

회사 칩 / 플랫폼 전문 분야
Groq LPU (Language Processing Unit) LLM에 대한 결정적 처리량
Etched AI Sohu ASIC 하드와이어링된 Transformer 엔진
Tenstorrent Grayskull / Blackhole 고대역 메시지와 함께 일반 ML
OpenAI × Broadcom 커스텀 추론 칩 2026년 출시 예정
Intel Crescent Island 160GB HBM을 갖춘 추론 전용 Xe3P GPU
Cerebras Wafer-Scale Engine (WSE-3) 대규모 온디스 메모리 대역폭

이것들은 기허웨어가 아니다 - 오늘날 데이터센터에서 실제로 배포되고 있다. 또한 d-Matrix, Rain AI, Mythic, Tenet 같은 스타트업들은 Transformer 산술 패턴을 중심으로 칩을 처음부터 설계하고 있다.

Transformer 추론 ASIC의 아키텍처

Transformer 최적화 칩은 내부적으로 실제로 어떤 모습일까?

+--------------------------------------+
|         호스트 인터페이스               |
|   (PCIe / CXL / NVLink / Ethernet)   |
+--------------------------------------+
|  온칩 인터커넥트 (메쉬/링)    |
+--------------------------------------+
|  컴퓨팅 타일 / 코어               |
|   — 밀집 행렬 곱셈 유닛      |
|   — 저정밀도 (int8/int4) ALU   |
|   — 비정규화 / 활성화 유닛       |
+--------------------------------------+
|  온칩 SRAM 및 KV 캐시 버퍼     |
|   — 핫 가중치, 융합 캐시        |
+--------------------------------------+
|  정규화 / 비정규화 파이프라인    |
+--------------------------------------+
|  스케줄러 / 컨트롤러              |
|   — 정적 그래프 실행 엔진    |
+--------------------------------------+
|  오프칩 DRAM / HBM 인터페이스       |
+--------------------------------------+

주요 아키텍처 특징은 다음과 같다:

  • 컴퓨팅 코어 - int8, int4, 삼항 연산에 최적화된 밀집 행렬 곱셈 유닛
  • 온칩 SRAM - 핫 가중치 및 KV 캐시를 저장하기 위한 대용량 버퍼로, 비싼 DRAM 접근을 최소화
  • 스트리밍 인터커넥트 - 메쉬 토폴로지로 여러 칩 간 효율적인 확장 가능
  • 정규화 엔진 - 레이어 간 실시간 정규화/비정규화
  • 컴파일러 스택 - PyTorch/ONNX 그래프를 직접 칩 특화 마이크로 연산으로 변환
  • 하드와이어링된 주의 커널 - 소프트맥스 및 기타 연산에 대한 제어 흐름 오버헤드 제거

설계 철학은 비트코인 ASIC과 유사하다: 모든 트랜지스터는 특정 작업에만 사용된다. 추론이 필요하지 않는 기능에 소비되는 실리콘은 없다.

실제 벤치마크: GPU 대 추론 ASIC

특화된 추론 하드웨어가 최첨단 GPU와 비교되는 방식은 다음과 같다:

모델 하드웨어 처리량 (토큰/초) 첫 토큰까지 시간 성능 배수
Llama-2-70B NVIDIA H100 (8x DGX) ~80–100 ~1.7초 기준 (1×)
Llama-2-70B Groq LPU 241–300 0.22초 3–18× 빠름
Llama-3.3-70B Groq LPU ~276 ~0.2초 일관된 3×
Gemma-7B Groq LPU 814 <0.1초 5–15× 빠름

출처: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog

이러한 수치는 처리량과 지연 시간에서 수준 차이를 보이는 개선이 아니라, 수십 배의 성능 향상을 보여준다.

중요한 트레이드오프

특화는 강력하지만, 도전도 따른다:

  1. 유연성 대 효율성.
    완전히 고정된 ASIC은 오늘날의 Transformer 모델을 빠르게 처리하지만, 내일의 아키텍처에 어려움을 겪을 수 있다. 주의 메커니즘이 진화하거나 새로운 모델 가족이 등장할 때 어떻게 될까?

  2. 정규화 및 정확도.
    저정밀도는 엄청난 전력 절감을 가져오지만, 정확도 저하를 관리하기 위해서는 복잡한 정규화 스키마가 필요하다. 모든 모델이 4비트 이하로 정규화하기에 유연하지는 않다.

  3. 소프트웨어 생태계.
    로버스트한 컴파일러, 커널, 프레임워크가 없는 하드웨어는 쓸모가 없다. NVIDIA는 여전히 CUDA의 성숙한 생태계 덕분에 우세하다. 새로운 칩 제조사들은 소프트웨어에 많은 투자를 해야 한다.

  4. 비용 및 위험.
    칩을 제작하는 데 수백만 달러가 들며, 12–24개월이 소요된다. 스타트업들에게는 이는 아키텍처 가정이 잘못될 수 있는 위험한 베팅이다.

그럼에도 불구하고, 초대규모에서조차 2배의 효율성 향상은 수십억 달러의 절감으로 이어진다. 클라우드 제공자가 초당 수백만 개의 추론 요청을 처리하는 경우, 커스텀 실리콘은 점점 필수적이 된다.

이상적인 LLM 추론 칩의 모습

기능 이상적인 사양
공정 3–5nm 노드
온칩 SRAM 100MB 이상의 밀접 연결
정밀도 int8 / int4 / 삼항 원ative 지원
처리량 500+ 토큰/초 (70B 모델)
지연 시간 첫 토큰까지 <100ms
인터커넥트 저지연 메쉬 또는 광학 링크
컴파일러 PyTorch/ONNX → 마이크로코드 툴체인
에너지 토큰당 <0.3 줄

미래: 2026–2030년 이후

추론 하드웨어 풍경은 세 가지 계층으로 분화될 것으로 기대된다:

  1. 훈련 칩.
    NVIDIA B200 및 AMD Instinct MI400 같은 고급 GPU는 FP16/FP8 유연성과 대규모 메모리 대역폭으로 훈련을 계속 주도할 것이다.

  2. 추론 ASIC.
    하드와이어링된 저정밀도 Transformer 가속기로, 초대규모의 생산 서빙을 처리하며 비용과 효율성에 최적화될 것이다.

  3. 엣지 NPUs.
    작고 초고효율적인 칩으로, 양자화된 LLM을 스마트폰, 차량, IoT 기기, 로봇에 가져가, 클라우드 의존 없이 기기 내부 지능을 가능하게 할 것이다.

하드웨어 자체를 넘어, 다음과 같은 변화도 예상된다:

  • 하이브리드 클러스터 - 유연한 훈련을 위한 GPU, 효율적인 서빙을 위한 ASIC
  • 추론 즉 서비스 - 주요 클라우드 제공자가 커스텀 칩(예: AWS Inferentia, Google TPU)을 배포
  • 하드웨어-소프트웨어 공동 설계 - 희소성, 정규화 인식, 블록 단위 주의를 통해 하드웨어 친화적으로 설계된 모델
  • 개방 표준 - 벤더 잠금을 방지하기 위한 표준화된 추론 API

최종 생각

“추론의 ASIC화”는 이미 진행 중이다.
비트코인 채굴이 CPU에서 특화된 실리콘으로 발전했듯이, AI 배포도 같은 경로를 따르고 있다.

AI의 다음 혁명은 더 큰 모델이 아니라 더 나은 칩에 달려 있다. Transformer 추론의 특정 패턴에 최적화된 하드웨어가 AI를 대규모로 경제적으로 배포할 수 있는지 결정할 것이다.

비트코인 마이너들이 낭비된 와트를 최적화했듯이, 추론 하드웨어는 마지막 FLOP-per-joule까지 꽉 짜내고 있을 것이다. 그 일이 일어날 때, 진정한 돌파는 알고리즘에서가 아니라, 그 알고리즘을 실행하는 실리콘에서 일어날 것이다.

AI의 미래는 하나의 트랜지스터씩 실리콘에 새겨지고 있다.

추가 벤치마크, 하드웨어 선택 및 성능 최적화에 대한 더 많은 정보는 우리의 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하라.

유용한 링크