Local Inference

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

LLM 비용은 사용량에 따라 선형적으로 증가합니다. 하루에 10,000개의 요청을 처리하고 요청당 $0.01을 지불하는 시스템의 경우, 일일 비용은 $100이며 연간 비용은 $365입니다. 엔터프라이즈 규모에서는 이 비용이 $10,000을 넘습니다.

200단어 분량의 이메일을 요약하기 위해 700억 파라미터 모델을 실행하는 것은 낭비입니다. 프로덕션 코드를 검토하기 위해 30억 파라미터 모델을 사용하는 것은 무모합니다. 대부분의 시스템은 이 두 극단 사이 어딘가에 존재하며, 바로 여기서 모델 라우팅(model routing)이 그 역할을 합니다.

Local Inference

LLM 아키텍처: 프로덕션 AI를 위한 시스템 설계

LLM 시스템의 비용 최적화: 비용이 실제로 어디로 가는가

모델 라우팅: 모든 작업에 하나의 모델을 쓰지 마세요