Local Inference

LLM 시스템의 비용 최적화: 비용이 실제로 어디로 가는가

LLM 시스템의 비용 최적화: 비용이 실제로 어디로 가는가

가치가 있는 곳에 토큰을 사용하세요.

LLM 비용은 사용량에 따라 선형적으로 증가합니다. 하루에 10,000개의 요청을 처리하고 요청당 $0.01을 지불하는 시스템의 경우, 일일 비용은 $100이며 연간 비용은 $365입니다. 엔터프라이즈 규모에서는 이 비용이 $10,000을 넘습니다.

모델 라우팅: 모든 작업에 하나의 모델을 쓰지 마세요

모델 라우팅: 모든 작업에 하나의 모델을 쓰지 마세요

적합한 작업에 가장 적합한 모델.

200단어 분량의 이메일을 요약하기 위해 700억 파라미터 모델을 실행하는 것은 낭비입니다. 프로덕션 코드를 검토하기 위해 30억 파라미터 모델을 사용하는 것은 무모합니다. 대부분의 시스템은 이 두 극단 사이 어딘가에 존재하며, 바로 여기서 모델 라우팅(model routing)이 그 역할을 합니다.