LLMのアーキテクチャ:本番運用向けAIのシステム設計
Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.
本当に重要な箇所にトークンを集中させましょう。
LLM(大規模言語モデル)のコストは使用量に比例して線形に増加します。1日10,000リクエストを処理し、1リクエストあたりのコストが$0.01の場合、日額コストは$100、年間では$365になります。エンタープライズ規模では、これは1万ドルを超えます。
適切なタスクに最適なモデルを。
700億パラメータのモデルを走らせて200語のメールを要約するのは、もったいない。30億パラメータのモデルを使って本番環境のコードレビューを行うのは、無責任だ。ほとんどのシステムは、この中間的な位置にある。そこで登場するのが、モデルのルーティング(経路選択)である。