Local Inference

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

LLM（大規模言語モデル）のコストは使用量に比例して線形に増加します。1日10,000リクエストを処理し、1リクエストあたりのコストが$0.01の場合、日額コストは$100、年間では$365になります。エンタープライズ規模では、これは1万ドルを超えます。

700億パラメータのモデルを走らせて200語のメールを要約するのは、もったいない。30億パラメータのモデルを使って本番環境のコードレビューを行うのは、無責任だ。ほとんどのシステムは、この中間的な位置にある。そこで登場するのが、モデルのルーティング（経路選択）である。

Local Inference

LLMのアーキテクチャ：本番運用向けAIのシステム設計

LLMシステムの費用最適化：コストが実際にどこに発生しているか

モデルルーティング：すべてに1つのモデルを使うのをやめよう