Local Inference

LLMシステムの費用最適化:コストが実際にどこに発生しているか

LLMシステムの費用最適化:コストが実際にどこに発生しているか

本当に重要な箇所にトークンを集中させましょう。

LLM(大規模言語モデル)のコストは使用量に比例して線形に増加します。1日10,000リクエストを処理し、1リクエストあたりのコストが$0.01の場合、日額コストは$100、年間では$365になります。エンタープライズ規模では、これは1万ドルを超えます。

モデルルーティング:すべてに1つのモデルを使うのをやめよう

モデルルーティング:すべてに1つのモデルを使うのをやめよう

適切なタスクに最適なモデルを。

700億パラメータのモデルを走らせて200語のメールを要約するのは、もったいない。30億パラメータのモデルを使って本番環境のコードレビューを行うのは、無責任だ。ほとんどのシステムは、この中間的な位置にある。そこで登場するのが、モデルのルーティング(経路選択)である。