Архитектура LLM: проектирование систем для ИИ в продакшене
Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.
«Подходящая модель для подходящей задачи.»
Запуск модели с 70 миллиардами параметров для обобщения электронного письма на 200 слов — расточительно. Использование модели с 3 миллиардами параметров для ревью продакшн-кода — безрассудно. Большинство систем находятся где-то посередине, и именно здесь на сцену выходит маршрутизация моделей.