Arquitectura de LLM: Diseño de sistemas para IA en producción
Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.
El modelo adecuado para la tarea correcta.
Ejecutar un modelo de 70 mil millones de parámetros para resumir un correo electrónico de 200 palabras es un desperdicio. Utilizar un modelo de 3 mil millones de parámetros para revisar código en producción es imprudente. La mayoría de los sistemas se encuentran en algún punto intermedio, y ahí es donde entra el enrutamiento de modelos.
Gasta tokens donde realmente importan.
Los costos de los LLMs escalan de manera lineal con el uso. Un sistema que procesa 10.000 solicitudes al día a $0.01 por solicitud cuesta $100 diarios — $365 al año. A escala empresarial, eso es más de $10.000.