Local Inference

Enrutamiento de modelos: Deja de usar un solo modelo para todo

Enrutamiento de modelos: Deja de usar un solo modelo para todo

El modelo adecuado para la tarea correcta.

Ejecutar un modelo de 70 mil millones de parámetros para resumir un correo electrónico de 200 palabras es un desperdicio. Utilizar un modelo de 3 mil millones de parámetros para revisar código en producción es imprudente. La mayoría de los sistemas se encuentran en algún punto intermedio, y ahí es donde entra el enrutamiento de modelos.