Qu’est-ce que le routage de modèles dans les systèmes de LLM ?

Le routage de modèles oriente chaque requête vers le modèle le plus adapté en fonction du type de tâche, des coûts ou des exigences de latence. Il réduit la consommation de jetons et améliore les temps de réponse sans sacrifier la qualité sur les tâches complexes.

Quelles sont les quatre principales stratégies de routage des modèles ?

Les quatre principales stratégies sont le routage basé sur les capacités (selon le type de tâche), le routage sensible aux coûts (selon le budget), le routage sensible à la latence (selon les exigences de vitesse) et le routage hybride (combinant les trois). La plupart des systèmes en production utilisent l’approche hybride.

Comment fonctionnent les chaînes de repli dans les systèmes de routage des LLM ?

Une chaîne de repli essaie les modèles par ordre, du plus performant au plus fiable. Si le modèle principal expire ou échoue, le système passe au modèle suivant dans la chaîne. Le dernier modèle doit toujours être local — il ne tombera pas en panne en raison de problèmes de réseau.

Quand le routage de modèles ajoute-t-il plus de complexité qu’il ne le vaut ?

Le routage des modèles ajoute une complexité inutile lorsque toutes les tâches présentent une difficulté similaire, lorsque vous êtes encore en phase de prototypage, ou lorsque le coût et la latence ne constituent pas encore des problèmes. Commencez par un seul modèle et ajoutez le routage uniquement lorsque la facture ou la lenteur devient un problème réel.

Quelle est la différence entre le routage des LLM local et celui basé sur une API ?

Les modèles locaux n’ont aucun coût par jeton une fois l’amortissement du matériel pris en compte et ne sont jamais soumis à des limites de débit, mais ils exigent un investissement initial. Les modèles d’API sont flexibles, mais entraînent un coût par jeton et peuvent atteindre des limites de débit. La plupart des routeurs sensibles aux coûts privilégient les modèles locaux pour les tâches à fort volume.

Routage des modèles : cessez d’utiliser un seul modèle pour tout

Le bon modèle pour la bonne tâche.

Sommaire

Exécuter un modèle de 70 milliards de paramètres pour résumer un e-mail de 200 mots est un gaspillage. Utiliser un modèle de 3 milliards de paramètres pour passer en revue du code en production est négligent. La plupart des systèmes se situent quelque part entre les deux — et c’est là qu’intervient le routage de modèles.

Il associe la complexité de la tâche à la capacité du modèle. Les compromis sont réels, mais les économies aussi.

Diagramme des stratégies de routage des modèles LLM

Le problème du routage

Les utilisateurs commencent généralement par utiliser un seul modèle et s’y tiennent. Cela fonctionne jusqu’à ce que vous constatiez les coûts, la latence, ou les deux. L’alternative consiste à construire un routeur — quelque chose qui décide quel modèle traite quelle requête.

Quatre stratégies fonctionnent en pratique :

Basé sur les capacités — router selon ce que le modèle peut faire
Conscient des coûts — router selon ce que vous êtes prêt à dépenser
Conscient de la latence — router selon la vitesse requise
Hybride — les combiner

Chacune optimise un aspect différent. Choisir l’une d’elles est généralement une décision basée sur ce qui fait le plus mal.

Routage basé sur les capacités

L’approche la plus simple. Classifier la tâche, l’envoyer au modèle qui la gère.

Tâche	Taille du modèle	Exemples
Classification, étiquetage	1-3B	Qwen3-1.7B, Gemma-2-2B
Résumés, extraction	3-7B	Qwen3-8B, Llama-3.1-8B
Génération de code	7-14B	Qwen2.5-Coder-7B, DeepSeek-Coder-V2
Raisonnement complexe	14-32B	Qwen3-32B, Llama-3.1-70B
Écriture créative, analyse	32B+	Qwen2.5-72B, Claude, GPT-4

Si la tâche n’a pas besoin du modèle plus grand, ne l’utilisez pas. Un modèle de 1,5B gère bien la classification de sentiments. Il n’écrira simplement pas un essai cohérent.

La mise en œuvre est simple :

ROUTING_RULES = {
    "classify": {"model": "qwen3-1.7B", "max_tokens": 100},
    "summarize": {"model": "qwen3-8B", "max_tokens": 500},
    "code_review": {"model": "qwen2.5-coder-7b", "max_tokens": 2000},
    "reason": {"model": "qwen3-32b", "max_tokens": 4000},
    "creative": {"model": "claude-sonnet-4", "max_tokens": 8000},
}

def route_request(task_type: str) -> dict:
    return ROUTING_RULES.get(task_type, ROUTING_RULES["reason"])

Le piège est la classification elle-même. Si vous identifiez mal le type de tâche, vous routez vers le mauvais modèle. J’ai vu des systèmes classer la revue de code comme « résumé » et perdre en qualité silencieusement.

Routage conscient des coûts

L’inférence locale brille ici. Les modèles locaux sont pratiquement gratuits après l’amortissement du matériel. Une RTX 5080 se rembourse en environ six mois avec une utilisation modérée de l’API.

Modèle	Entrée ($/M jetons)	Sortie ($/M jetons)	Coût local/heure
GPT-4o	$2,50	$10,00	—
Claude Sonnet 4	$3,00	$15,00	—
Qwen2.5-72B (API)	$0,50	$2,00	—
Qwen3-32B (local)	$0,00	$0,00	~$0,10
Qwen3-8B (local)	$0,00	$0,00	~$0,05

Si vous traitez des milliers de requêtes par session, même $0,05 d’électricité bat $15/M jetons.

Le routage basé sur le budget revient en arrière à mesure que vous dépensez :

class CostAwareRouter:
    def __init__(self, budget_per_session: float = 0.10):
        self.budget = budget_per_session
        self.spent = 0.0
        self.models = {
            "cheap": {"model": "qwen3-8B", "cost": 0.0},
            "medium": {"model": "qwen3-32b", "cost": 0.0},
            "expensive": {"model": "claude-sonnet-4", "cost": 0.000015},
        }

    def route(self, task: str) -> str:
        ratio = self.spent / self.budget
        if ratio < 0.5:
            return self.models["expensive"]["model"]
        elif ratio < 0.8:
            return self.models["medium"]["model"]
        return self.models["cheap"]["model"]

La qualité se dégrade à mesure que vous reculez. Vous commencez avec Claude, passez à Qwen3-32B, puis à Qwen3-8B. À la fin d’une longue session, la sortie est nettement pire. Si cela importe dépend de ce que vous construisez.

Routage conscient de la latence

Les outils interactifs ont besoin de premiers jetons rapides. Les travaux par lots peuvent attendre. La différence est généralement un facteur de cinq en taille de modèle.

Cas d’utilisation	Premier jeton	Complet	Taille max du modèle
Chat en temps réel	< 200ms	< 2s	< 7B
Outils interactifs	< 500ms	< 5s	< 14B
Traitement par lots	< 1s	< 30s	Tout
Recherche/analyse	< 2s	< 60s	Tout

Lorsque vous diffusez des jetons à un utilisateur, c’est la latence du premier jeton qu’ils ressentent. Un modèle de 32B qui met une demi-seconde à démarrer semble lent comparé à un modèle de 1,5B qui se déclenche instantanément.

class LatencyAwareRouter:
    def __init__(self):
        self.model_latencies = {
            "qwen3-1.7b": {"first_token": 0.05, "complete": 0.5},
            "qwen3-8B": {"first_token": 0.15, "complete": 2.0},
            "qwen3-32b": {"first_token": 0.5, "complete": 10.0},
            "claude-sonnet-4": {"first_token": 0.3, "complete": 5.0},
        }

    def route(self, target_latency: float) -> str:
        for model, latencies in sorted(
            self.model_latencies.items(),
            key=lambda x: x[1]["complete"]
        ):
            if latencies["complete"] <= target_latency:
                return model
        return "qwen3-1.7b"

Les chiffres de latence sont approximatifs — ils dépendent de votre matériel, de la quantification et de la taille des lots. Mesurez sur votre propre configuration.

Stratégies de repli

Les modèles échouent. Les API limitent les taux. Les dépassements de délai arrivent. Le modèle qui fonctionne est une chaîne de repli, ordonnée du meilleur au plus fiable :

class FallbackRouter:
    def __init__(self):
        self.fallback_chain = [
            {"model": "claude-sonnet-4", "timeout": 30},
            {"model": "qwen2.5-72b", "timeout": 60},
            {"model": "qwen3-32b", "timeout": 120},
            {"model": "qwen3-8b", "timeout": 300},
        ]

    def route_with_fallback(self, prompt: str) -> str:
        for config in self.fallback_chain:
            try:
                return self.call_model(
                    config["model"], prompt,
                    timeout=config["timeout"]
                )
            except (TimeoutError, APIError) as e:
                log.warning(f"Model {config['model']} failed: {e}")
                continue
        raise RuntimeError("All fallback models failed")

Le dernier modèle de la chaîne devrait être local. Il est plus lent, mais il ne échouera pas à cause d’un problème réseau ou d’une clé API.

Quand le routage aide

Le routage a du sens lorsque votre charge de travail est mixte. Si vous faites de la classification, des résumés et du raisonnement dans le même système, un routeur économise de l’argent et réduit la latence.

Il n’a pas de sens lorsque tout ce que vous faites a la même complexité. Utilisez simplement le modèle qui est bon pour cette tâche. Le routeur ajoute une complexité dont vous n’avez pas besoin.

Le prototypage précoce est une autre raison de l’éviter. Faites fonctionner la tâche avec un modèle, puis ajoutez le routage lorsque le coût ou la latence devient réellement un problème.

Compromis

Chaque stratégie de routage optimise un aspect et sacrifie un autre :

Modèle unique — le plus simple, le plus cher, qualité constante
Basé sur les capacités — meilleur coût, qualité supérieure par tâche, complexité modérée
Conscient des coûts — le moins cher, qualité variable, complexité modérée
Conscient de la latence — le plus rapide, peut sacrifier la qualité, complexité modérée
Hybride — le meilleur de tout, le plus complexe à mettre en œuvre

Les systèmes de production convergent généralement vers l’hybride. Commencez par un routage basé sur les capacités, ajoutez la prise en compte des coûts lorsque la facture arrive, ajoutez la prise en compte de la latence lorsque les utilisateurs se plaignent de lenteur.

Liens connexes

Optimisation des coûts pour les systèmes LLM — budgétisation des jetons, mise en cache, modèles de repli
Garde-fous LLM en pratique — validation des entrées, filtrage des sorties, sécurité
Conception de systèmes multi-modèles — architecture pour plusieurs modèles
Architecture LLM — pilier de conception système : routage, coût, garde-fous et orchestration