Quels sont les garde-fous des LLM et pourquoi les systèmes en ont-ils besoin ?

Les garde-fous des LLM sont des vérifications appliquées avant et après l’inférence du modèle afin de bloquer les entrées nuisibles, de valider la structure de la sortie et de faire respecter les politiques. Ils réduisent les risques d’injection de prompt, de fuite de données et de contenu nuisible sans restreindre complètement les capacités du modèle.

Qu’est-ce que l’injection de prompt et comment peut-elle être atténuée ?

L’injection de prompt est une attaque où du texte malveillant dans les données utilisateur remplace le prompt système ou modifie le comportement du modèle. L’atténuation repose sur la correspondance de motifs pour détecter les phrases d’injection courantes, la limitation de la longueur des entrées et le traitement de tout contenu fourni par l’utilisateur comme non fiable, quelle que soit sa formulation.

Quelle est la différence entre la validation des entrées et le filtrage des sorties ?

La validation des entrées vérifie la demande de l’utilisateur avant qu’elle n’atteigne le modèle : elle bloque les motifs dangereux, applique les limites de longueur et filtre les violations des politiques. Le filtrage des sorties vérifie la réponse du modèle avant qu’elle n’atteigne l’utilisateur : elle valide la structure, supprime le contenu nuisible et vérifie les allégations critiques.

Comment la journalisation d’audit doit-elle être structurée pour la conformité des LLM ?

Les journaux d’audit doivent être au format JSON structuré, en append-only, et inclure des horodatages avec la requête et la réponse complètes. Pour la conformité GDPR, HIPAA ou SOC 2, les journaux doivent être inviolables, stockés dans des régions approuvées et conservés pendant la période requise. Ne jamais enregistrer de champs sensibles en texte clair.

« Quand faut-il ajouter des garde-fous à une application LLM ? »

Intégrez des garde-fous lors de la conception de systèmes tournés vers l’utilisateur, de la gestion de données sensibles ou réglementées, ou lors du respect d’exigences de conformité telles que le RGPD ou HIPAA. Évitez-les lors de la prototypage interne sur des données non sensibles. Chaque couche de garde-fou ajoute de la latence et peut bloquer des requêtes légitimes.

Les garde-fous des LLM en pratique : ce qui fonctionne réellement

Contrôlez le risque, pas seulement le modèle.

Sommaire

Les LLMs sont imprévisibles. Ils hallucinent, fuient des données, génèrent du contenu nuisible ou refusent des demandes légitimes. Les garde-fous (guardrails) contraignent le comportement du modèle sans sacrifier ses capacités.

La clé est de savoir quels garde-fous importent et lesquels ne sont que du bruit.

Les garde-fous ne visent pas à contrôler le modèle. Ils visent à maîtriser le risque.

Garde-fous LLM en pratique

Validation des entrées

C’est le garde-fou le plus important. Une mauvaise entrée donne une mauvaise sortie, et une mauvaise entrée peut également injecter du prompt dans votre système.

Stratégie 1 : Sanitisation du prompt

Sanitisez les motifs dangereux dès le début :

import re

class PromptSanitizer:
    def __init__(self):
        self.dangerous_patterns = [
            r"ignore\s+previous\s+instructions",
            r"system\s+prompt",
            r"you\s+are\s+now\s+free",
            r"break\s+out\s+of",
        ]

    def sanitize(self, prompt: str) -> str:
        for pattern in self.dangerous_patterns:
            prompt = re.sub(pattern, "[REDACTED]", prompt, flags=re.IGNORECASE)
        return prompt

Ce n’est pas invulnérable. Les entrées adverses sont créatives. Mais cela capture les évidents, et les évidents sont les plus courants.

Stratégie 2 : Limites de longueur des entrées

Les limites de longueur empêchent le gaspillage de jetons et les délais d’attente :

class InputValidator:
    def __init__(self, max_length: int = 10000):
        self.max_length = max_length

    def validate(self, prompt: str) -> tuple[bool, str]:
        if len(prompt) > self.max_length:
            return False, f"Entrée trop longue : {len(prompt)} > {self.max_length}"
        return True, "OK"

Stratégie 3 : Filtrage du contenu

Le filtrage de contenu bloque les violations de politique. Les motifs ici dépendent de votre domaine :

class ContentFilter:
    def __init__(self):
        self.blocked_topics = [
            "violence", "hate speech", "self-harm",
            "sexual content", "illegal activities",
        ]

    def filter(self, prompt: str) -> tuple[bool, str]:
        prompt_lower = prompt.lower()
        for topic in self.blocked_topics:
            if topic in prompt_lower:
                return False, f"Bloqué : {topic}"
        return True, "OK"

La correspondance de chaînes simple est rapide mais imprécise. Pour la production, utilisez un modèle classificateur — même un petit comme qwen3-1.7b — pour détecter les violations de politique. C’est plus précis et plus difficile à contourner.

Filtrage des sorties

La sortie du modèle doit également être vérifiée. Structure, contenu et faits.

Stratégie 1 : Validation de la réponse

Validez d’abord la structure. Si vous attendez du JSON, vérifiez le JSON :

class ResponseValidator:
    def __init__(self):
        self.required_fields = ["answer", "confidence"]

    def validate(self, response: dict) -> tuple[bool, str]:
        for field in self.required_fields:
            if field not in response:
                return False, f"Champ manquant : {field}"
        return True, "OK"

Stratégie 2 : Filtrage du contenu

Filtrez le contenu nuisible :

class OutputFilter:
    def __init__(self):
        self.blocked_patterns = [
            r"kill\s+someone",
            r"bomb\s+recipe",
            r"hate\s+speech",
            r"self-harm",
        ]

    def filter(self, response: str) -> tuple[bool, str]:
        for pattern in self.blocked_patterns:
            if re.search(pattern, response, re.IGNORECASE):
                return False, f"Bloqué : {pattern}"
        return True, "OK"

Stratégie 3 : Vérification des faits

La vérification des faits est plus difficile. Vous ne pouvez pas valider chaque affirmation, alors choisissez celles qui comptent :

class FactChecker:
    def __init__(self):
        self.known_facts = {
            "capital of france": "Paris",
            "population of usa": "330 million",
            "speed of light": "299,792,458 m/s",
        }

    def check(self, claim: str) -> tuple[bool, str]:
        claim_lower = claim.lower()
        for fact, truth in self.known_facts.items():
            if fact in claim_lower and truth not in claim_lower:
                return False, f"Vérification des faits échouée : {fact}"
        return True, "OK"

Pour une vérification des faits réelle, vous avez besoin d’un pipeline de récupération. Vérifiez les affirmations par rapport à une base de connaissances, pas un dictionnaire codé en dur.

Mécanismes de sécurité

Stratégie 1 : Limitation de débit

La limitation de débit empêche l’abus :

import time
from collections import deque

class RateLimiter:
    def __init__(self, max_requests: int = 10, window: int = 60):
        self.max_requests = max_requests
        self.window = window
        self.requests = deque()

    def allow(self) -> bool:
        now = time.time()
        while self.requests and self.requests[0] < now - self.window:
            self.requests.popleft()

        if len(self.requests) >= self.max_requests:
            return False

        self.requests.append(now)
        return True

Stratégie 2 : Budgétisation des jetons

La budgétisation des jetons plafonne les coûts par demande :

class TokenBudget:
    def __init__(self, max_tokens: int = 1000):
        self.max_tokens = max_tokens

    def validate(self, response: str) -> tuple[bool, str]:
        token_count = len(response.split())
        if token_count > self.max_tokens:
            return False, f"Limite de jetons dépassée : {token_count} > {self.max_tokens}"
        return True, "OK"

Stratégie 3 : Gestion de la fenêtre de contexte

La gestion de la fenêtre de contexte empêche le débordement :

class ContextManager:
    def __init__(self, max_context: int = 4096):
        self.max_context = max_context
        self.context = []

    def add(self, message: str):
        self.context.append(message)
        self.trim()

    def trim(self):
        while len(" ".join(self.context)) > self.max_context:
            self.context.pop(0)

Le recadrage par fenêtre glissante est simple mais perd le contexte initial. De meilleures approches utilisent la summarisation ou la compression basée sur l’attention, mais cela ajoute de la latence.

Conformité

Les systèmes d’entreprise ont besoin de garde-fous de conformité. Deux qui comptent le plus :

Motif 1 : Résidence des données

Résidence des données — assurez-vous que les données restent dans les limites géographiques requises :

class DataResidency:
    def __init__(self, allowed_regions: list[str]):
        self.allowed_regions = allowed_regions

    def validate(self, region: str) -> tuple[bool, str]:
        if region not in self.allowed_regions:
            return False, f"Région non autorisée : {region}"
        return True, "OK"

Motif 2 : Journalisation d’audit

Journalisation d’audit — journalisez toutes les interactions du modèle :

import json
from datetime import datetime

class AuditLogger:
    def __init__(self, log_file: str = "audit.log"):
        self.log_file = log_file

    def log(self, request: dict, response: dict):
        entry = {
            "timestamp": datetime.now().isoformat(),
            "request": request,
            "response": response,
        }
        with open(self.log_file, "a") as f:
            f.write(json.dumps(entry) + "\n")

Les journaux d’audit sont critiques pour le débogage et la conformité. Rendez-les structurés, en append-only (ajout uniquement), et stockés de manière sécurisée.

Tout assembler

Motif 1 : Garde-fous simples

Un pipeline de garde-fous simple :

class SimpleGuardrails:
    def __init__(self):
        self.input_validator = InputValidator(max_length=10000)
        self.output_filter = OutputFilter()

    def process(self, prompt: str) -> str:
        valid, message = self.input_validator.validate(prompt)
        if not valid:
            return f"Erreur : {message}"

        response = self.call_model(prompt)

        valid, message = self.output_filter.filter(response)
        if not valid:
            return f"Erreur : {message}"

        return response

Motif 2 : Garde-fous avancés

Les garde-fous avancés ajoutent la sanitisation, la limitation de débit et les budgets de jetons :

class AdvancedGuardrails:
    def __init__(self):
        self.sanitizer = PromptSanitizer()
        self.input_validator = InputValidator(max_length=10000)
        self.content_filter = ContentFilter()
        self.output_filter = OutputFilter()
        self.rate_limiter = RateLimiter(max_requests=10)
        self.token_budget = TokenBudget(max_tokens=1000)

    def process(self, prompt: str) -> str:
        prompt = self.sanitizer.sanitize(prompt)

        valid, message = self.input_validator.validate(prompt)
        if not valid:
            return f"Erreur : {message}"

        valid, message = self.content_filter.filter(prompt)
        if not valid:
            return f"Erreur : {message}"

        if not self.rate_limiter.allow():
            return "Erreur : Limite de débit dépassée"

        response = self.call_model(prompt)

        valid, message = self.output_filter.filter(response)
        if not valid:
            return f"Erreur : {message}"

        valid, message = self.token_budget.validate(response)
        if not valid:
            return f"Erreur : {message}"

        return response

Quand les garde-fous comptent

Les garde-fous comptent lorsque vous construisez des systèmes tournés vers l’utilisateur, gérez des données sensibles ou fonctionnez en production. Ils comptent aussi lorsque vous avez des exigences de conformité — RGPD, HIPAA, SOC 2.

Ils ne comptent pas lorsque vous prototyperez, utilisez des modèles uniquement pour des outils internes ou ne gérez pas de données sensibles. Sauter-les jusqu’à ce que vous en ayez besoin.

Le compromis est toujours capacité contre sécurité. Plus de garde-fous signifient moins d’échecs mais aussi moins de capacités. Trouvez l’équilibre qui fonctionne pour votre système.

Les garde-fous couvrent la conversation du modèle, mais ils s’arrêtent au point où un agent appelle un outil ou transfère le travail à un autre agent. Une fois que vous déployez des outils MCP ou des agents A2A, vous avez également besoin de sécurité de protocole — identité, autorisation étendue, limites de délégation et traçabilité d’audit pour savoir qui peut agir au nom de qui. Cette couche est couverte dans Sécurité des agents A2A et MCP : Identité, Délégation et Traçabilité.

Compromis

Stratégie	Sécurité	Capacité	Latence
Aucun garde-fou	La plus basse	La plus haute	La plus basse
Validation des entrées	Élevée	Moyenne	Faible
Filtrage des sorties	Élevée	Moyenne	Faible
Mécanismes de sécurité	La plus élevée	La plus basse	La plus élevée
Conformité	La plus élevée	La plus basse	La plus élevée

Liés

Stratégies de routage des modèles — routage basé sur les capacités, sensible aux coûts et à la latence
Optimisation des coûts pour les systèmes LLM — budgétisation des jetons, modèles de repli, mise en cache
Conception de systèmes multi-modèles — architecture pour plusieurs modèles
Architecture LLM — pilier de conception système : routage, coût, garde-fous et orchestration