¿Cuál es la diferencia entre los guardrails de los LLM y la seguridad de los agentes A2A MCP?

Los guardrails de los LLM filtran las entradas y salidas del modelo para detectar violaciones de seguridad y de políticas. Los controles de seguridad del protocolo de agentes determinan quién puede invocar herramientas, delegar tareas y actuar en nombre de otros a través de los límites de MCP y A2A, mediante identidad, autorización y registros de auditoría.

¿Cómo debería funcionar la identidad del agente en una implementación A2A?

Separe la identidad humana, la identidad del servicio del agente y el contexto de la tarea. Las Agent Cards anuncian capacidades y esquemas de autenticación soportados, pero no constituyen una prueba de confianza. Valide las credenciales en cada solicitud y emita tokens con alcance limitado, en lugar de tratar los metadatos de descubrimiento como autorización.

¿Necesita una pasarela A2A en producción?

Los despliegues pequeños de un solo equipo pueden aplicar políticas dentro de cada agente, pero las redes de agentes multiinquilino, multivendedor o orientadas a socios suelen necesitar una puerta de enlace para la autenticación centralizada, enrutamiento, límites de tasa y auditoría. El umbral se cruza cuando más de un equipo posee agentes que se comunican entre sí.

¿Qué debe contener un registro de auditoría de MCP A2A?

Registre el ID de usuario, ID de agente, ID de tarea e ID de tarea principal para las cadenas de delegación, las llamadas a herramientas, las decisiones de política, los artefactos generados y las marcas de tiempo en las capas de gateway, agente y servidor MCP. Correlacione los registros con los IDs de traza para que una respuesta final pueda reconstruirse de extremo a extremo.

Seguridad de los agentes A2A y MCP: identidad, delegación y registros de auditoría

Q: ¿Qué es el problema del delegado confundido en sistemas multiagente?

Un “delegado confundido” es un agente o servidor de herramientas con privilegios que ejecuta una acción sensible porque un llamante con menos privilegios lo engañó para que utilizara su autoridad. Las cadenas de delegación y las llamadas a herramientas de MCP requieren comprobaciones explícitas de ámbito para que los componentes descendentes nunca actúen más allá de la intención original del usuario.

La seguridad del protocolo determina quién puede actuar, no el modelo.

Índice

La inyección de prompts recibe la mayor parte de la atención en materia de seguridad en los sistemas de LLM, y merece esa atención, pero no es el único problema una vez que los agentes comienzan a invocar herramientas y delegar trabajo a otros agentes.

MCP otorga a un agente acceso estructurado a archivos, APIs, bases de datos y sistemas de tickets. A2A permite que un agente envíe tareas, mensajes y artefactos a otro agente que puede pertenecer a un equipo, proveedor o entorno de ejecución diferente. Estos protocolos son útiles precisamente porque cruzan límites de confianza, lo que significa que la identidad, la autorización, los límites de delegación y las trazas de auditoría se convierten en arquitectura de primer nivel en lugar de endurecimiento opcional.

Arquitectura de seguridad de agentes A2A y MCP con capas de identidad, puerta de enlace y auditoría

Este artículo es la guía canónica sobre seguridad de protocolos de agentes en el clúster de Arquitectura de LLM. Cubre modelos de amenazas, identidad, puertas de enlace, registros, delegación y listas de verificación para producción. Para validación de entrada, filtrado de salida y patrones de seguridad de prompts, consulte Salvaguardas de LLM en la Práctica.

Salvaguardas vs. Seguridad de Protocolo vs. Política de Ejecución

Estas tres capas resuelven problemas diferentes y fallan de distintas maneras cuando se confunden.

Las salvaguardas de LLM operan sobre la entrada y salida del modelo: bloqueando patrones de inyección, filtrando contenido dañino, validando la estructura JSON y aplicando reglas de tono o cumplimiento en el texto generado. Protegen la capa de conversación.

La seguridad de protocolo opera en los límites del agente: quién puede invocar qué herramienta MCP, qué agente puede delegar a qué par, qué ámbitos de OAuth se adjuntan a una tarea y si un agente aguas abajo puede actuar en nombre de un usuario. Protege la capa de acción.

La política de ejecución se sitúa entre ambas: un motor de políticas que evalúa las solicitudes contra reglas independientemente de si el desencadenante fue lenguaje natural o una llamada de protocolo estructurada. Puede requerir aprobación humana antes de que se ejecute una herramienta, bloquear la salida a dominios desconocidos o denegar la delegación cuando el ámbito excede al del usuario original.

Mi opinión es contundente: las salvaguardas sin seguridad de protocolo producen chatbots educados que aún así exfiltran datos a través de una llamada a herramienta. La seguridad de protocolo sin salvaguardas produce agentes bien autenticados que aún así siguen instrucciones maliciosas incrustadas en un artefacto. Necesita ambos, más política de ejecución para acciones de alto riesgo.

Modelo de Amenazas para Sistemas de Agentes A2A y MCP

Comience con los activos y los adversarios, no con una lista de compras de controles.

Activos dignos de protección: datos de usuario en prompts y artefactos, credenciales para servidores MCP, sistemas de producción accesibles a través de herramientas, reputación del agente, cuentas de facturación vinculadas al uso de tokens e integridad de la auditoría.

Adversarios realistas: usuarios externos que abusan de los puntos finales públicos de los agentes, servidores MCP comprometidos que devuelven resultados de herramientas envenenados, agentes maliciosos que falsifican habilidades en las Tarjetas de Agente, insiders que delegan autoridad en exceso y manipulación de la cadena de suministro con metadatos de herramientas que manipulan el comportamiento del modelo.

Herramientas maliciosas o comprometidas (MCP)

Un servidor MCP es código más datos expuestos al modelo. Un servidor hostil puede devolver descripciones de herramientas engañosas, exfiltrar argumentos pasados por el modelo o realizar acciones más allá de lo que el usuario pretendió cuando el host ejecuta llamadas de herramientas sin credenciales con ámbito definido.

Agentes maliciosos o suplantados (A2A)

Un agente que acepta tareas puede ser malicioso, comprometido o simplemente con permisos excesivos. Las Tarjetas de Agente describen capacidades; no prueban la identidad a menos que verifique firmas, TLS y confianza del emisor.

Delegado confundido

El Agente B tiene permiso para acceder a una API de finanzas. El Agente A, con privilegios más bajos, le pide a B que “resuma esta factura” mientras se cuela una instrucción de transferencia en un artefacto. B ejecuta usando sus propias credenciales a menos que se aplique el ámbito de delegación de extremo a extremo.

Permisos excesivamente amplios y cadenas de delegación ocultas

El usuario aprueba un paso. El orquestador encadena silenciosamente tres saltos A2A y cinco llamadas MCP. El usuario nunca ve el gráfico completo, pero la organización sigue siendo responsable del resultado.

Inyección de prompt a través de artefactos y mensajes entre agentes

La inyección no es solo un problema de mensajes de usuario. Un artefacto PDF, una página web obtenida por una herramienta o un mensaje del Agente C puede携带 instrucciones dirigidas al modelo del Agente D. Trate todo el contenido transportado por el protocolo como entrada no confiable en el límite del modelo.

Tarjetas de Agente envenenadas o engañosas

Las descripciones y los nombres de habilidades son superficie de prompt. Una tarjeta que anuncia safe_read_only_analysis (análisis seguro de solo lectura) mientras acepta backends con capacidad de escritura es una capa de ingeniería social, no una garantía técnica.

Modelo de Identidad para Sistemas Multi-Agente

La seguridad del protocolo comienza con tipos de identidad claros y lo que cada uno está permitido probar.

Tipo de identidad	Lo que representa	Prueba típica
Usuario humano	Usuario final u operador que inició el trabajo	Sesión OIDC, token SSO
Servicio de agente	Entorno de ejecución del agente desplegado (orquestador, especialista)	Credenciales de cliente OAuth, certificado mTLS
Servidor MCP	Proceso proveedor de herramientas	Clave API, mTLS, cuenta de servicio con ámbito
Tarea / sesión	Unidad de trabajo que abarca saltos	ID de tarea, ID de traza, token de ámbito delegado

La Tarjeta de Agente de A2A anuncia los esquemas de autenticación compatibles (OAuth 2.0, claves API, mTLS y patrones similares alineados con la práctica de OpenAPI) y las habilidades con requisitos de seguridad opcionales. La tarjeta es metadatos de descubrimiento, no un ancla de confianza. Los clientes obtienen credenciales fuera de banda y las envían en encabezados HTTP estándar en cada solicitud; los servidores deben validar en cada llamada y devolver 401 o 403 cuando falla la autenticación o el ámbito.

Vistas internas vs. externas del mismo agente

Los agentes de producción a menudo publican una Tarjeta de Agente pública con una lista limitada de habilidades y una tarjeta autenticada más rica para llamadores internos. La especificación A2A permite tarjetas extendidas para clientes autenticados. Use esa división deliberadamente: los socios no deben ver habilidades internas, y los orquestadores internos no deben confiar únicamente en el descubrimiento público para la autorización.

Autenticación y Autorización para MCP y A2A

La autenticación responde a quién está llamando. La autorización responde a qué pueden hacer.

Acceso a herramientas MCP

Para cada conexión MCP, defina:

qué host de agente puede conectarse
qué herramientas están habilitadas para ese host
qué usuario del sistema operativo o cuenta de servicio ejecuta efectos secundarios
si el usuario humano debe aprobar cada llamada mutante

Prefiera las listas de permitidos de herramientas sobre las configuraciones MCP de “conectar todo”. Un agente de codificación no necesita servidores MCP de nómina en el mismo perfil que un bot de soporte público.

Acceso de agente A2A

Para cada relación de pares de agentes, defina:

qué IDs de agente llamante pueden invocar qué habilidades
profundidad máxima de delegación
qué tipos de artefactos pueden cruzar el límite
si el contexto del usuario debe propagarse como afirmaciones firmadas

Mappe los ámbitos de OAuth (o equivalentes) a habilidades, no a la administración general del agente. El privilegio mínimo en la capa de token supera a la esperanza en la capa de prompt.

Política aplicada por puerta de enlace vs. política por agente

La política por agente funciona cuando un equipo posee todo el gráfico y las liberaciones están coordinadas. La política aplicada por puerta de enlace funciona cuando múltiples equipos, inquilinos o proveedores comparten una red de agentes y necesita un lugar para aplicar listas de permitidos, límites de tasa y auditoría.

flowchart LR U[Usuario / cliente] --> G[puerta de enlace A2A] G --> O[agente orquestador] O -->|token A2A con ámbito| S1[agente especialista] O -->|token A2A con ámbito| S2[agente especialista] S1 --> MG[puerta de enlace MCP] S2 --> MG MG --> T1[servidores de herramientas MCP] MG --> T2[servidores de herramientas MCP] G --> A[registro de auditoría] MG --> A S1 --> A S2 --> A

Puerta de Enlace A2A como Plano de Control

Una puerta de enlace A2A no es estrictamente requerida por el protocolo, pero se vuelve necesaria cuando el tráfico de agentes necesita gobernanza centralizada.

Una puerta de enlace típicamente maneja:

terminación de autenticación e intercambio de tokens
enrutamiento al servicio de agente correcto por habilidad o inquilino
verificaciones de política antes de que las tareas sean aceptadas o reenviadas
negociación de versión de protocolo
limitación de tasa y detección de abuso
emisión estructurada de auditoría en cada transición de tarea

Cuando una puerta de enlace es excesiva vs. necesaria

Una puerta de enlace a menudo es excesiva para un solo orquestador y dos agentes especialistas en un espacio de nombres de Kubernetes mantenido por un solo equipo. Se vuelve necesaria cuando los socios invocan sus agentes, cuando múltiples unidades de negocio comparten infraestructura, cuando el cumplimiento requiere registro uniforme o cuando no puede confiar en que cada implementación de agente aplique la política correctamente.

Combine una puerta de enlace A2A con una puerta de enlace MCP (o proxy MCP) para que el acceso a las herramientas reciba el mismo tratamiento: identidad, listas de permitidos, controles de salida y auditoría en el límite de la herramienta en lugar de solo en la UI de chat.

Tarjetas de Agente para socios vs. internas

Publique metadatos de descubrimiento diferentes para llamadores externos e internos. Las tarjetas externas exponen habilidades estrechas y autenticación más estricta. Las tarjetas internas pueden listar habilidades de mantenimiento o administración, pero nunca deben ser accesibles sin una autenticación más fuerte que la que implica la tarjeta pública.

Registro y Seguridad de Descubrimiento de Agentes

El descubrimiento es parte de la superficie de ataque. Cualquier persona que controle qué agentes aparecen “disponibles” controla a dónde envían los orquestadores el trabajo.

Registro vs. URL de Tarjeta de Agente bien conocida

Los despliegues pequeños usan URL bien conocidas por agente (/.well-known/agent-card.json). Los despliegues empresariales agregan un registro que indexa IDs de agente, versiones, puntos finales, propietarios y etiquetas de política. El registro es un objeto de política: las entradas deberían registrar qué inquilinos pueden descubrir qué agentes, no solo dónde viven.

Versionado, obsolescencia y propiedad

Los registros del registro necesitan propietarios, historial de cambios y fechas de obsolescencia. Un orquestador que almacena en caché Tarjetas de Agente debe actualizar según el TTL y verificar firmas donde se soporten. Las tarjetas obsoletas son cómo las habilidades retiradas siguen recibiendo tráfico mucho después de que se parchea una vulnerabilidad.

Redes internas empresariales vs. socios externos

Los mallas de agentes internos pueden confiar en mTLS y DNS privado. Los agentes de socios necesitan reglas de federación explícitas, habilidades con ámbito contractual y una inspección de artefactos más fuerte porque no controla su entorno de ejecución.

Delegación a Través de los Límites de los Agentes

La delegación es donde se gana o se pierde la seguridad de A2A. Cuando el Agente A envía una tarea al Agente B, tres preguntas deben tener respuestas claras:

¿De quién se está ejerciendo la autoridad? ¿Del usuario, de la cuenta de servicio de A, o de un token delegado combinado?
¿Qué se le permite hacer a B con esa autoridad? Análisis de solo lectura, o herramientas mutantes en nombre de A?
¿Quién es responsable si B excede el ámbito? A, B, la política de la puerta de enlace, o el humano que aprobó un prompt poco claro?

Propagación de la intención del usuario vs. sobre-delegación

Pase afirmaciones de delegación firmadas que incluyan ID de usuario, ID de tarea original, habilidades permitidas, expiración y conteo máximo de saltos. Los agentes aguas abajo deben rechazar tareas que expandan el ámbito silenciosamente. Si B necesita mayor privilegio que el que tenía A, transicione a input_required (entrada requerida) y obtenga aprobación humana explícita en lugar de actualizar tokens de forma invisible.

Los flujos de aprobación humana en el bucle para delegación riesgosa se cubren en Transmisión A2A y Tareas Asíncronas para Flujos de Trabajo de Agentes de Larga Duración, donde input_required es un estado de tarea de primer nivel en lugar de un error.

sequenceDiagram participant User participant Orch as Agente orquestador participant GW as Puerta de enlace A2A participant Spec as Agente especialista participant MCP as Servidor de herramientas MCP User->>Orch: Solicitud con token de usuario Orch->>GW: Delegar tarea (token de delegación con ámbito) GW->>GW: Verificar política de ámbito + conteo de saltos GW->>Spec: Reenviar tarea (token de ámbito reducido) Spec->>MCP: Llamada a herramienta (credencial con ámbito de herramienta) MCP->>MCP: Aplicar lista de permitidos + contexto de usuario Spec-->>GW: Artefacto + eventos de auditoría GW-->>Orch: Actualización de tarea Orch-->>User: Respuesta final

Separar el razonamiento de los permisos de ejecución

Un agente puede necesitar acceso de lectura amplio para planificar mientras las herramientas de escritura se encuentran detrás de una aprobación. Divida las credenciales o use perfiles MCP distintos para planificación vs. ejecución para que un error del modelo no pueda mutar la producción inmediatamente.

Trazas de Auditoría y Proveniencia de Respuestas

Si no puede reconstruir una cadena de delegación, no puede explicar un incidente, pasar una auditoría o disputar una anomalía de facturación.

Registre en tres capas:

Puerta de enlace: resultado de autenticación, decisión de política, ID de agente enrutado, ID de tarea, ID de tarea principal, eventos de límite de tasa.

Agente: transiciones de estado de tarea, mensajes enviados/recibidos, invocaciones de modelo/herramienta (argumentos redactados según sea necesario), artefactos creados, delegación hacia afuera.

Servidor MCP: nombre de la herramienta, ID del agente llamante, contexto de usuario, éxito/fracaso, latencia, filas afectadas o IDs de recursos (según la política).

Correlacione con el ID de traza en todas las capas. Observabilidad para Sistemas de LLM cubre backends de instrumentación; este artículo define qué debe capturarse para que esos backends tengan una señal significativa.

La proveniencia de la respuesta final debe responder: qué usuario, qué tarea del orquestador, qué agentes especialistas, qué herramientas, qué artefactos influyeron en el texto que vio el usuario y qué puertas de política se activaron en el camino.

Política de Ejución, Salida y Secretos

Los motores de política de ejecución (OPA, Cedar, servicios de reglas personalizados) evalúan eventos estructurados: “herramienta X con argumentos Y para usuario Z”. Complementan las salvaguardas porque no dependen de que el modelo se comporte bien.

La aprobación humana pertenece en la política de ejecución para acciones irreversibles o de alto costo: pagos, correo electrónico externo, cambios de configuración de producción, concesiones de privilegios.

Los controles de salida limitan a qué dominios pueden llamar los servidores MCP y los agentes. Un agente que puede tanto leer secretos como POST a URLs arbitrarias es una pérdida de datos esperando suceder.

Los secretos nunca deben estar en Tarjetas de Agente o prompts. Los hosts MCP deben inyectar credenciales de corta vida en el momento de la ejecución desde un gestor de secretos. Para cifrado de transporte, gestión de claves y patrones de seguridad de infraestructura básica, consulte Patrones Arquitectónicos para Asegurar Datos.

Los webhooks de notificación push en flujos A2A asíncronos necesitan el mismo rigor: verificar la identidad del remitente, rechazar eventos obsoletos y nunca tratar la carga útil de un webhook como autorización por sí sola.

Arquitectura de Seguridad de Referencia

El siguiente diagrama resume un diseño orientado a la producción para despliegues a escala de A2A fuera, MCP dentro.

flowchart TB subgraph Capa de cliente U[Usuario / cliente API] end subgraph Plano de control GW[puerta de enlace A2A] REG[registro de agentes] POL[motor de política] AUD[registro de auditoría] SEC[gestor de secretos] end subgraph Capa de agente OR[Orquestador] SA[Agentes especialistas] end subgraph Capa de herramientas MG[puerta de enlace MCP] MCP[servidores MCP] end subgraph Observabilidad OBS[Trazabilidad + métricas] end U --> GW GW --> REG GW --> POL GW --> OR OR --> GW GW --> SA SA --> MG MG --> MCP POL --> GW POL --> MG SEC --> SA SEC --> MCP GW --> AUD MG --> AUD SA --> AUD AUD --> OBS

El orquestador ve agentes especialistas a través de A2A. Los especialistas ven herramientas a través de MCP. Los usuarios nunca reciben credenciales MCP sin procesar, y los socios nunca reciben superficies de habilidades internas sin revisión de política.

Para conceptos de protocolo (Tarjetas de Agente, tareas, artefactos), consulte ¿Qué es el Protocolo A2A?. Para adopción y marco empresarial, consulte Protocolo A2A de Google en 2026. Para topología cuando muchos agentes se coordinan, consulte Patrones de Orquestación Multi-Agente.

Lista de Verificación de Producción para Seguridad de A2A y MCP

Antes de exponer protocolos de agentes más allá de un sandbox de confianza, verifique:

Identidad y autenticación

No hay agentes anónimos en rutas de producción
Cada llamada MCP y A2A autenticada en cada solicitud
Ámbitos de OAuth o equivalentes mapeados a habilidades/herramientas, no a administración general
Vistas de Tarjeta de Agente pública vs. autenticada definidas intencionalmente

Delegación y política

Los tokens de delegación llevan ID de usuario, ID de tarea, ámbito, expiración, límite de saltos
Los agentes aguas abajo rechazan la expansión de ámbito sin aprobación explícita
Las herramientas de alto riesgo requieren política de ejecución o aprobación humana
El razonamiento y la ejecución usan credenciales separadas cuando sea posible

Descubrimiento y registro

Las entradas del registro de agentes tienen propietarios e historial de versiones
Tarjetas de Agente actualizadas según TTL; firmas verificadas donde se soporten
Agentes de socios federados con listas de permitidos de habilidades explícitas

Auditoría y observabilidad

Las capas de puerta de enlace, agente y MCP emiten eventos de auditoría correlacionados
Cadenas de delegación registradas con IDs de tarea padre e hija
Proveniencia de artefactos registrada para respuestas finales
IDs de traza conectados a backends de observabilidad

Abuso y resiliencia

Límites de tasa por usuario, agente e inquilino
Políticas de tiempo de espera en tareas delegadas
Listas de permitidos de salida en servidores de herramientas
Secretos en un gestor, no en tarjetas, prompts o repositorios

Conclusión

La interoperabilidad de A2A y MCP es poderosa porque los agentes y herramientas pueden componerse a través de límites de equipos y proveedores, pero ese poder es inseguro sin diseño de identidad, autorización, límites de delegación y auditoría. Las salvaguardas protegen la conversación del modelo; la seguridad del protocolo protege las acciones que los agentes toman en nombre de los usuarios.

Trate las Tarjetas de Agente como anuncios, la delegación como un contrato firmado, las herramientas MCP como ejecución de código privilegiado y los registros de auditoría como la cadena de evidencia que necesitará cuando ocurra algo interesante a las 2 a. m.

Construya la puerta de enlace cuando la gobernanza necesite un solo punto de control. Divida las credenciales antes de dividir los agentes. Registre cada salto para que la respuesta “el modelo decidió” nunca sea el informe de incidente final.

Preguntas Frecuentes

¿Cuál es la diferencia entre las salvaguardas de LLM y la seguridad de agentes A2A MCP? Las salvaguardas restringen la entrada y salida del modelo. La seguridad del protocolo restringe quién puede invocar herramientas, delegar tareas y actuar en nombre de quién a través de MCP y A2A con identidad, autorización y trazas de auditoría.

¿Cómo debería funcionar la identidad del agente en un despliegue A2A? Separe las identidades humana, de servicio de agente y de tarea. Valide credenciales en cada solicitud, use tokens con ámbito y trate las Tarjetas de Agente como metadatos de descubrimiento en lugar de prueba de confianza.

¿Qué es el problema del delegado confundido en sistemas multi-agente? Ocurre cuando un agente o herramienta privilegiado realiza una acción sensible porque un llamante con menos privilegios se coló instrucciones a través de delegación o artefactos. Aplique el ámbito en cada salto.

¿Necesita una puerta de enlace A2A en producción? Los despliegues internos de un solo equipo pueden aplicar política por agente. Las redes multi-inquilino, multi-proveedor o orientadas a socios generalmente necesitan una puerta de enlace para autenticación centralizada, enrutamiento, límites de tasa y auditoría.

¿Qué debe contener un registro de auditoría A2A MCP? ID de usuario, ID de agente, ID de tarea, ID de tarea principal, llamadas a herramientas, decisiones de política, artefactos y marcas de tiempo correlacionadas con IDs de traza a través de las capas de puerta de enlace, agente y MCP.

Fuentes

Protocolo A2A – Temas de seguridad listos para empresa: https://github.com/a2aproject/A2A/blob/main/docs/topics/enterprise-ready.md
Protocolo A2A – Resumen de especificación: https://a2a-protocol.org/latest/specification/
Protocolo A2A – Seguridad de transmisión y notificación push: https://a2a-protocol.org/latest/topics/streaming-and-async/