Una taxonomía de ataques a agentes: 19 categorías, 268 reglas
El terreno de amenazas que mapeamos construyendo Aguara, y los modos de falla que se repiten en despliegues reales.
- –A los agentes se los ataca por inferencia, no solo por input. El modelo de amenazas clásico no aplica.
- –Los servidores MCP son la superficie más débil: cada servidor conectado es una decisión de confianza implícita.
- –En 268 reglas y 19 categorías, dominan tres modos de falla: permisos demasiado amplios, salida de herramienta sin validar e inyección de prompts.
La mayoría de los equipos que despliegan agentes hoy heredaron un modelo de amenazas pensado para software que hace lo que se le dice. Los agentes no hacen lo que se les dice. Hacen lo que infieren. Esa brecha es todo el problema.
Por qué MCP cambia la superficie
El Model Context Protocol conecta a los agentes con herramientas, archivos y otros sistemas. Es lo más útil que le pasó a los agentes en años, y también el lugar donde más daño se puede hacer. Cada servidor en el que un agente confía es un nuevo punto de entrada, y la mayoría se confían de forma implícita.
Un agente es tan seguro como el servidor menos revisado al que se le permite llamar.
Qué medimos
A lo largo de 268 reglas en 19 categorías, se repiten los mismos modos de falla: permisos demasiado amplios, salidas de herramientas sin validar y rutas de inyección de prompts que convierten a un agente útil en un diputado confundido. Monitoreamos más de 58.000 skills en los principales registries para ver qué tan extendidos están estos patrones.
$ aguara scan ./agent
▸ 19 categorías · 268 reglas
✗ 3 altas · alcance MCP demasiado amplio
✗ 7 medias · salida de herramienta sin validar
✓ 258 ok
Cómo pensarlo
Tratá cada capacidad externa como no confiable hasta que se demuestre lo contrario. Aplicá políticas en runtime, no solo en la revisión. Y medí de forma continua. El ecosistema cambia más rápido que cualquier ciclo de auditoría.