Seguridad en agentes de IA: evalúa el riesgo antes de producción

El riesgo invisible de los agentes de IA: cómo evaluar un workflow antes de que cause daño

Hay una diferencia enorme entre un chatbot que responde preguntas frecuentes y un agente de IA que lee tus correos, consulta tu base de datos de clientes, genera respuestas y las envía automáticamente. El primero es una herramienta de consulta. El segundo es un actor con acceso real a sistemas críticos de tu negocio.

El problema es que muchos equipos de tecnología en Perú y Latinoamérica están dando ese salto sin un proceso claro para evaluar el riesgo. Se implementa el agente, se prueba que funcione, y se despliega. La pregunta de seguridad queda para después. Y "después" a veces llega en forma de incidente.

Un artículo publicado en Dev.to el 5 de junio de 2026 documenta la construcción de AgentGuardian, un escáner de seguridad local para workflows de agentes de IA. Lo interesante no es solo la herramienta en sí, sino el marco de pensamiento que propone: antes de desplegar cualquier agente, deberías poder responder un conjunto concreto de preguntas sobre su perfil de riesgo.

¿Por qué un agente de IA puede ser peligroso sin que nadie lo note?

Un agente de IA moderno no opera en el vacío. Se conecta a herramientas: email, archivos, bases de datos, CRMs, sistemas de tickets, calendarios, pasarelas de pago, navegadores web. Cada conexión amplía su capacidad de hacer cosas útiles. Y cada conexión también amplía su superficie de ataque.

Según el enfoque de AgentGuardian, el riesgo no viene de una sola característica aislada. Una herramienta no es riesgosa por sí sola. Un tipo de dato tampoco. La autonomía tampoco. El riesgo aparece cuando se combinan factores: entrada externa no confiable + datos sensibles + herramientas de alto impacto + ejecución automática sin aprobación humana. Esa combinación específica es la que convierte un workflow útil en un vector de ataque potencial.

El ejemplo más ilustrativo del artículo es un agente de pagos: lee facturas entrantes por email, verifica proveedores en la base de datos, y aprueba automáticamente pagos menores a $5,000 dólares sin intervención humana. Técnicamente funciona. Desde el punto de vista de seguridad, es un escenario crítico. Un email malicioso con una factura manipulada podría, en teoría, activar un pago no autorizado. Eso no es un problema hipotético. Es prompt injection aplicado a finanzas.

La arquitectura de AgentGuardian: por qué el LLM explica pero no decide

Una de las decisiones de diseño más interesantes de AgentGuardian es la separación entre el motor de scoring y el modelo de lenguaje. El puntaje de riesgo lo calcula un motor determinístico basado en reglas Python. El LLM local (ejecutado con Ollama, sin APIs externas) solo genera el resumen explicativo en lenguaje natural.

Esto es importante por una razón práctica: si le preguntas a un modelo de lenguaje "¿qué tan riesgoso es este agente?", la respuesta puede variar en cada ejecución. Para una herramienta de seguridad, esa variabilidad es inaceptable. Las reglas determinísticas, en cambio, producen resultados consistentes y auditables. El equipo puede revisar exactamente qué condición disparó cada punto de riesgo.

El sistema evalúa cinco categorías de riesgo principales: inyección de prompts (cuando el agente recibe inputs externos como emails o archivos subidos por usuarios), uso indebido de herramientas (acceso a sistemas de pago, código ejecutable, bases de datos), exposición de datos sensibles (información financiera, credenciales, registros de clientes), autonomía excesiva (capacidad de ejecutar acciones sin confirmación), y falta de supervisión humana (ausencia de flujos de aprobación). La suma de estos factores produce un puntaje de 0 a 100 y un nivel: Bajo, Medio, Alto o Crítico.

El resultado final incluye una tabla de riesgos detectados, controles recomendados, el análisis generado por el LLM local, y un reporte descargable en Markdown. Todo corre localmente, sin enviar datos a APIs externas, lo cual es especialmente relevante cuando el workflow que estás evaluando contiene lógica de negocio confidencial.

¿Cómo aplica esto en empresas peruanas y latinoamericanas?

En Perú y Latinoamérica, la adopción de agentes de IA en empresas medianas está acelerando. Hemos visto implementaciones en áreas de atención al cliente, cobranzas, soporte técnico y administración de pedidos. En muchos casos, estos agentes se conectan directamente a sistemas ERP como Odoo, a plataformas de email corporativo, y a bases de datos con información de clientes.

El problema es que el proceso de evaluación de riesgo suele ser informal o inexistente. Se prueba que el agente responda bien, se verifica que no genere errores obvios, y se lanza. No existe un checklist estructurado que evalúe qué pasa si alguien envía un input malicioso, qué datos puede filtrar el agente, o qué acciones puede tomar de forma autónoma.

El marco propuesto por AgentGuardian es aplicable directamente a este contexto. Antes de desplegar cualquier agente en producción, el equipo debería poder responder: ¿qué herramientas tiene habilitadas?, ¿qué tipos de datos maneja?, ¿recibe inputs de fuentes externas no confiables?, ¿puede ejecutar acciones automáticamente?, ¿existe un flujo de aprobación humana para decisiones de alto impacto? Si no hay respuestas claras a esas preguntas, el agente no está listo para producción.

¿Cómo aplica esto en tu empresa?

Si ya tienes agentes de IA en operación, o estás evaluando implementarlos, estos son los pasos concretos que recomendamos:

Documenta el perfil del agente: nombre, propósito, herramientas conectadas, tipos de datos que maneja, fuentes de input externo y nivel de autonomía. Si no puedes documentarlo, no deberías desplegarlo.
Aplica el modelo de combinación de riesgos: identifica si tu agente tiene la combinación peligrosa: input externo + datos sensibles + herramientas críticas + ejecución automática. Si los cuatro factores están presentes, necesitas controles adicionales antes de lanzar.
Implementa aprobación humana en acciones de alto impacto: cualquier agente que pueda enviar emails masivos, modificar registros financieros, o ejecutar transacciones debería requerir confirmación humana explícita, al menos en una primera fase.
Valida los inputs antes de procesarlos: si tu agente recibe archivos, emails o mensajes de usuarios externos, implementa una capa de validación y sanitización antes de que esa información llegue al modelo.
Registra todo: logging completo de acciones, inputs y outputs del agente. Ante un incidente, necesitarás saber exactamente qué procesó el agente y qué decisión tomó.

Herramientas como n8n permiten construir estos flujos de aprobación y logging de forma visual, sin necesidad de código complejo. Y si tu empresa ya usa Odoo, muchos de estos controles pueden integrarse directamente en los flujos de trabajo del ERP.

Conclusión

Los agentes de IA son una de las tecnologías más poderosas disponibles hoy para automatizar procesos empresariales. Pero poder ejecutar acciones autónomamente en nombre de tu empresa implica una responsabilidad que muchos equipos todavía no están tomando en serio.

El enfoque de AgentGuardian demuestra que no se necesita un departamento de ciberseguridad de Fortune 500 para hacer una evaluación estructurada de riesgos. Se necesita un proceso claro, preguntas correctas, y la disciplina de responderlas antes de darle autonomía a un sistema de IA.

En Consultoría-Ti ayudamos a empresas peruanas y latinoamericanas a diseñar e implementar agentes de IA con criterios claros de seguridad, trazabilidad y control. Si estás evaluando automatizar procesos críticos con IA, conversemos antes de que el agente llegue a producción.

¿Quieres evaluar el perfil de riesgo de tus workflows de IA actuales o futuros? Escríbenos y agendamos una sesión de revisión.

Fuentes y Referencias

Dev.to — Building AgentGuardian: A Local-First Security Scanner for Agentic AI Workflows

✨ Contenido generado con ContentFlow — Consultoría-Ti

en Inteligencia Artificial

Nuestros blogs

Codex para Windows: Computer Use y acceso móvil