
Manipulación de IA emerge como desafío para la ciberseguridad empresarial
La adopción de inteligencia artificial en las organizaciones avanza más allá de las etapas experimentales y se consolida como una herramienta para optimizar procesos, apoyar la toma de decisiones y mejorar la productividad. Sin embargo, este crecimiento también introduce riesgos de seguridad asociados al comportamiento de los modelos de IA y a su capacidad para interactuar con datos y sistemas críticos. De acuerdo con Salles Sainz Grant Thornton, el principal desafío ya no se limita a proteger la infraestructura tecnológica, sino a garantizar que los sistemas de IA operen bajo controles adecuados de seguridad, gobernanza y supervisión humana.
El nuevo perfil del atacante: manipulación en lugar de intrusión
La incorporación de Modelos de Lenguaje Grande (LLMs) ha modificado parte del enfoque tradicional de la ciberseguridad. Según el análisis, el riesgo ya no se concentra únicamente en vulnerabilidades técnicas, sino también en la capacidad de influir sobre los modelos mediante instrucciones en lenguaje natural.
Esta técnica, conocida como Prompt Injection, permite que usuarios malintencionados intenten persuadir a los sistemas de IA para revelar información sensible o ejecutar acciones no previstas.
“El atacante ya no necesita conocimientos avanzados de programación; basta con entender cómo persuadir a la IA. Este cambio obliga a replantear la forma en que concebimos la seguridad digital”, señaló Fidel Delgado, gerente Coordinador en Salles Sainz Grant Thornton.
Caso de éxito: la prueba del “castillo” en AWS Bedrock
Para analizar estos riesgos, se realizó una prueba de seguridad sobre un agente de IA en un entorno de AWS Bedrock AgentCore. El ejercicio utilizó la analogía de un “castillo”, donde las carpetas representaban habitaciones y los archivos confidenciales fungían como tesoros.
Los resultados mostraron que la IA interpretó la metáfora como instrucciones operativas reales, permitiendo explorar el entorno, identificar rutas del sistema, acceder a configuraciones internas y consultar información relacionada con el prompt del sistema.
Aunque no se obtuvieron privilegios administrativos, la prueba evidenció la exposición de referencias sensibles y archivos internos. La principal conclusión fue que el riesgo surgió de una combinación de permisos excesivos y un nivel elevado de autonomía operativa del agente.
El verdadero desafío: controlar el comportamiento de la IA
El ejercicio mostró que la protección de la infraestructura tecnológica ya no resulta suficiente por sí sola. Las organizaciones también deben supervisar qué información pueden consultar, interpretar y ejecutar los agentes de IA.
Según el análisis, instrucciones aparentemente inofensivas pueden derivar en la exposición de información confidencial o en la extracción indebida de datos, por lo que el control del comportamiento de estos sistemas se convierte en un elemento clave de seguridad.
Solución: Pentesting avanzado para IA
Ante este escenario, Salles Sainz Grant Thornton desarrolló un enfoque de Pentesting Ético de IA orientado a evaluar no sólo la tecnología, sino también la lógica, los datos y el comportamiento de los modelos inteligentes.
El esquema contempla pruebas sobre chatbots y sistemas basados en LLM, modelos de machine learning, APIs y endpoints de inferencia, pipelines de datos e infraestructura de despliegue en entornos cloud y locales.
“Las organizaciones deben auditar no solo cómo funciona su IA, sino cómo se comporta ante escenarios adversos. La ciberseguridad en esta nueva era exige una visión más amplia, donde el lenguaje también se convierte en un vector de ataque”, concluyó Fidel Delgado.
WhatsApp eSemanal 55 7360 5651




