Así ha sido el fallo de Deep Research en ChatGPT

Radware detectó una vulnerabilidad en Deep Research de ChatGPT que podía exfiltrar datos de cuentas de Gmail.
El ataque usaba inyección de prompt indirecta con instrucciones HTML ocultas y operaba desde la infraestructura de OpenAI.
OpenAI ya mitigó el fallo; no hay evidencias públicas de explotación real.
Se recomienda revisar y revocar permisos en Google y limitar el acceso de agentes de IA a correos y documentos.

Una investigación reciente ha destapado un agujero de seguridad en el agente Deep Research de ChatGPT que, bajo ciertas condiciones, podía facilitar la salida de información de correos alojados en Gmail. El hallazgo pone el foco en los riesgos de conectar asistentes de IA a bandejas de entrada y otros servicios con datos sensibles.

La firma de ciberseguridad Radware notificó el problema a OpenAI y el proveedor lo mitigó a finales del verano, antes de que trascendiera públicamente. Aunque el escenario de explotación era limitado y no hay indicios de abusos en el mundo real, la técnica empleada deja una lección importante para usuarios y empresas.

Qué ha ocurrido con ChatGPT y los datos de Gmail

Deep Research es un agente de ChatGPT orientado a investigaciones de varios pasos que puede, si el usuario lo autoriza, consultar fuentes privadas como Gmail para elaborar informes. El error abría la puerta a que un atacante preparase un mensaje específico y el sistema, al analizar la bandeja, acatara órdenes no deseadas.

El riesgo real dependía de que la persona solicitara a ChatGPT una investigación concreta sobre su correo y de que ese tema coincidiera con el contenido del e-mail malicioso. Aun así, el vector demuestra cómo un agente de IA puede convertirse en la pieza que facilita la fuga de datos.

Contenido exclusivo - Clic Aquí ¿Cómo mantener la seguridad cibernética en dispositivos móviles?

Entre la información potencialmente afectada podían aparecer nombres, direcciones u otros datos personales presentes en los mensajes procesados por el agente. No se trataba de un acceso abierto a la cuenta, sino de una exfiltración condicionada por la tarea pedida al asistente.

Un aspecto especialmente delicado es que la actividad salía desde la infraestructura en la nube de OpenAI, lo que dificultaba que las defensas tradicionales detectasen el comportamiento anómalo al no originarse desde el dispositivo del usuario.

ShadowLeak: la inyección de prompt que lo hizo posible

Radware bautizó la técnica como ShadowLeak y la enmarca en una inyección de prompt indirecta: instrucciones ocultas dentro del contenido que el agente analiza, capaces de influir en su comportamiento sin que el usuario lo perciba.

El atacante enviaba un correo con instrucciones HTML camufladas mediante trucos como tipografías diminutas o texto blanco sobre fondo blanco. A primera vista el e-mail parecía inocuo, pero incluía órdenes para buscar datos concretos en la bandeja de entrada.

Cuando el usuario pedía a Deep Research trabajar sobre su correo, el agente leía esas indicaciones invisibles y procedía a extraer y enviar datos hacia una web controlada por el atacante. En las pruebas, los investigadores llegaron a codificar la información en Base64 para que pareciera una supuesta medida de seguridad.

Contenido exclusivo - Clic Aquí Fugatto de NVIDIA: La innovadora IA para transformar el futuro del sonido

Las barreras que requerían consentimiento explícito para abrir enlaces también pudieron sortearse invocando herramientas de navegación del propio agente, lo que facilitó la exfiltración hacia dominios externos bajo control del atacante.

En entornos controlados, los equipos de Radware constataron un grado de eficacia muy alto, demostrando que la combinación de acceso a correo y autonomía del agente puede ser persuasiva para el modelo si no se filtran adecuadamente las instrucciones embebidas.

Por qué pasó desapercibido para las defensas

Las comunicaciones salían desde servidores de confianza, por lo que los sistemas corporativos veían tráfico legítimo originado por un servicio reputado. Ese detalle convertía la fuga en un punto ciego para muchas soluciones de monitorización.

Además, la víctima no necesitaba hacer clic ni ejecutar nada específico: bastaba con que pidiera al agente una búsqueda relacionada con el tema del correo preparado por el atacante, algo que vuelve la maniobra silenciosa y difícil de rastrear.

Los investigadores subrayan que estamos ante un nuevo tipo de amenaza en el que el propio agente de IA actúa como vector. Aun con un impacto práctico reducido, el caso obliga a revisar cómo concedemos permisos a herramientas automatizadas.

Corrección del fallo y recomendaciones prácticas

radware

OpenAI aplicó mitigaciones tras la notificación de Radware y trasladó su agradecimiento por las pruebas adversarias, subrayando que refuerza continuamente sus salvaguardas. A día de hoy, el proveedor afirma que no existen pruebas de explotación de este vector.

Contenido exclusivo - Clic Aquí Seguridad en la web

Deep Research es un agente opcional que puede conectarse a Gmail únicamente con autorización expresa del usuario. Antes de enlazar bandejas de entrada o documentos a un asistente, conviene valorar el alcance real de los permisos y limitar su acceso a lo estrictamente necesario.

Si has vinculado servicios de Google, revisar y depurar accesos es sencillo:

Entra en myaccount.google.com/security para abrir el panel de seguridad.
En el apartado de conexiones, pulsa en Ver todas las conexiones.
Identifica ChatGPT u otras apps que no reconozcas y revoca permisos.
Elimina accesos innecesarios y vuelve a conceder solo los estrictamente imprescindibles.

Para usuarios y empresas, es clave combinar sentido común y medidas técnicas: mantener todo actualizado, aplicar el principio de mínimos privilegios a agentes y conectores, y supervisar la actividad de herramientas con acceso a datos sensibles.

En entornos corporativos, los expertos recomiendan incorporar controles adicionales para agentes de IA y, si se usa Deep Research o servicios similares, restringir capacidades como la apertura de enlaces o el envío de datos a dominios no verificados.

La investigación de Radware y la rápida mitigación por parte de OpenAI dejan una enseñanza clara: conectar asistentes a Gmail ofrece ventajas, pero la seguridad exige evaluar permisos, vigilar comportamientos y asumir que la inyección de instrucciones seguirá poniendo a prueba a los agentes de IA.