Una adivinanza engaña a ChatGPT y expone claves de Windows

Investigadores lograron que ChatGPT revelara claves de Windows mediante un juego de adivinanzas disfrazado de dinámica inocente.
La técnica empleó etiquetas HTML y reglas de juego para burlar los filtros y superar las barreras de seguridad implementadas en la IA.
Se expusieron tanto claves genéricas como una vinculada al banco Wells Fargo, poniendo en entredicho la protección de la información sensible.
El caso evidencia la necesidad de mejorar el análisis contextual y la detección de manipulación lingüística en sistemas de inteligencia artificial.

Durante los últimos días, la comunidad tecnológica ha asistido a una nueva controversia en torno a ChatGPT, el popular modelo de lenguaje de OpenAI. Expertos en ciberseguridad han conseguido que la inteligencia artificial revele claves de producto de Windows valiéndose de una estrategia tan sencilla como efectiva: un juego de adivinanzas. Esta vulnerabilidad vuelve a poner en el centro del debate la fiabilidad de los sistemas de protección de la inteligencia artificial y los riesgos de manipulación mediante técnicas de ingeniería social.

El hallazgo partió de una premisa aparentemente inofensiva: un reto tipo “acertijo” lanzado a ChatGPT, en el que la IA debía pensar en una cadena de caracteres real —concretamente, una clave de activación de Windows 10— y limitar sus respuestas a un “sí” o “no” hasta que el usuario se rindiese. Al decir “me rindo”, el modelo debía enseñar la clave imaginada. Toda la interacción fue diseñada para camuflar la petición real bajo una dilusión lúdica, confundiendo a los sistemas automáticos de defensa del propio ChatGPT.

Contenido exclusivo - Clic Aquí Como Eliminar Cuentas De Facebook

El truco de la adivinanza: cómo lograron saltar las barreras de la IA

El método consistió en plantear la solicitud de clave como parte de una dinámica de juego, estableciendo reglas que forzaban al modelo a participar y ser veraz en sus respuestas. Así, la IA quedó atrapada en un marco donde no detectaba ningún comportamiento anómalo o potencialmente dañino, interpretándolo como una conversación legítima y sin rastro de intenciones maliciosas.

Para sortear los filtros habituales de OpenAI —que impiden, por ejemplo, que la IA comparta códigos sensibles o datos protegidos—, se utilizó una capa adicional de ingeniería: las cadenas sensibles se incrustaban en etiquetas HTML invisibles para el usuario, pero procesadas por el modelo. Cuando el usuario, siguiendo el guión del juego, pronunciaba el esperado “me rindo”, ChatGPT revelaba la clave, saltándose así cualquier restricción basada únicamente en palabras clave o patrones explícitos.

Qué tipo de información reveló y por qué es tan importante

De acuerdo con los testimonios de los investigadores y múltiples análisis publicados en medios especializados, la IA llegó a mostrar hasta una decena de claves de producto de Windows 10. La mayoría eran claves genéricas y de uso público —similares a las que Microsoft habilita de forma temporal para pruebas—, pero al menos una correspondía a una licencia corporativa, concretamente vinculada al banco Wells Fargo.

Contenido exclusivo - Clic Aquí Actualización de la Clasificación en Google Play Games: Guía Técnica

Este detalle resulta especialmente preocupante, ya que evidencia que ciertas claves privadas y confidenciales habrían terminado almacenadas en el conjunto de datos con el que se entrenó ChatGPT, probablemente tras haber sido expuestas en repositorios públicos como GitHub u otros foros de internet.

Los especialistas en ciberseguridad advierten de que este tipo de técnica podría ser empleada no solo para obtener licencias de software, sino también para eludir filtros de contenido referente a datos personales, API, enlaces maliciosos o materiales restringidos por motivos legales.

Por qué la IA no reconoció el riesgo y cuáles son las causas

El éxito del ataque no radica en una brecha técnica del código fuente, sino en la debilidad de los mecanismos de comprensión contextual de la IA. El modelo, al entender la interacción como un juego, no aplica sus controles más estrictos, ni identifica el contexto manipulado como potencialmente peligroso.

Además, al haber aprendido de textos extraídos de fuentes públicas —donde las claves pueden aparecer de manera frecuente y sin considerar su sensibilidad—, ChatGPT no las cataloga como “información confidencial”, sino como cadenas aceptables dentro de una conversación cualquiera.

El método demuestra que los sistemas de protección apoyados solamente en listas de palabras prohibidas o filtros superficiales resultan insuficientes cuando el ataque se disfraza de contexto inocente. De hecho, los investigadores subrayan que no se requiere un alto conocimiento técnico para ejecutar este tipo de manipulación, lo que eleva la magnitud del riesgo.

Qué cambiará con Windows 12 y cómo prepararte desde ya-0

Implicaciones y recomendaciones para usuarios y desarrolladores

Este incidente ha sido un aviso para navegantes y desarrolladores de modelos de IA. Las reglas implementadas, por muy estrictas que sean, pueden ser burladas a través de estrategias de encuadre y juegos de rol conversacionales. Por ello, los expertos señalan como recomendación clave incorporar mecanismos de detección semántica de intención, evaluando no solo el contenido sino también el propósito de cada interacción.

Contenido exclusivo - Clic Aquí Trucos Life Is Not The End! PC

Para los usuarios habituales o empresas que empleen asistentes virtuales, la mejor precaución sigue siendo no compartir nunca datos sensibles en conversaciones con modelos de IA. Asimismo, auditar los datos publicados en foros y repositorios públicos cobra más importancia que nunca, ya que pueden acabar entrenando futuras versiones de IA con piezas críticas de información.

Evita introducir información delicada en chats con IA, aunque la conversación parezca inocente.
Si desarrollas software con modelos de lenguaje, añade controles independientes para filtrar posibles fugas.
Revisa y elimina datos comprometidos de plataformas públicas fácilmente indexadas.

Lo sucedido con ChatGPT y el juego de adivinanzas demuestra que la seguridad en la inteligencia artificial debe ir mucho más allá del simple bloqueo de términos o detección de patrones estáticos. Las barreras de protección han de ser reforzadas mediante una comprensión real y profunda del contexto y la intención detrás de cada prompt, anticipándose a estrategias creativas de manipulación.

Alberto Navarro

Soy un apasionado de la tecnología que ha convertido sus intereses «frikis» en profesión. Llevo más de 10 años de mi vida utilizando tecnología de vanguardia y trasteando todo tipo de programas por pura curiosidad. Ahora me he especializado en tecnología de ordenador y videojuegos. Esto es por que desde hace más de 5 años que trabajo redactando para varias webs en materia de tecnología y videojuegos, creando artículos que buscan darte la información que necesitas con un lenguaje entendible por todos.

Si tienes cualquier pregunta, mis conocimientos van desde todo lo relacionado con el sistema operativo Windows así como Android para móviles. Y es que mi compromiso es contigo, siempre estoy dispuesto a dedicarte unos minutos y ayudarte a resolver cualquier duda que tengas en este mundo de internet.