- GPT-4.5 logró convencer al 73% de los participantes de que era humano en una prueba de Turing revisada.
- El experimento reveló que el éxito de la IA depende en gran medida de las instrucciones y la adopción de una "personalidad".
- Otros modelos como LLaMa-3.1 obtuvieron menores tasas de acierto, y sin personalización, los resultados se desplomaron notablemente.
- El estudio levanta interrogantes sobre los límites actuales de la inteligencia artificial y los riesgos asociados a su creciente realismo conversacional.

¿Serías capaz de diferenciar entre una conversación con un humano real y una máquina? La pregunta, planteada por primera vez hace más de siete décadas por Alan Turing, ha vuelto a ganar fuerza tras un experimento reciente que ha puesto a prueba a los modelos más avanzados de inteligencia artificial en un contexto desafiante.
Investigadores de la Universidad de California en San Diego han llevado a cabo un estudio que pone contra las cuerdas nuestra capacidad para distinguir entre lo humano y lo artificial. En el centro del experimento, el modelo GPT-4.5 de OpenAI no solo logró superar el Test de Turing bajo condiciones específicas, sino que incluso fue identificado como humano con más frecuencia que las propias personas reales.
Un experimento en condiciones rigurosas
El estudio, dirigido por los investigadores Cameron Jones y Benjamin Bergen, se centró en una versión modificada del clásico Test de Turing, donde participaron más de 300 personas, entre estudiantes universitarios y usuarios de plataformas online. Durante sesiones de cinco minutos, cada participante mantuvo simultáneamente dos conversaciones: una con un humano y otra con un sistema de inteligencia artificial. Al final, debían juzgar cuál de los interlocutores era humano.
El resultado fue llamativo: el modelo GPT-4.5 fue percibido como humano en el 73% de los casos cuando se le asignó una personalidad definida —por ejemplo, la de un joven con conocimientos sobre cultura digital. Este porcentaje superó no solo el umbral estadístico para considerar superado el test, sino incluso la capacidad de los humanos reales de parecer humanos en este experimento. Este enfoque refuerza la idea de cómo la inteligencia artificial ha evolucionado en las últimas décadas.
En cambio, cuando la IA no contaba con una personalidad específica y simplemente se le pidió que pareciera humana sin más indicaciones, su eficacia se desplomó al 36%. Esto subraya la importancia del contexto y la personalización en las instrucciones (prompts) dadas a los modelos de lenguaje.
Comparación entre modelos y resultados inesperados
Junto a GPT-4.5, el experimento incluyó otros modelos como el LLaMa-3.1-405B de Meta, que alcanzó un 56% de aciertos cuando también se le proporcionó una personalidad ficticia. Aunque esta cifra es inferior a la de GPT-4.5, sigue estando por encima del azar. En contraste, otras versiones como GPT-4o o el veterano chatbot ELIZA, de los años 60, no pasaron del 21% y 23% respectivamente, dejando clara la distancia entre tecnologías actuales y primitivas.
Estos resultados muestran que el éxito de una IA en una tarea como el Test de Turing depende mucho más de cómo se le instruye que del modelo en sí. La clave está en adoptar un papel creíble, no en simular conscientemente la inteligencia humana. Si deseas profundizar en cómo ha cambiado la computadora a lo largo del tiempo, encontrarás información interesante.
Además, se comprobó que incluso con instrucciones sofisticadas, algunos modelos no lograban mantener una conversación suficientemente convincente. GPT-4o admitía ser una IA sin apenas ser desafiado, lo que le restó credibilidad rápidamente frente a los interlocutores humanos.
¿Engañar o pensar? La controversia del test de Turing
Pasar el Test de Turing no implica que una IA comprenda lo que dice o que tenga conciencia de sus palabras. Aquí radica una de las grandes discusiones entre expertos. Mientras algunos celebran este logro como un avance significativo en la simulación del comportamiento humano, otros consideran que este tipo de test ya no es fiable para medir la «inteligencia real» de un sistema artificial.
Expertos como François Chollet, ingeniero de Google, han remarcado que el Test de Turing es más un experimento filosófico que una medición útil en la actualidad. Según esta visión, que una IA nos engañe no significa que razone o tenga una comprensión profunda del mundo. Más bien, aprovecha patrones aprendidos de millones de textos para construir respuestas plausibles. Para entender mejor este campo, puedes consultar quién es el fundador de la IA.
Lo preocupante, entonces, no es tanto lo que estas IAs pueden hacer, sino lo que nosotros creemos que hacen. La tendencia humana a antropomorfizar los sistemas conversacionales, como ya ocurría con ELIZA en los años 60, parece no haber desaparecido con el tiempo. Hoy, el fenómeno se magnifica con modelos mucho más sofisticados.
Aplicaciones y riesgos de una IA que suena demasiado humana
El hecho de que una IA pueda pasar por humana en una conversación breve presenta oportunidades, pero también plantea riesgos importantes en términos de seguridad, educación y relaciones sociales.
- Suplantación de identidad: una IA convincente podría ser utilizada en campañas de estafa o ingeniería social.
- Desinformación: modelos capaces de generar discursos humanos podrían ser herramientas eficaces para manipular o difundir noticias falsas.
- Automatización laboral: sectores como la atención al cliente o el soporte técnico podrían ser sustituidos por estas IAs conversacionales, afectando al empleo humano.
- Educación y evaluación: detectar si un texto fue escrito por una persona o por una IA se convierte en una tarea complicada, con consecuencias en el ámbito académico.
Los investigadores también han alertado sobre cómo la normalización de estas tecnologías puede volver más difícil su detección en el futuro. A medida que nos habituamos a interactuar con sistemas automáticos, podríamos bajar la guardia, lo cual facilita que estos modelos sean indistinguibles de un interlocutor humano sin que nos demos cuenta.
Otra preocupación recurrente es la ética de su implementación. ¿Hasta qué punto debe una IA fingir ser humana sin informar de su naturaleza artificial? ¿Debería haber límites claros sobre cómo y cuándo puede ser utilizada en contextos reales?
GPT-4.5 no ha demostrado que las máquinas razonen como nosotros, pero sí ha dejado claro que pueden imitarnos de una forma que hace difícil distinguirlas. Este hito marca un punto de inflexión, no por lo que la máquina es, sino por lo que nos hace cuestionar: nuestras propias ideas sobre lo que significa «ser humano» en una era digital donde lo artificial se funde con lo real.
Soy un apasionado de la tecnología que ha convertido sus intereses «frikis» en profesión. Llevo más de 10 años de mi vida utilizando tecnología de vanguardia y trasteando todo tipo de programas por pura curiosidad. Ahora me he especializado en tecnología de ordenador y videojuegos. Esto es por que desde hace más de 5 años que trabajo redactando para varias webs en materia de tecnología y videojuegos, creando artículos que buscan darte la información que necesitas con un lenguaje entendible por todos.
Si tienes cualquier pregunta, mis conocimientos van desde todo lo relacionado con el sistema operativo Windows así como Android para móviles. Y es que mi compromiso es contigo, siempre estoy dispuesto a dedicarte unos minutos y ayudarte a resolver cualquier duda que tengas en este mundo de internet.