GPT-4.5 slaagt met vlag en wimpel voor de Turing-test: wat betekent deze mijlpaal voor de evolutie van kunstmatige intelligentie?

Laatste update: 07/04/2025

  • In een herziene Turing-test wist GPT-4.5 73% van de deelnemers ervan te overtuigen dat het om een ​​mens ging.
  • Uit het experiment bleek dat het succes van AI grotendeels afhangt van instructies en de aanname van een 'persoonlijkheid'.
  • Andere modellen, zoals LLaMa-3.1, hadden een lager slagingspercentage en zonder personalisatie daalden de resultaten aanzienlijk.
  • Het onderzoek roept vragen op over de huidige beperkingen van kunstmatige intelligentie en de risico's die gepaard gaan met het toenemende realisme van conversaties.
GPT-4.5 slaagt voor de Turing-0-test

Kunt u het verschil horen tussen een gesprek met een echte mens en een gesprek met een machine? De vraag, die Alan Turing ruim zeventig jaar geleden voor het eerst stelde, heeft weer aan populariteit gewonnen na een recent experiment waarbij de meest geavanceerde modellen van kunstmatige intelligentie in een uitdagende context werden getest.

Onderzoekers van de Universiteit van Californië in San Diego hebben een onderzoek uitgevoerd Een onderzoek dat onze mogelijkheid om onderscheid te maken tussen het menselijke en het kunstmatige op de proef stelt.ik. Centraal in het experiment staat: het GPT-4.5-model OpenAI slaagde er niet alleen in om de Turing-test onder specifieke omstandigheden te doorstaan, maar Hij werd zelfs vaker als mens geïdentificeerd dan als echte mensen.

Een experiment onder strenge omstandigheden

AI-interviews tijdens de Turing-test

Het onderzoek, geleid door onderzoekers Cameron Jones en Benjamin Bergen, gericht op een aangepaste versie van de klassieke Turing-test, waaraan meer dan 300 mensen deelnamen, waaronder universitaire studenten en gebruikers van het online platform. Tijdens sessies van vijf minuten voerde elke deelnemer tegelijkertijd twee gesprekken: één met een mens en één met een kunstmatig intelligentiesysteem. Uiteindelijk, Ze moesten beoordelen welke van de gesprekspartners menselijk was.

Exclusieve inhoud - Klik hier  Siri LLM: Apple's plan om zijn virtuele assistent radicaal te veranderen met geavanceerde kunstmatige intelligentie

Het resultaat was opvallend: Het GPT-4.5-model werd in 73% van de gevallen als menselijk waargenomen toen hem een ​​bepaalde persoonlijkheid werd gegeven, bijvoorbeeld die van een jongere met kennis van de digitale cultuur. Dit percentage overschreed niet alleen de statistische drempelwaarde om de test als geslaagd te beschouwen, maar overschreed ook het vermogen van echte mensen om in dit experiment op mensen te lijken. Deze aanpak versterkt het idee van hoe la kunstmatige intelligentie is de afgelopen decennia geëvolueerd.

Toen de AI echter geen specifieke persoonlijkheid kreeg en simpelweg werd gevraagd om zich als een mens voor te doen, zonder verdere aansporing, daalde de effectiviteit ervan tot 36%. Dit onderstreept de Belang van context en personalisatie in prompts gegeven aan taalmodellen.

Vergelijking tussen modellen en onverwachte resultaten

Verschillende AI-modellen in testfase

Naast GPT-4.5 omvatte het experiment andere modellen, zoals LLaMa-3.1-405B van Meta, die een nauwkeurigheidspercentage van 56% behaalde toen er ook een fictieve persoonlijkheid aan werd toegevoegd. Hoewel dit cijfer lager is dan dat van GPT-4.5, ligt het nog steeds boven het toeval. Daarentegen kwamen andere versies, zoals GPT-4o of de oude chatbot ELIZA uit de jaren 60, respectievelijk niet boven de 21% en 23% uit. Dit laat duidelijk zien hoe groot de kloof is tussen de huidige en primitieve technologieën.

Estos resultados tonen aan dat het succes van een AI in een taak als de Turing-test veel meer afhangt van de manier waarop het wordt geïnstrueerd dan van het model zelf. Het belangrijkste is dat je een geloofwaardige rol aanneemt en niet dat je bewust de menselijke intelligentie nabootst. Als u dieper wilt ingaan op de manier waarop de computer Na verloop van tijd zult u interessante informatie vinden.

Exclusieve inhoud - Klik hier  Nep-SVG-malware verspreidt zich in Colombia: doet zich voor als het kantoor van de procureur-generaal en installeert uiteindelijk AsyncRAT

Bovendien bleek dat sommige modellen, zelfs met geavanceerde instructies, geen overtuigend genoeg gesprek konden voeren. GPT-4o gaf toe een AI te zijn met weinig uitdagingen., die bij menselijke gesprekspartners al snel aan geloofwaardigheid inboette.

Bedriegen of denken? De Turing-testcontroverse

Discussie over cognitie in AI

Het slagen voor de Turing-test betekent niet dat een AI begrijpt wat u zegt of op de hoogte is van uw woorden. Hier vindt u een van de grootste discussies onder experts. Terwijl sommigen deze prestatie vieren als een belangrijke vooruitgang in de simulatie van menselijk gedrag, vinden anderen dat Dit type test is niet langer betrouwbaar voor het meten van de 'echte intelligentie' van een kunstmatig systeem..

Deskundigen zoals François Chollet, een Google-ingenieur, hebben erop gewezen dat De Turing-test is meer een filosofisch experiment dan een momenteel bruikbare meting.. Volgens deze visie betekent het feit dat een AI ons misleidt, niet dat deze ook logisch nadenkt of een diepgaand begrip heeft van de wereld. In plaats daarvan maakt het gebruik van patronen die uit miljoenen teksten zijn geleerd om plausibele antwoorden te formuleren. Om dit veld beter te begrijpen, kunt u controleren wie de oprichter van AI.

Het meest verontrustende is dus niet zozeer wat deze AI's kunnen, maar wat wij denken dat ze doen. De menselijke neiging om conversatiesystemen te antropomorfiseren, zoals ELIZA in de jaren zestig, lijkt in de loop der tijd niet te zijn verdwenen. Tegenwoordig wordt het fenomeen versterkt door veel geavanceerdere modellen.

Toepassingen en risico's van een AI die te menselijk klinkt

Het feit dat een AI zich in een kort gesprek voor een mens kan voordoen, biedt kansen, maar ook brengt aanzienlijke risico's met zich mee op het gebied van veiligheid, onderwijs en sociale relaties.

  • Identiteitsdiefstal: Overtuigende AI kan worden gebruikt in oplichtings- of social engineeringcampagnes.
  • Desinformación: Modellen die menselijke spraak kunnen genereren, kunnen effectieve hulpmiddelen zijn voor het manipuleren of verspreiden van nepnieuws.
  • Automatización laboral: Sectoren als klantenservice en technische ondersteuning zouden vervangen kunnen worden door deze conversationele AI's, wat gevolgen zou kunnen hebben voor de menselijke werkgelegenheid.
  • Onderwijs en beoordeling: Het vaststellen of een tekst door een mens of door AI is geschreven, is een ingewikkelde taak, met gevolgen voor de academische wereld.
Exclusieve inhoud - Klik hier  Hoe schrijf je een nieuwsartikel: voorbeelden?

Onderzoekers hebben ook gewaarschuwd voor hoe De standaardisatie van deze technologieën kan de detectie ervan bemoeilijken. in de toekomst. Naarmate we meer gewend raken aan de omgang met geautomatiseerde systemen, kunnen we minder op onze hoede zijn. Hierdoor zijn deze modellen steeds minder te onderscheiden van een menselijke gesprekspartner, zonder dat we dat zelf doorhebben.

Een ander terugkerend punt van zorg is de ethiek van de implementatie ervan. In hoeverre mag een AI zich voordoen als een mens zonder zijn kunstmatige aard te onthullen? Moeten er duidelijke grenzen zijn aan hoe en wanneer het in de praktijk kan worden gebruikt?

GPT-4.5 heeft niet aangetoond dat machines net als wij redeneren, maar het heeft wel duidelijk gemaakt dat ze ons op een manier kunnen imiteren die het moeilijk maakt om ze te onderscheiden. Deze mijlpaal markeert een keerpunt, niet vanwege wat de machine is, maar vanwege wat het ons doet twijfelen: onze eigen ideeën over wat het betekent om 'mens' te zijn in een digitaal tijdperk waarin het kunstmatige samensmelt met het echte.