- GPT-4.5 het daarin geslaag om 73% van die deelnemers te oortuig dat dit menslik was in 'n hersiene Turing-toets.
- Die eksperiment het aan die lig gebring dat die sukses van KI grootliks afhang van instruksies en die aanneming van 'n "persoonlikheid."
- Ander modelle soos LLaMa-3.1 het laer sukseskoerse behaal, en sonder aanpassing het die resultate aansienlik gedaal.
- Die studie laat vrae ontstaan oor die huidige perke van kunsmatige intelligensie en die risiko's verbonde aan die toenemende gespreksrealisme daarvan.

Sou jy in staat wees om te onderskei tussen 'n gesprek met 'n regte mens en 'n masjien? Die vraag, wat vir die eerste keer meer as sewe dekades gelede deur Alan Turing gestel is, het weereens aanslag gekry ná ’n onlangse eksperiment wat die mees gevorderde modelle van kunsmatige intelligensie in ’n uitdagende konteks getoets het.
Navorsers aan die Universiteit van Kalifornië, San Diego het 'n studie wat ons vermoë om te onderskei tussen wat menslik en wat kunsmatig is, uitdaagl. In die middel van die eksperiment, die GPT-4.5-model van OpenAI het nie net daarin geslaag om die Turing-toets onder spesifieke omstandighede te slaag nie, maar Hy is selfs meer dikwels as mens geïdentifiseer as regte mense self.
'n Eksperiment onder streng omstandighede
Die studie, gelei deur navorsers Cameron Jones en Benjamin Bergen, gefokus op 'n gewysigde weergawe van die klassieke Turing-toets, waar meer as 300 mense deelgeneem het, insluitend universiteitstudente en gebruikers van aanlyn platforms. Gedurende vyf minute sessies het elke deelnemer gelyktydig twee gesprekke gevoer: een met 'n mens en een met 'n kunsmatige intelligensiestelsel. Op die ou end, Hulle moes oordeel wie van die gespreksgenote 'n mens is.
Die resultaat was treffend: die GPT-4.5-model is in 73% van gevalle as menslik beskou toe hy 'n gedefinieerde persoonlikheid toegewys is—byvoorbeeld dié van 'n jong man met kennis van digitale kultuur. Hierdie persentasie het nie net die statistiese drempel oorskry om die toets geslaag te oorweeg nie, maar selfs die vermoë van regte mense om menslik in hierdie eksperiment te voorkom. Hierdie benadering versterk die idee van hoe la kunsmatige intelligensie het die afgelope dekades ontwikkel.
Toe die KI egter nie 'n spesifieke persoonlikheid gehad het nie en bloot gevra is om menslik te voorkom sonder verdere aansporing, het die doeltreffendheid daarvan tot 36% gedaal. Dit onderstreep die belangrikheid van konteks en verpersoonliking in instruksies (vrae) aan taalmodelle gegee.
Vergelyking tussen modelle en onverwagte resultate
Saam met GPT-4.5 het die eksperiment ander modelle ingesluit soos LLaMa-3.1-405B Meta, wat 'n akkuraatheidskoers van 56% behaal het toe ook 'n fiktiewe persoonlikheid gegee is. Alhoewel hierdie syfer laer is as dié van GPT-4.5, is dit steeds bo toeval. Daarteenoor het ander weergawes soos GPT-4o of die veteraan-kletsbot ELIZA, uit die 60's, nie 21% en 23% onderskeidelik oorskry nie, wat die afstand tussen huidige en primitiewe tegnologie duidelik maak.
Hierdie resultate wys dat die sukses van 'n KI in 'n taak soos die Turing-toets baie meer afhang van hoe dit onderrig word as van die model self. Die sleutel is om 'n geloofwaardige rol aan te neem, nie om menslike intelligensie bewustelik te simuleer nie. As jy dieper wil delf in hoe die rekenaar Met verloop van tyd sal jy interessante inligting vind.
Verder is gevind dat selfs met gesofistikeerde instruksies, sommige modelle nie in staat was om 'n voldoende oortuigende gesprek te handhaaf nie. GPT-4o het erken dat hy 'n KI is sonder om uitgedaag te word, wat vinnig geloofwaardigheid verloor het met menslike gespreksgenote.
Verneuk of dink? Die Turing-toets kontroversie
Om die Turing-toets te slaag, beteken nie dat 'n KI verstaan wat hy sê of bewus is van sy woorde nie. Hier lê een van die groot gesprekke tussen kenners. Terwyl sommige hierdie prestasie vier as 'n beduidende vooruitgang in die simulasie van menslike gedrag, beskou ander dit Hierdie tipe toets is nie meer betroubaar om die "regte intelligensie" van 'n kunsmatige stelsel te meet nie.
Kenners soos François Chollet, 'n Google-ingenieur, het dit beklemtoon Die Turing-toets is meer 'n filosofiese eksperiment as 'n tans nuttige meting. Volgens hierdie siening, net omdat 'n KI ons mislei, beteken dit nie dat hy redeneer of 'n diep begrip van die wêreld het nie. Dit gebruik eerder patrone wat uit miljoene tekste geleer is om geloofwaardige antwoorde te konstrueer. Om hierdie veld beter te verstaan, kan jy raadpleeg wie is die stigter van AI.
Die kommerwekkende ding is dus nie soseer wat hierdie KI's kan doen nie, maar wat ons glo hulle doen. Die menslike neiging om gespreksisteme te antropomorfiseer, soos reeds die geval was met ELIZA in die 60's, blyk nie mettertyd te verdwyn het nie. Vandag word die verskynsel vergroot met baie meer gesofistikeerde modelle.
Toepassings en risiko's van 'n KI wat te menslik klink
Die feit dat 'n KI in 'n kort gesprek vir mens kan slaag, bied geleenthede, maar ook beduidende risiko's inhou in terme van veiligheid, onderwys en sosiale verhoudings.
- Identiteitsbedrog: 'n oortuigende KI kan in bedrogspul of sosiale ingenieursveldtogte gebruik word.
- Disinformasie: Modelle wat in staat is om menslike spraak te genereer, kan effektiewe instrumente wees om vals nuus te manipuleer of te versprei.
- Werk outomatisering: Sektore soos kliëntediens of tegniese ondersteuning kan deur hierdie gespreks-KI's vervang word, wat menslike indiensneming beïnvloed.
- Onderwys en evaluering: Om vas te stel of 'n teks deur 'n persoon of deur 'n KI geskryf is, word 'n ingewikkelde taak, met gevolge in die akademiese veld.
Navorsers het ook gewaarsku oor hoe Die standaardisering van hierdie tegnologieë kan die opsporing daarvan moeiliker maak. in die toekoms. Soos ons gewoond raak aan interaksie met geoutomatiseerde stelsels, kan ons ons wag laat val, wat dit makliker maak vir hierdie modelle om nie te onderskei van 'n menslike gespreksgenoot sonder dat ons dit besef nie.
Nog 'n herhalende bekommernis is die etiek van die implementering daarvan. In watter mate moet 'n KI voorgee dat hy 'n mens is sonder om van die kunsmatige aard daarvan in te lig? Moet daar duidelike perke wees oor hoe en wanneer dit in werklike kontekste gebruik kan word?
GPT-4.5 het nie getoon dat masjiene redeneer soos ons nie, maar dit het dit duidelik gemaak dat hulle ons kan naboots op 'n manier wat dit moeilik maak om hulle te onderskei. Hierdie mylpaal dui 'n keerpunt aan, nie as gevolg van wat die masjien is nie, maar oor wat dit ons laat bevraagteken: ons eie idees oor wat dit beteken om "mens te wees" in 'n digitale era waar die kunsmatige saamsmelt met die werklike.
Ek is 'n tegnologie-entoesias wat sy "geek"-belangstellings in 'n beroep verander het. Ek het meer as 10 jaar van my lewe bestee om die nuutste tegnologie te gebruik en uit pure nuuskierigheid met allerhande programme te peuter. Nou het ek gespesialiseer in rekenaartegnologie en videospeletjies. Dit is omdat ek al vir meer as 5 jaar vir verskeie webwerwe oor tegnologie en videospeletjies skryf en artikels skep wat poog om jou die inligting te gee wat jy nodig het in 'n taal wat vir almal verstaanbaar is.
As jy enige vrae het, strek my kennis van alles wat verband hou met die Windows-bedryfstelsel sowel as Android vir selfone. En my verbintenis is aan jou, ek is altyd bereid om 'n paar minute te spandeer en jou te help om enige vrae op te los wat jy in hierdie internetwêreld mag hê.


