A GPT-4.5 73%-os pontossággal teljesíti a Turing tesztet

A GPT-4.5 a résztvevők 73%-át sikerült meggyőznie arról, hogy emberről van szó egy felülvizsgált Turing-tesztben.
A kísérlet feltárta, hogy az AI sikere nagyban függ az utasításoktól és a „személyiség” elfogadásától.
Más modellek, például a LLaMa-3.1 alacsonyabb sikerarányt értek el, és testreszabás nélkül az eredmények jelentősen visszaestek.
A tanulmány kérdéseket vet fel a mesterséges intelligencia jelenlegi korlátaival és a növekvő társalgási realizmusával kapcsolatos kockázatokkal kapcsolatban.

Tudna különbséget tenni egy valódi emberrel és egy géppel folytatott beszélgetés között? A kérdés, amelyet először több mint hét évtizeddel ezelőtt Alan Turing vetett fel, ismét teret nyert egy nemrégiben végzett kísérlet után, amely a mesterséges intelligencia legfejlettebb modelljeit tesztelte kihívásokkal teli környezetben.

A San Diego-i Kaliforniai Egyetem kutatói elvégezték a tanulmány, amely megkérdőjelezi azon képességünket, hogy különbséget tegyünk az emberi és a mesterséges közöttl. A kísérlet középpontjában a GPT-4.5 modell Az OpenAI nem csak bizonyos feltételek mellett sikerült átmennie a Turing-teszten, hanem Még gyakrabban azonosították emberként, mint magukat valódi embereket.

Kísérlet szigorú körülmények között

A Cameron Jones és Benjamin Bergen kutatók által vezetett tanulmány a klasszikus Turing-teszt módosított változatára összpontosított, ahol több mint 300-an vettek részt, köztük egyetemi hallgatók és online platformok felhasználói. Az ötperces foglalkozások során minden résztvevő egyszerre két beszélgetést folytatott: egyet egy emberrel, egyet pedig egy mesterséges intelligencia rendszerrel. Végül, Meg kellett ítélniük, hogy a beszélgetőpartnerek közül melyik ember.

Exkluzív tartalom – Kattintson ide Jobban működik a mesterséges intelligencia, ha határozottan és fenyegetően beszélünk hozzá? Szergej Brin így gondolja.

Az eredmény lenyűgöző volt: a GPT-4.5 modellt az esetek 73%-ában emberinek észlelték amikor meghatározott személyiséget rendeltek hozzá – például egy digitális kultúrát ismerő fiatalemberét. Ez a százalékos arány nemcsak azt a statisztikai küszöböt haladta meg, amellyel a teszt sikeresnek tekinthető, hanem még azt is, hogy a valódi emberek képesek embernek látszani ebben a kísérletben. Ez a megközelítés megerősíti a hogyan ötletét la mesterséges intelligencia fejlődött az elmúlt évtizedekben.

Amikor azonban az AI-nak nem volt konkrét személyisége, és csak arra kérték, hogy minden további felszólítás nélkül embernek tűnjön, a hatékonysága 36%-ra esett vissza. Ez aláhúzza a a kontextus és a személyre szabás fontossága az utasításokban (promptokban) nyelvi modelleknek adott.

A modellek és a váratlan eredmények összehasonlítása

A GPT-4.5 mellett a kísérlet más modelleket is tartalmazott, mint pl LLaMa-3.1-405B Meta, amely 56%-os pontosságot ért el, ha kitalált személyiséget is kapott. Noha ez a szám alacsonyabb, mint a GPT-4.5-é, még mindig esély felett van. Ezzel szemben más verziók, mint például a GPT-4o vagy a 60-as évekbeli veterán chatbot ELIZA, nem haladták meg a 21%-ot, illetve a 23%-ot, ami egyértelművé tette a távolságot a jelenlegi és a primitív technológiák között.

Ezek az eredmények mutatják meg, hogy egy mesterséges intelligencia sikere egy olyan feladatban, mint a Turing-teszt, sokkal inkább attól függ, hogy milyen utasításokat kap, mint magától a modelltől.. A kulcs a hiteles szerepvállalás, nem pedig az emberi intelligencia tudatos szimulálása. Ha mélyebben szeretne elmélyülni abban, hogyan a számítógép Idővel érdekes információkat talál.

Exkluzív tartalom – Kattintson ide A Google lehetővé teszi a fájlok elemzését a Geminivel az ingyenes csomagból

Továbbá azt találták, hogy egyes modellek még kifinomult utasításokkal sem voltak képesek kellően meggyőző beszélgetést folytatni. A GPT-4o kifogás nélkül elismerte, hogy mesterséges intelligencia, amely gyorsan elvesztette hitelét az emberi beszélgetőpartnerek előtt.

Csalni vagy gondolkodni? A Turing-teszt vita

A Turing-teszt sikeres teljesítése nem jelenti azt, hogy egy mesterséges intelligencia megérti, amit mond, vagy tisztában van a szavaival. Itt zajlik az egyik nagy megbeszélés a szakértők között. Míg egyesek ezt az eredményt az emberi viselkedés szimulációjának jelentős előrelépéseként ünneplik, mások ezt tartják Az ilyen típusú tesztek már nem megbízhatóak egy mesterséges rendszer "valódi intelligenciájának" mérésére.

Szakértők, például François Chollet, a Google mérnöke kiemelték ezt A Turing-teszt inkább filozófiai kísérlet, mint jelenleg hasznos mérés. E nézet szerint az, hogy egy mesterséges intelligencia megtéveszt bennünket, nem jelenti azt, hogy megindokolja vagy mélyen megérti a világot. Inkább a szövegek millióiból tanult mintákat használja fel elfogadható válaszok megalkotásához. Ennek a területnek a jobb megértéséhez konzultáljon arról, hogy ki az az AI alapítója.

Nem annyira az aggasztó tehát, hogy ezek az AI-k mire képesek, hanem az, hogy miről hisszük, hogy képesek. Az emberi hajlam a társalgási rendszerek antropomorfizálására, ahogy az ELIZA esetében már a 60-as években, úgy tűnik, nem tűnt el az idő múlásával. Ma a jelenséget sokkal kifinomultabb modellekkel felnagyítják.

A túl emberinek hangzó mesterséges intelligencia alkalmazásai és kockázatai

Az a tény, hogy egy mesterséges intelligencia egy rövid beszélgetés során átadhatja az embert, lehetőségeket is rejt magában, de egyben jelentős kockázatokat rejt magában a biztonság, az oktatás és a társadalmi kapcsolatok terén.

Személyazonosság-lopás: egy meggyőző mesterséges intelligencia felhasználható átverési vagy társadalmi tervezési kampányokban.
Dezinformáció: Az emberi beszéd generálására alkalmas modellek hatékony eszközök lehetnek az álhírek manipulálására vagy terjesztésére.
Munkaautomatizálás: Az olyan szektorokat, mint az ügyfélszolgálat vagy a technikai támogatás, felválthatják ezek a párbeszédes AI-k, amelyek hatással vannak az emberi foglalkoztatásra.
Oktatás és értékelés: Annak megállapítása, hogy egy szöveget egy személy vagy egy mesterséges intelligencia írt-e, bonyolult feladattá válik, aminek következményei vannak az akadémiai területen.

Exkluzív tartalom – Kattintson ide Sebezhetőség az ujjlenyomat-lopásban

A kutatók arra is figyelmeztettek, hogyan E technológiák szabványosítása megnehezítheti észlelésüket a jövőben. Ahogy megszokjuk az automatizált rendszerekkel való interakciót, megengedhetjük magunkat, így könnyebben meg lehet különböztetni ezeket a modelleket egy emberi beszélgetőpartnertől anélkül, hogy észrevennénk.

Egy másik visszatérő probléma a végrehajtás etikája. Milyen mértékben kell egy mesterséges intelligencia embernek színlelnie magát anélkül, hogy tájékoztatna mesterséges természetéről? Kell-e világos korlátokat szabni arra vonatkozóan, hogyan és mikor használható fel valós környezetben?

A GPT-4.5 nem mutatta be, hogy a gépek úgy gondolkodnak, mint mi, de egyértelművé tette, hogy olyan módon utánozhatnak minket, hogy megnehezítik megkülönböztetésüket. Ez a mérföldkő fordulópontot jelent, nem azért, mert mi a gép, hanem amiatt, ami megkérdőjelez bennünket: saját elképzeléseink arról, hogy mit jelent „embernek lenni” egy digitális korban, ahol a mesterséges összeolvad a valósággal.

Alberto Navarro

Technológia-rajongó vagyok, aki "geek" érdeklődését szakmává változtatta. Életemből több mint 10 évet töltöttem a legmodernebb technológiával, és pusztán kíváncsiságból mindenféle programmal bütykölgettem. Most a számítástechnikára és a videojátékokra szakosodtam. Ennek az az oka, hogy több mint 5 éve írok különféle technológiával és videojátékokkal foglalkozó weboldalakra, olyan cikkeket készítve, amelyek mindenki számára érthető nyelven igyekeznek megadni a szükséges információkat.

Ha bármilyen kérdése van, tudásom a Windows operációs rendszerrel, valamint a mobiltelefonokhoz készült Androiddal kapcsolatos mindenre kiterjed. És az én elkötelezettségem az Ön iránti elkötelezettségem, mindig készen állok néhány percet rászánni arra, hogy segítsek megoldani minden kérdését ebben az internetes világban.