GPT-4.5 läpäisee Turingin testin 73 %:n oikein

GPT-4.5 onnistui vakuuttamaan 73 % osallistujista, että se oli ihminen tarkistetussa Turingin testissä.
Kokeilu paljasti, että tekoälyn menestys riippuu suurelta osin ohjeista ja "persoonallisuuden" omaksumisesta.
Muut mallit, kuten LLaMa-3.1, saivat alhaisemmat onnistumisprosentit, ja ilman räätälöintiä tulokset putosivat merkittävästi.
Tutkimus herättää kysymyksiä tekoälyn nykyisistä rajoista ja sen lisääntyvään keskustelurealismiin liittyvistä riskeistä.

Pystyisitkö erottamaan keskustelun oikean ihmisen ja koneen välillä? Kysymys, jonka Alan Turing esitti ensimmäisen kerran yli seitsemän vuosikymmentä sitten, on jälleen saanut vetovoimaa äskettäisen kokeen jälkeen, jossa on testattu kehittyneimpiä tekoälyn malleja haastavassa kontekstissa.

Kalifornian yliopiston San Diegossa tutkijat ovat tehneet a tutkimus, joka haastaa kykymme erottaa mikä on inhimillistä ja mikä on keinotekoistal. Kokeen keskellä GPT-4.5 malli OpenAI ei vain onnistunut läpäisemään Turingin testin tietyissä olosuhteissa, vaan Hänet jopa tunnistettiin ihmiseksi useammin kuin oikeita ihmisiä itseään.

Kokeilu tiukoissa olosuhteissa

Tutkijoiden Cameron Jonesin ja Benjamin Bergenin johtamassa tutkimuksessa. keskittyi klassisen Turingin testin muunneltuun versioon, johon osallistui yli 300 ihmistä, mukaan lukien yliopisto-opiskelijat ja verkkoalustojen käyttäjät. Viiden minuutin istuntojen aikana jokainen osallistuja kävi samanaikaisesti kaksi keskustelua: yhden ihmisen ja toisen tekoälyjärjestelmän kanssa. Lopulta, Heidän oli arvioitava, kuka keskustelukumppaneista oli ihminen.

Ainutlaatuinen sisältö - Napsauta tästä Siri LLM: Applen suunnitelma mullistaa virtuaalinen avustajansa edistyneellä tekoälyllä

Tulos oli hämmästyttävä: GPT-4.5 malli pidettiin ihmisenä 73 %:ssa tapauksista kun hänelle määrättiin määritelty persoonallisuus – esimerkiksi nuoren miehen persoonallisuus, jolla on tietoa digitaalisesta kulttuurista. Tämä prosenttiosuus ei ylittänyt ainoastaan tilastollisen kynnyksen, jonka perusteella testi oli läpäissyt, vaan jopa todellisten ihmisten kyvyn näyttää ihmiseltä tässä kokeessa. Tämä lähestymistapa vahvistaa ajatusta siitä, miten la tekoäly on kehittynyt viime vuosikymmeninä.

Kuitenkin, kun tekoälyllä ei ollut erityistä persoonallisuutta ja sitä vain pyydettiin näyttämään ihmiseltä ilman lisäkehotusta, sen tehokkuus putosi 36 prosenttiin. Tämä korostaa kontekstin ja personoinnin tärkeys ohjeissa (kehotteet) annettu kielimalleille.

Mallien ja odottamattomien tulosten vertailu

GPT-4.5:n ohella kokeilu sisälsi muita malleja, kuten LLaMa-3.1-405B Meta, joka saavutti 56 prosentin tarkkuuden, kun sille annettiin myös kuvitteellinen persoonallisuus. Vaikka tämä luku on pienempi kuin GPT-4.5:n luku, se on silti mahdollisuutta suurempi. Sitä vastoin muut versiot, kuten GPT-4o tai veteraani chatbot ELIZA, 60-luvulta, eivät ylittäneet 21 % ja 23 %, mikä teki selväksi nykyisten ja primitiivisten teknologioiden välisen etäisyyden.

Estos resultados osoittavat, että tekoälyn menestys Turingin testin kaltaisessa tehtävässä riippuu paljon enemmän siitä, miten se on ohjeistettu, kuin itse mallista. Tärkeintä on ottaa uskottava rooli, ei tietoisesti simuloida ihmisen älykkyyttä. Jos haluat syventää, miten tietokone Ajan myötä löydät mielenkiintoista tietoa.

Ainutlaatuinen sisältö - Napsauta tästä Väärennetty SVG-haittaohjelma leviää Kolumbiassa: tekeytyy oikeuskanslerinvirastoksi ja asentaa AsyncRATin

Lisäksi todettiin, että jotkin mallit eivät kyenneet ylläpitämään riittävän vakuuttavaa keskustelua edes hienostuneilla ohjeilla. GPT-4o myönsi olevansa tekoäly ilman haastetta, joka menetti nopeasti uskottavuutensa ihmisten keskuudessa.

Huijata vai ajatella? Turingin testin kiista

Turingin testin läpäiseminen ei tarkoita, että tekoäly ymmärtää sanomansa tai on tietoinen sanoistaan. Tässä on yksi hienoista asiantuntijoiden välisistä keskusteluista. Vaikka jotkut juhlivat tätä saavutusta merkittävänä edistysaskeleena ihmisen käyttäytymisen simuloinnissa, toiset pitävät sitä Tämäntyyppinen testi ei ole enää luotettava keinotekoisen järjestelmän "todellisen älykkyyden" mittaamiseen.

Asiantuntijat, kuten Googlen insinööri François Chollet, ovat korostaneet tätä Turingin testi on enemmän filosofinen kokeilu kuin tällä hetkellä hyödyllinen mittaus. Tämän näkemyksen mukaan vain siksi, että tekoäly pettää meitä, ei tarkoita, että se perustelee tai ymmärtää syvällisesti maailmaa. Sen sijaan se hyödyntää miljoonista teksteistä opittuja malleja uskottavien vastausten rakentamiseksi. Ymmärtääksesi paremmin tätä alaa, voit kysyä, kuka on AI:n perustaja.

Huolestuttavaa ei siis ole niinkään se, mitä nämä tekoälyt voivat tehdä, vaan se, mitä uskomme heidän tekevän. Ihmisen taipumus antropomorfoida keskustelujärjestelmiä60-luvun ELIZAn tapaan ei näytä kadonneen ajan myötä. Nykyään ilmiötä korostetaan paljon kehittyneemmillä malleilla.

Liian inhimilliseltä kuulostavan tekoälyn sovellukset ja riskit

Se, että tekoäly voi ohittaa ihmisen lyhyessä keskustelussa, tarjoaa mahdollisuuksia, mutta myös aiheuttaa merkittäviä riskejä turvallisuuden, koulutuksen ja sosiaalisten suhteiden kannalta.

Identiteettivarkaus: vakuuttavaa tekoälyä voitaisiin käyttää huijaus- tai manipulointikampanjoissa.
Desinformación: Ihmispuhetta tuottavat mallit voivat olla tehokkaita keinoja manipuloida tai levittää valeuutisia.
Automatización laboral: Sellaiset osa-alueet, kuten asiakaspalvelu tai tekninen tuki, voitaisiin korvata näillä ihmisten työllisyyteen vaikuttavilla keskustelun tekoälyillä.
Koulutus ja arviointi: Sen tunnistaminen, onko tekstin kirjoittanut henkilö vai tekoäly, tulee monimutkaiseksi tehtäväksi, jolla on seurauksia akateemisessa alalla.

Ainutlaatuinen sisältö - Napsauta tästä Kuinka kirjoittaa uutisartikkeli: esimerkkejä?

Tutkijat ovat myös varoittaneet kuinka Näiden tekniikoiden standardointi voi vaikeuttaa niiden havaitsemista. tulevaisuudessa. Kun tottelemme vuorovaikutuksessa automatisoitujen järjestelmien kanssa, saatamme jättää vartioksemme, jolloin näiden mallien on helpompi olla erottamattomia ihmiskeskustelukumppanista meidän huomaamattamme sitä.

Toinen toistuva huolenaihe on sen täytäntöönpanon eettisyys. Missä määrin tekoälyn tulisi teeskennellä olevansa ihminen ilmoittamatta sen keinotekoisesta luonteesta? Pitäisikö olla selkeät rajat sille, miten ja milloin sitä voidaan käyttää todellisissa yhteyksissä?

GPT-4.5 ei ole osoittanut, että koneet järkeilevät kuten me, mutta se on tehnyt selväksi, että he voivat jäljitellä meitä tavalla, joka vaikeuttaa niiden erottamista. Tämä virstanpylväs merkitsee käännekohtaa, ei sen vuoksi, mikä kone on, vaan sen vuoksi, mikä saa meidät kyseenalaistamaan: omat ajatuksemme siitä, mitä tarkoittaa olla "ihminen" digitaalisella aikakaudella, jossa keinotekoisuus sulautuu todellisuuteen.

Alberto Navarro

Olen teknologian harrastaja, joka on muuttanut "nörtti"-harrastuksensa ammatiksi. Olen käyttänyt yli 10 vuotta elämästäni uusinta teknologiaa käyttäen ja kaikenlaisten ohjelmien parissa puhtaasta uteliaisuudesta. Nyt olen erikoistunut tietotekniikkaan ja videopeleihin. Tämä johtuu siitä, että yli 5 vuoden ajan olen työskennellyt kirjoittaen useille teknologiaa ja videopelejä käsitteleville verkkosivustoille ja luonut artikkeleita, jotka pyrkivät antamaan sinulle tarvitsemaasi tietoa kielellä, jota kaikki ymmärtävät.

Jos sinulla on kysyttävää, tietoni ulottuu kaikesta Windows-käyttöjärjestelmään liittyvästä sekä matkapuhelimien Androidista. Ja sitoumukseni on sinulle, olen aina valmis käyttämään muutaman minuutin ja auttamaan sinua ratkaisemaan kaikki kysymyksesi, joita sinulla saattaa olla tässä Internet-maailmassa.