GPT-4.5 overgår langt Turing-testen: hva innebærer denne milepælen i utviklingen av kunstig intelligens?

Siste oppdatering: 07/04/2025

  • GPT-4.5 klarte å overbevise 73 % av deltakerne om at den var menneskelig i en revidert Turing-test.
  • Eksperimentet avslørte at suksessen til AI i stor grad avhenger av instruksjoner og adopsjon av en "personlighet".
  • Andre modeller som LLaMa-3.1 oppnådde lavere suksessrater, og uten tilpasning falt resultatene betydelig.
  • Studien reiser spørsmål om gjeldende grenser for kunstig intelligens og risikoene forbundet med dens økende samtalerealisme.
GPT-4.5 består turing-0-testen

Vil du være i stand til å skille mellom en samtale med et ekte menneske og en maskin? Spørsmålet, som først ble stilt for mer enn syv tiår siden av Alan Turing, har igjen fått gjennomslag etter et nylig eksperiment som har testet de mest avanserte modellene for kunstig intelligens i en utfordrende kontekst.

Forskere ved University of California, San Diego har utført en studie som utfordrer vår evne til å skille mellom hva som er menneskelig og hva som er kunstigl. I sentrum av eksperimentet, GPT-4.5-modellen av OpenAI klarte ikke bare å bestå Turing-testen under spesifikke forhold, men Han ble til og med identifisert som menneske oftere enn ekte mennesker selv.

Et eksperiment under strenge forhold

AI-intervjuer under Turing-testen

Studien, ledet av forskerne Cameron Jones og Benjamin Bergen, fokusert på en modifisert versjon av den klassiske Turing-testen, hvor mer enn 300 personer deltok, inkludert universitetsstudenter og brukere av nettbaserte plattformer. I løpet av fem minutters økter holdt hver deltaker samtidig to samtaler: en med et menneske og en med et kunstig intelligenssystem. Til slutt, De måtte bedømme hvem av samtalepartnerne som var mennesker.

Eksklusivt innhold - Klikk her  Mico vs Copilot på Windows 11: Alt du trenger å vite

Resultatet var slående: GPT-4.5-modellen ble oppfattet som menneskelig i 73 % av tilfellene da han ble tildelt en definert personlighet – for eksempel den til en ung mann med kunnskap om digital kultur. Denne prosentandelen overskred ikke bare den statistiske terskelen for å vurdere testen bestått, men til og med evnen til ekte mennesker til å fremstå som menneskelige i dette eksperimentet. Denne tilnærmingen forsterker ideen om hvordan la kunstig intelligens har utviklet seg de siste tiårene.

Derimot, da AI ikke hadde en spesifikk personlighet og ganske enkelt ble bedt om å fremstå som menneskelig uten ytterligere oppfordring, falt effektiviteten til 36 %. Dette understreker viktigheten av kontekst og personalisering i instruksjoner (forespørsler) gitt til språkmodeller.

Sammenligning mellom modeller og uventede resultater

Ulike AI-modeller i testing

Sammen med GPT-4.5 inkluderte eksperimentet andre modeller som f.eks LLaMa-3.1-405B Meta, som oppnådde en nøyaktighetsgrad på 56 % når den også ble gitt en fiktiv personlighet. Selv om dette tallet er lavere enn for GPT-4.5, er det fortsatt over tilfeldighetene. I motsetning til dette oversteg ikke andre versjoner som GPT-4o eller veteranchatboten ELIZA, fra 60-tallet, henholdsvis 21 % og 23 %, noe som tydeliggjorde avstanden mellom nåværende og primitive teknologier.

Estos resultados vise at suksessen til en kunstig intelligens i en oppgave som Turing-testen avhenger mye mer av hvordan den blir instruert enn på selve modellen. Nøkkelen er å innta en troverdig rolle, ikke å bevisst simulere menneskelig intelligens. Hvis du ønsker å gå dypere inn i hvordan computer Over tid vil du finne interessant informasjon.

Eksklusivt innhold - Klikk her  Kan du tenke deg å kunne snakke med dyr? Denne Baidu AI-en prøver å gjøre det mulig

Videre ble det funnet at selv med sofistikerte instruksjoner, var enkelte modeller ikke i stand til å opprettholde en tilstrekkelig overbevisende samtale. GPT-4o innrømmet å være en kunstig intelligens uten å bli utfordret, som raskt mistet troverdighet med menneskelige samtalepartnere.

Jukse eller tenke? Turing Test-kontroversen

Diskusjon om kognisjon i AI

Å bestå Turing-testen betyr ikke at en AI forstår hva den sier eller er klar over ordene dens. Her ligger en av de store diskusjonene mellom eksperter. Mens noen feirer denne prestasjonen som et betydelig fremskritt i simuleringen av menneskelig atferd, anser andre det Denne typen tester er ikke lenger pålitelige for å måle den "virkelige intelligensen" til et kunstig system.

Eksperter som François Chollet, en Google-ingeniør, har fremhevet det Turing-testen er mer et filosofisk eksperiment enn en for tiden nyttig måling. I følge dette synet, bare fordi en AI bedrar oss betyr ikke det at den resonnerer eller har en dyp forståelse av verden. Snarere utnytter den mønstre lært fra millioner av tekster for å konstruere plausible svar. For bedre å forstå dette feltet, kan du konsultere hvem som er grunnlegger av AI.

Det bekymringsfulle er altså ikke så mye hva disse AI-ene kan gjøre, men hva vi tror de gjør. Menneskets tendens til å antropomorfisere samtalesystemer, som allerede var tilfellet med ELIZA på 60-tallet, ser ikke ut til å ha forsvunnet over tid. I dag forstørres fenomenet med mye mer sofistikerte modeller.

Applikasjoner og risikoer ved en AI som høres for menneskelig ut

Det faktum at en AI kan passere for menneske i en kort samtale gir muligheter, men også utgjør betydelig risiko når det gjelder sikkerhet, utdanning og sosiale relasjoner.

  • Identitetstyveri: en overbevisende AI kan brukes i svindel- eller sosiale ingeniørkampanjer.
  • Desinformación: Modeller som er i stand til å generere menneskelig tale kan være effektive verktøy for å manipulere eller spre falske nyheter.
  • Automatización laboral: Sektorer som kundeservice eller teknisk støtte kan erstattes av disse samtale-AI-ene, noe som påvirker menneskelig sysselsetting.
  • Utdanning og evaluering: Å oppdage om en tekst er skrevet av en person eller av en AI blir en komplisert oppgave, med konsekvenser på det akademiske feltet.
Eksklusivt innhold - Klikk her  Hvordan løser du problemer med Saldazo-kortet ditt?

Forskere har også advart om hvordan Standardiseringen av disse teknologiene kan gjøre det vanskeligere å oppdage dem. i fremtiden. Etter hvert som vi blir vant til å samhandle med automatiserte systemer, kan vi svikte vår vakt, noe som gjør det lettere for disse modellene å være umulig å skille fra en menneskelig samtalepartner uten at vi er klar over det.

En annen tilbakevendende bekymring er etikken rundt implementeringen. I hvilken grad skal en kunstig intelligens late som om den er menneskelig uten å informere om dens kunstige natur? Bør det være klare grenser for hvordan og når det kan brukes i reelle sammenhenger?

GPT-4.5 har ikke vist at maskiner resonnerer som oss, men det har gjort det klart at de kan etterligne oss på en måte som gjør det vanskelig å skille dem. Denne milepælen markerer et vendepunkt, ikke på grunn av hva maskinen er, men på grunn av hva den får oss til å stille spørsmål ved: våre egne ideer om hva det vil si å «være menneske» i en digital tidsalder der det kunstige smelter sammen med det virkelige.