GPT-4.5 overgår i vid udstrækning Turing-testen: hvad betyder denne milepæl i udviklingen af ​​kunstig intelligens?

Sidste opdatering: 07/04/2025

  • GPT-4.5 formåede at overbevise 73 % af deltagerne om, at det var et menneske i en revideret Turing-test.
  • Eksperimentet afslørede, at AI's succes i høj grad afhænger af instruktioner og adoptionen af ​​en "personlighed".
  • Andre modeller såsom LLaMa-3.1 opnåede lavere succesrater, og uden tilpasning faldt resultaterne markant.
  • Undersøgelsen rejser spørgsmål om de nuværende grænser for kunstig intelligens og de risici, der er forbundet med dens stigende samtalerealisme.
GPT-4.5 består turing-0 testen

Ville du være i stand til at skelne mellem en samtale med et rigtigt menneske og en maskine? Spørgsmålet, der første gang blev stillet for mere end syv årtier siden af ​​Alan Turing, har igen vundet indpas efter et nyligt eksperiment, der har testet de mest avancerede modeller for kunstig intelligens i en udfordrende kontekst.

Forskere ved University of California, San Diego har udført en undersøgelse, der udfordrer vores evne til at skelne mellem, hvad der er menneskeligt og hvad der er kunstigtl. I centrum af eksperimentet, GPT-4.5 modellen af OpenAI formåede ikke kun at bestå Turing-testen under specifikke forhold, men Han blev endda identificeret som menneske oftere end rigtige mennesker selv.

Et eksperiment under strenge forhold

AI-interviews under Turing-testen

Undersøgelsen, ledet af forskerne Cameron Jones og Benjamin Bergen, fokuseret på en modificeret version af den klassiske Turing-test, hvor mere end 300 personer deltog, herunder universitetsstuderende og brugere af online platforme. I løbet af fem minutters sessioner holdt hver deltager samtidig to samtaler: en med et menneske og en med et kunstig intelligenssystem. I sidste ende De skulle bedømme, hvem af samtalepartnerne der var mennesker.

Eksklusivt indhold - Klik her  Siri LLM: Apples plan om at revolutionere sin virtuelle assistent med avanceret kunstig intelligens

Resultatet var slående: GPT-4.5-modellen blev opfattet som menneskelig i 73 % af tilfældene da han fik tildelt en defineret personlighed – for eksempel en ung mands med viden om digital kultur. Denne procentdel overskred ikke kun den statistiske tærskel for at betragte testen som bestået, men endda virkelige menneskers evne til at fremstå som menneskelige i dette eksperiment. Denne tilgang forstærker ideen om hvordan la kunstig intelligens har udviklet sig i de seneste årtier.

Men da AI'en ikke havde en specifik personlighed og blot blev bedt om at fremstå som menneskelig uden yderligere opfordring, faldt dens effektivitet til 36%. Dette understreger betydningen af ​​kontekst og personalisering i instruktioner (prompter) givet til sprogmodeller.

Sammenligning mellem modeller og uventede resultater

Forskellige AI-modeller i test

Sammen med GPT-4.5 omfattede eksperimentet andre modeller som f.eks LLaMa-3.1-405B Meta, som opnåede en nøjagtighedsrate på 56 %, når den også fik en fiktiv personlighed. Selvom dette tal er lavere end for GPT-4.5, er det stadig over tilfældighederne. I modsætning hertil oversteg andre versioner såsom GPT-4o eller veteran chatbot ELIZA, fra 60'erne, ikke henholdsvis 21% og 23%, hvilket tydeliggør afstanden mellem nuværende og primitive teknologier.

Estos resultados vise, at en AIs succes i en opgave som Turing-testen afhænger meget mere af, hvordan den instrueres end af selve modellen. Nøglen er at indtage en troværdig rolle, ikke at bevidst simulere menneskelig intelligens. Hvis du vil dykke dybere ned i, hvordan computer Med tiden vil du finde interessant information.

Eksklusivt indhold - Klik her  Falsk SVG-malware spreder sig i Colombia: udgiver sig for at være justitsministeren og ender med at installere AsyncRAT

Desuden blev det konstateret, at selv med sofistikerede instruktioner var nogle modeller ikke i stand til at opretholde en tilstrækkelig overbevisende samtale. GPT-4o indrømmede at være en kunstig intelligens uden at blive udfordret, som hurtigt mistede troværdighed hos menneskelige samtalepartnere.

Snyde eller tænke? Turing Test-kontroversen

Diskussion om kognition i AI

At bestå Turing-testen betyder ikke, at en AI forstår, hvad den siger, eller er klar over dens ord. Her ligger en af ​​de store diskussioner mellem eksperter. Mens nogle fejrer denne præstation som et betydeligt fremskridt i simuleringen af ​​menneskelig adfærd, mener andre det Denne type test er ikke længere pålidelig til at måle den "virkelige intelligens" af et kunstigt system.

Eksperter som François Chollet, en Google-ingeniør, har fremhævet det Turing-testen er mere et filosofisk eksperiment end en i øjeblikket brugbar måling. Ifølge denne opfattelse betyder bare fordi en AI bedrager os ikke, at den ræsonnerer eller har en dyb forståelse af verden. Det udnytter snarere mønstre lært fra millioner af tekster til at konstruere plausible svar. For bedre at forstå dette felt kan du konsultere, hvem der er grundlægger af AI.

Det bekymrende er derfor ikke så meget, hvad disse AI'er kan, men hvad vi tror, ​​de gør. Den menneskelige tendens til at antropomorfisere samtalesystemer, som det allerede var tilfældet med ELIZA i 60'erne, ser ikke ud til at være forsvundet med tiden. I dag forstørres fænomenet med meget mere sofistikerede modeller.

Anvendelser og risici ved en AI, der lyder for menneskelig

Det faktum, at en AI kan passere for menneske i en kort samtale, giver muligheder, men også udgør væsentlige risici i forhold til sikkerhed, uddannelse og sociale relationer.

  • Suplantación de identidad: en overbevisende kunstig intelligens kunne bruges i fup- eller social engineering-kampagner.
  • Desinformación: Modeller, der er i stand til at generere menneskelig tale, kan være effektive værktøjer til at manipulere eller sprede falske nyheder.
  • Automatización laboral: Sektorer som kundeservice eller teknisk support kunne erstattes af disse samtale-AI'er, hvilket påvirker menneskelig beskæftigelse.
  • Uddannelse og evaluering: At opdage, om en tekst er skrevet af en person eller af en AI, bliver en kompliceret opgave med konsekvenser på det akademiske område.
Eksklusivt indhold - Klik her  Hvordan skriver man en nyhedsartikel: eksempler?

Forskere har også advaret om hvordan Standardiseringen af ​​disse teknologier kan gøre deres opdagelse vanskeligere. i fremtiden. Efterhånden som vi vænner os til at interagere med automatiserede systemer, kan vi svigte vores vagt, hvilket gør det nemmere for disse modeller at være ude af skel fra en menneskelig samtalepartner, uden at vi er klar over det.

En anden tilbagevendende bekymring er etikken i dens implementering. I hvilket omfang skal en AI foregive at være et menneske uden at informere om dens kunstige natur? Skal der være klare grænser for, hvordan og hvornår det kan bruges i rigtige sammenhænge?

GPT-4.5 har ikke vist, at maskiner ræsonnerer, som vi gør, men det har gjort det klart, at de kan efterligne os på en måde, der gør det svært at skelne dem. Denne milepæl markerer et vendepunkt, ikke på grund af hvad maskinen er, men på grund af hvad den får os til at stille spørgsmålstegn ved: vores egne ideer om, hvad det vil sige at "være menneske" i en digital tidsalder, hvor det kunstige smelter sammen med det virkelige.