GPT-4.5 prechádza Turingovým testom so 73% správnosťou

GPT-4.5 dokázal v revidovanom Turingovom teste presvedčiť 73 % účastníkov, že išlo o človeka.
Experiment odhalil, že úspech AI závisí vo veľkej miere od pokynov a osvojenia si „osobnosti“.
Iné modely, ako napríklad LLaMa-3.1, dosiahli nižšiu mieru úspešnosti a bez prispôsobenia výsledky výrazne klesli.
Štúdia vyvoláva otázky o súčasných limitoch umelej inteligencie a rizikách spojených s jej narastajúcou konverzačnou realitou.

Vedeli by ste rozlíšiť medzi rozhovorom so skutočným človekom a strojom? Otázka, ktorú prvýkrát položil pred viac ako siedmimi desaťročiami Alan Turing, opäť nabrala na sile po nedávnom experimente, ktorý testoval najpokročilejšie modely umelej inteligencie v náročnom kontexte.

Vedci z Kalifornskej univerzity v San Diegu vykonali a štúdia, ktorá spochybňuje našu schopnosť rozlišovať medzi tým, čo je ľudské a čo je umelél. V centre experimentu, model GPT-4.5 OpenAI nielenže dokázala prejsť Turingovým testom za špecifických podmienok, ale Bol dokonca identifikovaný ako človek častejšie ako samotní skutoční ľudia.

Experiment v náročných podmienkach

Štúdia vedená výskumníkmi Cameronom Jonesom a Benjaminom Bergenom, sa zameral na upravenú verziu klasického Turingovho testu, na ktorej sa zúčastnilo viac ako 300 ľudí vrátane študentov vysokých škôl a používateľov online platforiem. Počas päťminútových stretnutí viedol každý účastník súčasne dva rozhovory: jeden s človekom a druhý so systémom umelej inteligencie. nakoniec Museli posúdiť, ktorý z účastníkov rozhovoru bol človek.

Exkluzívny obsah – kliknite sem Como Conseguir La

Výsledok bol zarážajúci: model GPT-4.5 bol vnímaný ako človek v 73 % prípadov keď mu bola pridelená definovaná osobnosť – napríklad osobnosť mladého muža so znalosťou digitálnej kultúry. Toto percento prekročilo nielen štatistickú hranicu, aby sa test považoval za úspešný, ale dokonca aj schopnosť skutočných ľudí vyzerať v tomto experimente ako ľudia. Tento prístup posilňuje myšlienku ako la umelá inteligencia sa v posledných desaťročiach vyvinula.

Keď však AI nemala špecifickú osobnosť a bola jednoducho požiadaná, aby vyzerala ako človek bez ďalšieho nabádania, jej účinnosť klesla na 36%. Toto zdôrazňuje dôležitosť kontextu a personalizácie v pokynoch (výzvách) daný jazykovým modelom.

Porovnanie modelov a neočakávané výsledky

Spolu s GPT-4.5 experiment zahŕňal aj ďalšie modely ako napr LLaMa-3.1-405B Meta, ktorá dosiahla 56 % správnu mieru, keď bola uvedená aj fiktívna osobnosť. Hoci je toto číslo nižšie ako v prípade GPT-4.5, stále je nad náhodou. Naproti tomu iné verzie ako GPT-4o alebo skúsený chatbot ELIZA zo 60-tych rokov neprekročili 21% a 23%, čo jasne ukazuje vzdialenosť medzi súčasnými a primitívnymi technológiami.

Estos resultados ukázať, že úspech AI v úlohe, ako je Turingov test, závisí oveľa viac od toho, ako je zadaná, než od samotného modelu. Kľúčom je prijať dôveryhodnú úlohu, nie vedome simulovať ľudskú inteligenciu. Ak sa chcete hlbšie ponoriť do toho, ako počítač Postupom času nájdete zaujímavé informácie.

Exkluzívny obsah – kliknite sem Kedy sa Bizum dostane do bankového systému?

Ďalej sa zistilo, že ani so sofistikovanými inštrukciami nedokázali niektoré modely udržať dostatočne presvedčivý rozhovor. GPT-4o priznal, že je AI bez toho, aby bol vyzvaný, ktorý rýchlo stratil dôveryhodnosť u ľudských partnerov.

Podvádzať alebo myslieť? Kontroverzia Turingovho testu

Absolvovanie Turingovho testu neznamená, že AI rozumie tomu, čo hovorí, alebo že si je vedomý svojich slov. Tu leží jedna z veľkých diskusií medzi odborníkmi. Zatiaľ čo niektorí oslavujú tento úspech ako významný pokrok v simulácii ľudského správania, iní si to myslia Tento typ testu už nie je spoľahlivý na meranie „skutočnej inteligencie“ umelého systému.

Zdôraznili to odborníci ako François Chollet, inžinier spoločnosti Google Turingov test je skôr filozofický experiment ako v súčasnosti užitočné meranie. Podľa tohto názoru to, že nás umelá inteligencia klame, neznamená, že odôvodňuje svet alebo mu rozumie. Skôr využíva vzory naučené z miliónov textov na vytvorenie hodnoverných odpovedí. Ak chcete lepšie porozumieť tejto oblasti, môžete sa poradiť, kto to je zakladateľ AI.

Znepokojujúce teda nie je ani tak to, čo tieto AI dokážu, ale to, čo veríme, že dokážu. Ľudská tendencia antropomorfizovať konverzačné systémy, ako to bolo už v prípade ELIZA v 60. rokoch, akoby časom nezaniklo. Dnes je tento fenomén umocnený oveľa sofistikovanejšími modelmi.

Aplikácie a riziká AI, ktorá znie príliš ľudsky

Skutočnosť, že AI sa môže v krátkom rozhovore považovať za človeka, predstavuje príležitosti, ale aj predstavuje značné riziká z hľadiska bezpečnosti, vzdelávania a sociálnych vzťahov.

Krádež identity: presvedčivá AI by mohla byť použitá v podvodných kampaniach alebo kampaniach sociálneho inžinierstva.
Desinformación: Modely schopné generovať ľudskú reč by mohli byť účinnými nástrojmi na manipuláciu alebo šírenie falošných správ.
Automatización laboral: Sektory ako zákaznícky servis alebo technická podpora by mohli byť nahradené týmito konverzačnými AI, ktoré ovplyvňujú zamestnanosť ľudí.
Vzdelávanie a hodnotenie: Zistenie, či text napísala osoba alebo umelá inteligencia, sa stáva komplikovanou úlohou s dôsledkami v akademickej oblasti.

Exkluzívny obsah – kliknite sem Lumo, chatbot od spoločnosti Proton pre umelú inteligenciu, ktorý je prvým ochrancom súkromia

Vedci tiež varovali, ako Štandardizácia týchto technológií môže sťažiť ich detekciu v budúcnosti. Keď si zvykneme na interakciu s automatizovanými systémami, môžeme poľaviť v ostražitosti, vďaka čomu budú tieto modely jednoduchšie na nerozoznanie od ľudského partnera bez toho, aby sme si to uvedomovali.

Ďalším opakujúcim sa problémom je etika jeho implementácie. Do akej miery by mala AI predstierať, že je človek, bez toho, aby informovala o svojej umelej povahe? Mali by existovať jasné obmedzenia, ako a kedy sa môže použiť v reálnych kontextoch?

GPT-4.5 nepreukázal, že stroje uvažujú ako my, ale dala jasne najavo, že nás dokážu napodobniť spôsobom, ktorý sťažuje ich rozlíšenie. Tento míľnik predstavuje zlomový bod nie kvôli tomu, čo je stroj, ale kvôli tomu, čo nás núti spochybňovať: naše vlastné predstavy o tom, čo znamená „byť človekom“ v digitálnom veku, kde sa umelé spája so skutočným.

Alberto Navarro

Som technologický nadšenec, ktorý zo svojich „geekovských“ záujmov urobil povolanie. Strávil som viac ako 10 rokov svojho života používaním špičkových technológií a hraním so všetkými druhmi programov z čistej zvedavosti. Teraz som sa špecializoval na počítačovú techniku a videohry. Je to preto, že už viac ako 5 rokov píšem pre rôzne webové stránky o technológiách a videohrách a vytváram články, ktoré sa snažia poskytnúť vám potrebné informácie v jazyku, ktorý je zrozumiteľný pre každého.

Ak máte nejaké otázky, moje znalosti siahajú od všetkého, čo súvisí s operačným systémom Windows, ako aj Androidom pre mobilné telefóny. A môj záväzok je voči vám, vždy som ochotný venovať pár minút a pomôcť vám vyriešiť akékoľvek otázky, ktoré môžete mať v tomto internetovom svete.