GPT-4.5 daleko předčí Turingův test: co tento milník znamená ve vývoji umělé inteligence?

Poslední aktualizace: 01.02.2024

  • GPT-4.5 dokázal v revidovaném Turingově testu přesvědčit 73 % účastníků, že jde o člověka.
  • Experiment odhalil, že úspěch AI závisí do značné míry na pokynech a přijetí „osobnosti“.
  • Jiné modely, jako je LLaMa-3.1, dosáhly nižší úspěšnosti a bez přizpůsobení se výsledky výrazně propadly.
  • Studie vyvolává otázky ohledně současných limitů umělé inteligence a rizik spojených s její rostoucí realističností konverzace.
GPT-4.5 projde testem Turing-0

Dokázali byste rozlišit mezi rozhovorem se skutečným člověkem a strojem? Otázka, kterou poprvé položil před více než sedmi desetiletími Alan Turing, znovu nabyla pozornosti po nedávném experimentu, který testoval nejpokročilejší modely umělé inteligence v náročném kontextu.

Vědci z Kalifornské univerzity v San Diegu provedli a studie, která zpochybňuje naši schopnost rozlišovat mezi tím, co je lidské a co je umělél. V centru experimentu, model GPT-4.5 OpenAI nejenže dokázala projít Turingovým testem za specifických podmínek, ale Dokonce byl častěji identifikován jako člověk než skuteční lidé sami.

Experiment za přísných podmínek

Rozhovory AI během Turingova testu

Studie, kterou vedli vědci Cameron Jones a Benjamin Bergen, se zaměřil na upravenou verzi klasického Turingova testu, kde se zúčastnilo více než 300 lidí, včetně studentů vysokých škol a uživatelů online platforem. Během pětiminutových sezení vedl každý účastník současně dva rozhovory: jeden s člověkem a druhý se systémem umělé inteligence. Nakonec, Museli posoudit, který z účastníků rozhovoru byl člověk.

Exkluzivní obsah – klikněte zde  Galaxie sochaře: Nebývalý portrét odhaluje svá tajemství v plných barvách

Výsledek byl zarážející: model GPT-4.5 byl vnímán jako člověk v 73 % případů když mu byla přidělena definovaná osobnost – například osobnost mladého muže se znalostí digitální kultury. Toto procento překročilo nejen statistický práh pro to, aby byl test považován za úspěšný, ale dokonce i schopnost skutečných lidí vypadat jako člověk v tomto experimentu. Tento přístup posiluje myšlenku jak la umělá inteligence se v posledních desetiletích vyvíjela.

Naproti tomu, když AI neměla specifickou osobnost a byla jednoduše požádána, aby vypadala jako člověk bez dalšího pobízení, její účinnost klesla na 36 %. To podtrhuje důležitost kontextu a personalizace v pokynech (výzvách) daný jazykovým modelům.

Srovnání mezi modely a neočekávané výsledky

Testují se různé modely AI

Spolu s GPT-4.5 experiment zahrnoval další modely jako např LLaMa-3.1-405B Meta, která dosáhla 56% míry přesnosti, když byla také uvedena fiktivní osobnost. Ačkoli je toto číslo nižší než u GPT-4.5, stále je nad náhodou. Naproti tomu jiné verze jako GPT-4o nebo veteránský chatbot ELIZA z 60. let nepřesáhly 21 a 23 %, což jasně ukazuje vzdálenost mezi současnými a primitivními technologiemi.

Tyto výsledky ukázat, že úspěch AI v úkolu, jako je Turingův test, závisí mnohem více na tom, jak je instruována, než na modelu samotném. Klíčem je přijmout důvěryhodnou roli, nikoli vědomě simulovat lidskou inteligenci. Pokud se chcete hlouběji ponořit do toho, jak počítač Postupem času se dozvíte zajímavé informace.

Exkluzivní obsah – klikněte zde  Jak je v Acapulcu?

Dále bylo zjištěno, že i přes sofistikované instrukce nebyly některé modely schopny udržet dostatečně přesvědčivý rozhovor. GPT-4o přiznal, že je AI, aniž by byl vyzván, který rychle ztratil důvěryhodnost u lidských partnerů.

Podvádět nebo myslet? Kontroverze Turingova testu

Diskuse o poznání v AI

Absolvování Turingova testu neznamená, že AI rozumí tomu, co říká, nebo že si je vědoma svých slov. Zde leží jedna z velkých diskusí mezi odborníky. Zatímco někteří oslavují tento úspěch jako významný pokrok v simulaci lidského chování, jiní to považují Tento typ testu již není spolehlivý pro měření „skutečné inteligence“ umělého systému.

Zdůraznili to odborníci jako François Chollet, inženýr společnosti Google Turingův test je spíše filozofický experiment než v současnosti užitečné měření. Podle tohoto názoru to, že nás umělá inteligence klame, neznamená, že odůvodňuje svět nebo že světu hluboce rozumí. Spíše využívá vzory naučené z milionů textů k vytvoření věrohodných odpovědí. Chcete-li lépe porozumět této oblasti, můžete se poradit, kdo to je zakladatel AI.

Znepokojivá věc tedy není ani tak to, co tyto AI dokážou, ale to, co věříme, že dělají. Lidská tendence antropomorfizovat konverzační systémy, jak tomu bylo již u ELIZA v 60. letech, jako by časem nevymizelo. Dnes je tento fenomén umocněn mnohem sofistikovanějšími modely.

Aplikace a rizika AI, která zní příliš lidsky

Skutečnost, že se umělá inteligence může v krátkém rozhovoru vydávat za člověka, představuje příležitosti, ale také představuje značná rizika z hlediska bezpečnosti, vzdělávání a sociálních vztahů.

  • Krádež identity: přesvědčivá umělá inteligence by mohla být použita v podvodných kampaních nebo kampaních sociálního inženýrství.
  • Dezinformace: Modely schopné generovat lidskou řeč by mohly být účinnými nástroji k manipulaci nebo šíření falešných zpráv.
  • Automatizace úloh: Odvětví, jako je zákaznický servis nebo technická podpora, by mohly být nahrazeny těmito konverzačními AI, což má vliv na zaměstnanost lidí.
  • Vzdělávání a hodnocení: Zjištění, zda text napsala osoba nebo umělá inteligence, se stává komplikovaným úkolem s důsledky v akademické oblasti.
Exkluzivní obsah – klikněte zde  Jak odemknout skryté dovednosti Alexy

Vědci také varovali před tím, jak Standardizace těchto technologií může ztížit jejich detekci. v budoucnu. Když si zvykneme na interakci s automatizovanými systémy, můžeme polevit ve své ostražitosti, takže tyto modely budou snazší k nerozeznání od lidského partnera, aniž bychom si to uvědomovali.

Dalším opakujícím se problémem je etika jeho provádění. Do jaké míry by měla AI předstírat, že je člověk, aniž by informovala o své umělé povaze? Měla by existovat jasná omezení toho, jak a kdy může být použita v reálných kontextech?

GPT-4.5 neprokázala, že stroje uvažují jako my, ale jasně ukázalo, že nás mohou napodobovat způsobem, který ztěžuje jejich rozlišení. Tento milník znamená zlom, ne kvůli tomu, co je stroj, ale kvůli tomu, co nás nutí zpochybňovat: naše vlastní představy o tom, co to znamená „být člověkem“ v digitálním věku, kde se umělé splývá se skutečností.