GPT-4.5 значна пераўзыходзіць Тэст Цьюрынга: што азначае гэтая вяха ў эвалюцыі штучнага інтэлекту?

Апошняе абнаўленне: 07/04/2025

  • У перагледжаным тэсце Цьюрынга GPT-4.5 удалося пераканаць 73% удзельнікаў, што гэта чалавек.
  • Эксперымент паказаў, што поспех штучнага інтэлекту шмат у чым залежыць ад інструкцый і прыняцця "асобы".
  • Іншыя мадэлі, такія як LLaMa-3.1, атрымалі больш нізкія паказчыкі поспеху, і без наладкі вынікі значна ўпалі.
  • Даследаванне падымае пытанні аб сучасных абмежаваннях штучнага інтэлекту і рызыках, звязаных з яго ўсё большым гутарковым рэалізмам.
GPT-4.5 праходзіць тэст Turing-0

Ці змаглі б вы адрозніць размову з сапраўдным чалавекам і машынай? Пытанне, упершыню пастаўленае больш за сем дзесяцігоддзяў таму Аланам Т'юрынгам, зноў набыло абароты пасля нядаўняга эксперыменту, які правяраў самыя дасканалыя мадэлі штучнага інтэлекту ў складаным кантэксце.

Даследчыкі з Каліфарнійскага ўніверсітэта ў Сан-Дыега правялі а даследаванне, якое кідае выклік нашай здольнасці адрозніваць чалавечае ад штучнагал. У цэнтры эксперыменту, мадэль ГПТ-4.5 OpenAI не толькі здолеў прайсці тэст Цьюрынга ў пэўных умовах, але Яго нават ідэнтыфікавалі як чалавека часцей, чым саміх рэальных людзей.

Эксперымент у строгіх умовах

Інтэрв'ю AI падчас тэсту Цьюрынга

Даследаванне пад кіраўніцтвам даследчыкаў Кэмерана Джонса і Бенджаміна Бергена сканцэнтраваны на мадыфікаванай версіі класічнага тэсту Цьюрынга, у якім прынялі ўдзел больш за 300 чалавек, у тым ліку студэнты ВНУ і карыстальнікі інтэрнэт-пляцовак. Падчас пяціхвілінных заняткаў кожны ўдзельнік адначасова вёў дзве размовы: адну з чалавекам і другую з сістэмай штучнага інтэлекту. У рэшце рэшт, Яны павінны былі судзіць, хто з суразмоўцаў чалавек.

Эксклюзіўны кантэнт - націсніце тут  Урсула GTA

Вынік ашаламіў: мадэль GPT-4.5 была ўспрынятая як чалавек у 73% выпадкаў калі яму прызначылі акрэсленую асобу - напрыклад, маладога чалавека, які ведае лічбавую культуру. Гэты працэнт перавышае не толькі статыстычны парог, каб лічыць тэст пройдзеным, але нават здольнасць рэальных людзей выглядаць людзьмі ў гэтым эксперыменце. Такі падыход умацоўвае ідэю таго, як la штучны інтэлект склалася ў апошнія дзесяцігоддзі.

Наадварот, калі штучны інтэлект не меў пэўнай асобы і яго проста папрасілі выглядаць чалавекам без дадатковых падказак, яго эфектыўнасць упала да 36%. Гэта падкрэслівае важнасць кантэксту і персаналізацыі ў інструкцыях (падказках) нададзены моўным мадэлям.

Параўнанне мадэляў і нечаканыя вынікі

Выпрабоўваюцца розныя мадэлі штучнага інтэлекту

Разам з GPT-4.5 у эксперымент былі ўключаны і іншыя мадэлі, такія як LLaMa-3.1-405B Мета, які дасягнуў 56% дакладнасці, калі таксама даў выдуманую асобу. Нягледзячы на ​​​​тое, што гэты паказчык ніжэй, чым у GPT-4.5, ён усё роўна вышэй выпадковасці. Наадварот, іншыя версіі, такія як GPT-4o або ветэранскі чат-бот ELIZA з 60-х гадоў, не перавышалі 21% і 23% адпаведна, што выразна паказвае дыстанцыю паміж сучаснымі і прымітыўнымі тэхналогіямі.

Estos resultados паказаць, што поспех штучнага інтэлекту ў такіх задачах, як Тэст Цьюрынга, залежыць значна больш ад таго, як яму прапанавана, чым ад самой мадэлі. Галоўнае - прыняць ролю, якая заслугоўвае даверу, а не свядома імітаваць чалавечы інтэлект. Калі вы хочаце паглыбіцца ў тое, як камп'ютар З часам вы знойдзеце цікавую інфармацыю.

Эксклюзіўны кантэнт - націсніце тут  Як называецца Банамекс?

Акрамя таго, было выяўлена, што нават з дасканалымі інструкцыямі некаторыя мадэлі не змаглі падтрымліваць дастаткова пераканаўчую размову. GPT-4o прызнаў сябе ІІ без выкліку, які хутка страціў аўтарытэт у людзей-суразмоўцаў.

Падмануць ці падумаць? Спрэчка аб тэсце Цьюрынга

Дыскусія аб пазнанні ў ІІ

Праходжанне тэсту Цьюрынга не азначае, што штучны інтэлект разумее, што ён кажа, або ўсведамляе яго словы. Вось адна з самых вялікіх дыскусій паміж экспертамі. У той час як некаторыя адзначаюць гэтае дасягненне як значны прагрэс у мадэляванні паводзін чалавека, іншыя лічаць гэта Гэты тып тэсту больш не з'яўляецца надзейным для вымярэння "сапраўднага інтэлекту" штучнай сістэмы.

Такія эксперты, як Франсуа Шоле, інжынер Google, падкрэслілі гэта Тэст Цьюрынга больш падобны на філасофскі эксперымент, чым на цяперашні час. Згодна з гэтым пунктам гледжання, тое, што ІІ падманвае нас, не азначае, што ён разважае або глыбока разумее свет. Хутчэй, ён выкарыстоўвае шаблоны, атрыманыя з мільёнаў тэкстаў, каб пабудаваць праўдападобныя адказы. Каб лепш зразумець гэтую сферу, вы можаце параіцца, хто з'яўляецца заснавальнік ІІ.

Такім чынам, насцярожвае не столькі тое, што гэтыя штучныя інтэлекты могуць рабіць, колькі тое, што мы лічым, што яны робяць. Тэндэнцыя чалавека да антрапамарфізацыі гутарковых сістэм, як гэта было ўжо ў выпадку з ELIZA ў 60-я гады, здаецца, не знік з цягам часу. Сёння гэтая з'ява павялічваецца значна больш дасканалымі мадэлямі.

Праграмы і рызыкі штучнага інтэлекту, які гучыць занадта па-чалавечы

Той факт, што штучны інтэлект можа выдаць за чалавека ў кароткай размове, адкрывае магчымасці, але таксама стварае значныя рызыкі з пункту гледжання бяспекі, адукацыі і сацыяльных адносін.

  • Крадзеж асабістых дадзеных: пераканаўчы штучны інтэлект можа быць выкарыстаны ў кампаніях афёры або сацыяльнай інжынерыі.
  • Desinformación: Мадэлі, здольныя генераваць чалавечую гаворку, могуць быць эфектыўнымі інструментамі для маніпуляцыі або распаўсюджвання фальшывых навін.
  • Automatización laboral: Такія сектары, як абслугоўванне кліентаў або тэхнічная падтрымка, могуць быць заменены гэтымі гутарковымі штучнымі інтэлектамі, што паўплывае на занятасць людзей.
  • Адукацыя і ацэнка: Вызначыць, ці быў тэкст напісаны чалавекам ці штучным інтэлектам, становіцца складанай задачай з наступствамі ў акадэмічнай сферы.
Эксклюзіўны кантэнт - націсніце тут  Нью-ёркскія таямніцы, сакрэты мафіі, даведнік па камерцыйным партах

Даследчыкі таксама папярэдзілі, як Стандартызацыя гэтых тэхналогій можа ўскладніць іх выяўленне. у будучым. Калі мы прызвычаімся да ўзаемадзеяння з аўтаматызаванымі сістэмамі, мы можам аслабіць сваю ахову, што робіць гэтыя мадэлі лягчэй неадрознымі ад чалавека-суразмоўцы, нават калі мы гэтага не ўсведамляем.

Яшчэ адзін перыядычны клопат - гэта этычнасць яго рэалізацыі. У якой ступені штучны інтэлект павінен прыкідвацца чалавекам, не паведамляючы аб сваёй штучнай прыродзе? Ці павінны быць дакладныя абмежаванні адносна таго, як і калі яго можна выкарыстоўваць у рэальным кантэксце?

GPT-4.5 не паказаў, што машыны разважаюць так, як мы, але гэта ясна дало зразумець, што яны могуць імітаваць нас такім чынам, што іх цяжка адрозніць. Гэтая вяха азначае паваротны момант не з-за таго, чым з'яўляецца машына, а з-за таго, што яна прымушае нас сумнявацца: нашы ўласныя ўяўленні аб тым, што значыць «быць чалавекам» у эпоху лічбавых тэхналогій, дзе штучнае зліваецца з рэальным.