GPT-4.5 преминава теста на Тюринг със 73% коректност

GPT-4.5 успя да убеди 73% от участниците, че е човек в ревизиран тест на Тюринг.
Експериментът разкри, че успехът на AI зависи до голяма степен от инструкциите и приемането на „личност“.
Други модели като LLaMa-3.1 постигнаха по-ниски нива на успеваемост и без персонализиране резултатите се сринаха значително.
Проучването повдига въпроси относно настоящите граници на изкуствения интелект и рисковете, свързани с неговия нарастващ разговорен реализъм.

Ще можете ли да направите разлика между разговор с истински човек и машина? Въпросът, поставен за първи път преди повече от седем десетилетия от Алън Тюринг, отново придоби популярност след скорошен експеримент, който тества най-напредналите модели на изкуствен интелект в предизвикателен контекст.

Изследователи от Калифорнийския университет в Сан Диего са извършили a изследване, което предизвиква способността ни да правим разлика между това, което е човешко и това, което е изкуственол. В центъра на експеримента, моделът GPT-4.5 на OpenAI не само успя да премине теста на Тюринг при определени условия, но Той дори беше идентифициран като човек по-често от самите истински хора.

Експеримент при строги условия

Проучването, ръководено от изследователите Камерън Джоунс и Бенджамин Берген, фокусиран върху модифицирана версия на класическия тест на Тюринг, където участваха над 300 души, включително студенти и потребители на онлайн платформи. По време на петминутни сесии всеки участник едновременно проведе два разговора: един с човек и един със система за изкуствен интелект. в крайна сметка Те трябваше да преценят кой от събеседниците е човек.

Изключително съдържание - Щракнете тук Грок в Телеграм? Точно така, чатботът на Илон Мъск идва в приложението, за да революционизира обмена на съобщения с изкуствен интелект.

Резултатът беше поразителен: моделът GPT-4.5 се възприема като човек в 73% от случаите когато му е определена определена личност - например тази на млад мъж с познания за дигиталната култура. Този процент надвишава не само статистическия праг, за да се приеме, че тестът е преминал, но дори способността на истински хора да изглеждат като хора в този експеримент. Този подход засилва идеята за това как la изкуствен интелект се разви през последните десетилетия.

Въпреки това, когато изкуственият интелект нямаше конкретна личност и беше просто помолен да изглежда като човек без допълнителни подкани, ефективността му падна до 36%. Това подчертава важността на контекста и персонализирането в инструкциите (подкани) дадени на езикови модели.

Сравнение между модели и неочаквани резултати

Наред с GPT-4.5 в експеримента са включени и други модели като напр LLaMa-3.1-405B Мета, който постигна 56% процент на точност, когато му беше дадена и измислена личност. Въпреки че тази цифра е по-ниска от тази на GPT-4.5, тя все още е над шанса. За разлика от тях, други версии като GPT-4o или ветеранът чатбот ELIZA от 60-те години не надхвърлят съответно 21% и 23%, което ясно показва дистанцията между настоящите и примитивните технологии.

Тези резултати показват, че успехът на AI в задача като теста на Тюринг зависи много повече от начина, по който е инструктиран, отколкото от самия модел. Ключът е да приемете надеждна роля, а не съзнателно да симулирате човешка интелигентност. Ако искате да се задълбочите в това как компютър С течение на времето ще намерите интересна информация.

Изключително съдържание - Щракнете тук ChatGPT ShadowLeak: Проблемът Deep Research в ChatGPT, който компрометира данните в Gmail

Освен това беше установено, че дори със сложни инструкции някои модели не успяха да поддържат достатъчно убедителен разговор. GPT-4o призна, че е AI, без да бъде оспорван, което бързо загуби доверие сред човешките събеседници.

Измами или мисли? Спорът за теста на Тюринг

Преминаването на теста на Тюринг не означава, че ИИ разбира какво казва или е наясно с неговите думи. Тук се крие една от големите дискусии между експерти. Докато някои празнуват това постижение като значителен напредък в симулацията на човешкото поведение, други смятат това Този тип тест вече не е надежден за измерване на „реалния интелект“ на изкуствена система.

Експерти като Франсоа Шоле, инженер на Google, подчертаха това Тестът на Тюринг е по-скоро философски експеримент, отколкото полезно в момента измерване. Според тази гледна точка само защото ИИ ни мами не означава, че той разсъждава или има дълбоко разбиране за света. По-скоро използва модели, научени от милиони текстове, за да конструира правдоподобни отговори. За да разберете по-добре тази област, можете да се консултирате кой е основател на AI.

Притеснителното тогава не е толкова какво могат да направят тези ИИ, а какво вярваме, че правят. Човешката тенденция да антропоморфизира разговорните системи, както вече беше случаят с ELIZA през 60-те години, изглежда не е изчезнал с времето. Днес явлението се увеличава с много по-сложни модели.

Приложения и рискове от AI, който звучи твърде човешки

Фактът, че AI може да мине за човек в кратък разговор, предоставя възможности, но също така крие значителни рискове по отношение на сигурността, образованието и социалните отношения.

Кражба на самоличност: убедителен AI може да се използва в кампании за измами или социално инженерство.
Дезинформация: Модели, способни да генерират човешка реч, могат да бъдат ефективни инструменти за манипулиране или разпространение на фалшиви новини.
Автоматизация на работата: Сектори като обслужване на клиенти или техническа поддръжка могат да бъдат заменени от тези разговорни ИИ, засягащи заетостта на хората.
Образование и оценка: Откриването дали даден текст е написан от човек или от AI се превръща в сложна задача с последствия в академичната област.

Изключително съдържание - Щракнете тук Къде е Апексът?

Изследователите също предупредиха как Стандартизирането на тези технологии може да затрудни откриването им в бъдещето. Когато свикнем да взаимодействаме с автоматизирани системи, може да свалим гарда си, което улеснява тези модели да бъдат неразличими от човешки събеседник, без да го осъзнаваме.

Друго повтарящо се безпокойство е етиката на прилагането му. До каква степен AI трябва да се преструва на човек, без да информира за неговата изкуствена природа? Трябва ли да има ясни ограничения за това как и кога може да се използва в реален контекст?

GPT-4.5 не показа, че машините разсъждават като нас, но ясно показа, че те могат да ни имитират по начин, който затруднява разграничаването им. Този крайъгълен камък бележи повратна точка не заради това какво представлява машината, а заради това, което ни кара да се съмняваме: собствените ни идеи за това какво означава да „бъдем хора“ в дигиталната ера, в която изкуственото се слива с реалното.

Алберто Наваро

Аз съм технологичен ентусиаст, който е превърнал своите „гийк“ интереси в професия. Прекарах повече от 10 години от живота си, използвайки авангардни технологии и бърникайки с всякакви програми от чисто любопитство. Сега съм специализирал компютърни технологии и видео игри. Това е така, защото повече от 5 години пиша за различни уебсайтове за технологии и видео игри, създавайки статии, които се стремят да ви дадат информацията, от която се нуждаете, на език, разбираем за всички.

Ако имате някакви въпроси, познанията ми варират от всичко свързано с операционната система Windows, както и с Android за мобилни телефони. И моят ангажимент е към вас, винаги съм готов да отделя няколко минути и да ви помогна да разрешите всички въпроси, които може да имате в този интернет свят.