GPT-4.5 ឆ្លងកាត់ការធ្វើតេស្ត Turing ជាមួយនឹងជោគជ័យ 73%

GPT-4.5 បានគ្រប់គ្រងដើម្បីបញ្ចុះបញ្ចូល 73% នៃអ្នកចូលរួមថាវាគឺជាមនុស្សនៅក្នុងការធ្វើតេស្ត Turing ដែលបានកែប្រែ។
ការពិសោធន៍បានបង្ហាញថាភាពជោគជ័យរបស់ AI ភាគច្រើនអាស្រ័យទៅលើការណែនាំ និងការទទួលយក "បុគ្គលិកលក្ខណៈ" ។
ម៉ូដែលផ្សេងទៀតដូចជា LLaMa-3.1 មានអត្រាជោគជ័យទាបជាង ហើយដោយគ្មានការកំណត់ផ្ទាល់ខ្លួន លទ្ធផលបានធ្លាក់ចុះយ៉ាងខ្លាំង។
ការសិក្សានេះលើកជាសំណួរអំពីដែនកំណត់បច្ចុប្បន្ននៃបញ្ញាសិប្បនិម្មិត និងហានិភ័យដែលទាក់ទងនឹងភាពជាក់ស្តែងនៃការសន្ទនាដែលកំពុងកើនឡើង។

តើអ្នកអាចបែងចែករវាងការសន្ទនាជាមួយមនុស្សពិត និងម៉ាស៊ីនបានទេ? សំណួរដែលចោទសួរដំបូងជាង 7 ទសវត្សរ៍មុនដោយ Alan Turing បានទទួលការចាប់អារម្មណ៍ជាថ្មីបន្ទាប់ពីការពិសោធន៍ថ្មីៗនេះ ដែលបានសាកល្បងម៉ូដែលទំនើបបំផុតនៃបញ្ញាសិប្បនិម្មិតនៅក្នុងបរិបទដ៏លំបាកមួយ។

អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យកាលីហ្វ័រញ៉ា សាន់ឌីហ្គោ បានធ្វើការ ការសិក្សាដែលប្រឈមនឹងសមត្ថភាពរបស់យើងក្នុងការបែងចែករវាងមនុស្ស និងសិប្បនិម្មិត។លីត្រ នៅកណ្តាលនៃការពិសោធន៍, ម៉ូដែល GPT-4.5 OpenAI មិនត្រឹមតែអាចឆ្លងកាត់ការធ្វើតេស្ត Turing ក្រោមលក្ខខណ្ឌជាក់លាក់ប៉ុណ្ណោះទេ គាត់ថែមទាំងត្រូវបានគេកំណត់ថាជាមនុស្សញឹកញាប់ជាងមនុស្សពិតទៀតផង។

ការពិសោធន៍ក្រោមលក្ខខណ្ឌតឹងតែង

ការសិក្សានេះដឹកនាំដោយអ្នកស្រាវជ្រាវ Cameron Jones និង Benjamin Bergen ។ ផ្តោតលើកំណែដែលបានកែប្រែនៃការធ្វើតេស្ត Turing បុរាណដែលជាកន្លែងដែលមនុស្សជាង 300 នាក់បានចូលរួម រួមទាំងនិស្សិតសាកលវិទ្យាល័យ និងអ្នកប្រើប្រាស់វេទិកាអនឡាញ។ ក្នុងអំឡុងពេលវគ្គប្រាំនាទី អ្នកចូលរួមម្នាក់ៗបានធ្វើការសន្ទនាពីរក្នុងពេលដំណាលគ្នា៖ មួយជាមួយមនុស្ស និងមួយទៀតជាមួយប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។ នៅទីបញ្ចប់ ពួកគេត្រូវវិនិច្ឆ័យថាតើអ្នកសន្ទនាមួយណាជាមនុស្ស.

មាតិកាផ្តាច់មុខ - ចុចទីនេះ តើ Pachuca ថ្ងៃនេះយ៉ាងម៉េចដែរ?

លទ្ធផលគឺគួរអោយចាប់អារម្មណ៍៖ គំរូ GPT-4.5 ត្រូវបានគេដឹងថាជាមនុស្សក្នុង 73% នៃករណី នៅពេលដែលគាត់ត្រូវបានគេផ្តល់ឱ្យនូវបុគ្គលិកលក្ខណៈដែលបានកំណត់ - ឧទាហរណ៍ថាមនុស្សវ័យក្មេងដែលមានចំណេះដឹងអំពីវប្បធម៌ឌីជីថល។ ភាគរយនេះលើសពីកម្រិតស្ថិតិសម្រាប់ពិចារណាលើការសាកល្បងបានកន្លងផុតទៅហើយ ប៉ុន្តែថែមទាំងសមត្ថភាពរបស់មនុស្សពិតក្នុងការបង្ហាញខ្លួនមនុស្សនៅក្នុងការពិសោធន៍នេះផងដែរ។ វិធីសាស្រ្តនេះពង្រឹងគំនិតនៃរបៀប la ប្រាជ្ញាសិប្បនិម្មិត បានវិវឌ្ឍន៍ក្នុងប៉ុន្មានទសវត្សរ៍ថ្មីៗនេះ។

ទោះជាយ៉ាងណាក៏ដោយ នៅពេលដែល AI មិនត្រូវបានផ្តល់ឱ្យនូវបុគ្គលិកលក្ខណៈជាក់លាក់មួយ ហើយត្រូវបានស្នើសុំឱ្យបង្ហាញខ្លួនជាមនុស្សដោយមិនមានការជម្រុញបន្ថែម ប្រសិទ្ធភាពរបស់វាធ្លាក់ចុះដល់ 36% ។ នេះគូសបញ្ជាក់ សារៈសំខាន់នៃបរិបទ និងការកំណត់ផ្ទាល់ខ្លួននៅក្នុងការជម្រុញ ផ្តល់ឱ្យគំរូភាសា។

ការប្រៀបធៀបរវាងម៉ូដែល និងលទ្ធផលដែលមិនបានរំពឹងទុក

រួមជាមួយនឹង GPT-4.5 ការពិសោធន៍រួមបញ្ចូលម៉ូដែលផ្សេងទៀតដូចជា LLaMa-3.1-405B នៃ Metaដែលសម្រេចបាននូវអត្រាភាពត្រឹមត្រូវ 56% នៅពេលផ្តល់បុគ្គលិកលក្ខណៈប្រឌិតផងដែរ។ ទោះបីជាតួលេខនេះទាបជាង GPT-4.5 ក៏ដោយ ក៏វានៅតែលើសពីឱកាស។ ផ្ទុយទៅវិញ កំណែផ្សេងទៀតដូចជា GPT-4o ឬ chatbot ELIZA ជើងចាស់ពីទសវត្សរ៍ឆ្នាំ 60 មិនលើសពី 21% និង 23% រៀងៗខ្លួន ដោយធ្វើឱ្យច្បាស់នូវគម្លាតរវាងបច្ចេកវិទ្យាបច្ចុប្បន្ន និងបច្ចេកវិទ្យាបឋម។

លទ្ធផលទាំងនេះ បង្ហាញថាភាពជោគជ័យនៃ AI នៅក្នុងកិច្ចការដូចជា Turing Test អាស្រ័យច្រើនលើរបៀបដែលវាត្រូវបានណែនាំជាងគំរូខ្លួនឯង។. គន្លឹះសំខាន់គឺត្រូវប្រកាន់យកតួនាទីដ៏គួរឱ្យទុកចិត្ត មិនមែនដើម្បីក្លែងធ្វើភាពឆ្លាតវៃរបស់មនុស្សនោះទេ។ ប្រសិនបើអ្នកចង់ស្វែងយល់ឱ្យកាន់តែស៊ីជម្រៅអំពីរបៀប កុំព្យូទ័រ យូរ ៗ ទៅអ្នកនឹងរកឃើញព័ត៌មានគួរឱ្យចាប់អារម្មណ៍។

មាតិកាផ្តាច់មុខ - ចុចទីនេះ តើធ្វើដូចម្តេចដើម្បីដឹងថាខ្ញុំត្រូវបោះឆ្នោតនៅឆ្នាំ 2021 នៅកន្លែងណា

លើសពីនេះ គេបានរកឃើញថា ទោះបីជាមានការណែនាំដ៏ស្មុគ្រស្មាញក៏ដោយ ម៉ូដែលមួយចំនួនមិនអាចរក្សាការសន្ទនាដ៏គួរឱ្យជឿជាក់បានគ្រប់គ្រាន់នោះទេ។ GPT-4o បានទទួលស្គាល់ថាជា AI ដែលមានការប្រកួតប្រជែងតិចតួច។ដែលបាត់បង់ភាពជឿជាក់យ៉ាងឆាប់រហ័សក្នុងចំណោមអ្នកទាក់ទងគ្នារបស់មនុស្ស។

ដើម្បីបញ្ឆោតឬគិត? ភាពចម្រូងចម្រាសនៃការធ្វើតេស្ត Turing

ការឆ្លងកាត់ការធ្វើតេស្ត Turing មិនមានន័យថា AI យល់ពីអ្វីដែលអ្នកនិយាយ ឬដឹងពីពាក្យរបស់អ្នកនោះទេ។ នេះគឺជាការពិភាក្សាដ៏អស្ចារ្យមួយក្នុងចំណោមអ្នកជំនាញ។ ខណៈពេលដែលអ្នកខ្លះអបអរសាទរសមិទ្ធិផលនេះថាជាការឈានទៅមុខយ៉ាងសំខាន់ក្នុងការក្លែងធ្វើអាកប្បកិរិយារបស់មនុស្សនោះ អ្នកផ្សេងទៀតចាត់ទុកថានោះ។ ប្រភេទនៃការធ្វើតេស្តនេះលែងអាចទុកចិត្តបានសម្រាប់ការវាស់ស្ទង់ "ភាពវៃឆ្លាតពិត" របស់ប្រព័ន្ធសិប្បនិមិត្ត។.

អ្នកជំនាញដូចជា François Chollet ដែលជាវិស្វករ Google បានចង្អុលបង្ហាញថា ការធ្វើតេស្ត Turing គឺជាការពិសោធន៍ទស្សនវិជ្ជាជាងការវាស់វែងដែលមានប្រយោជន៍នាពេលបច្ចុប្បន្ន។. យោងទៅតាមទស្សនៈនេះ គ្រាន់តែដោយសារតែ AI បញ្ឆោតយើង មិនមែនមានន័យថាវាមានហេតុផល ឬការយល់ដឹងស៊ីជម្រៅអំពីពិភពលោកនោះទេ។ ផ្ទុយទៅវិញ វាប្រើលំនាំដែលបានរៀនពីអត្ថបទរាប់លាន ដើម្បីបង្កើតចម្លើយដែលអាចទុកចិត្តបាន។ ដើម្បីយល់កាន់តែច្បាស់អំពីវាលនេះ អ្នកអាចពិនិត្យមើលថាតើនរណាជា ស្ថាបនិក AI.

ដូច្នេះអ្វីដែលគួរឱ្យព្រួយបារម្ភនោះគឺមិនច្រើនទេដែល AI ទាំងនេះអាចធ្វើបាន ប៉ុន្តែអ្វីដែលយើងគិតថាពួកគេធ្វើ។ ទំនោររបស់មនុស្សក្នុងការបង្កើតប្រព័ន្ធសន្ទនាដូចករណី ELIZA ក្នុងទស្សវត្សរ៍ឆ្នាំ 60 ហាក់ដូចជាមិនបាត់ទៅវិញតាមពេលវេលា។ សព្វថ្ងៃនេះ បាតុភូតនេះត្រូវបានលើកតម្កើងជាមួយនឹងម៉ូដែលទំនើបៗជាច្រើនទៀត។

កម្មវិធី និងហានិភ័យនៃ AI ដែលស្តាប់ទៅដូចជាមនុស្សពេក

ការពិតដែលថា AI អាចឆ្លងដល់មនុស្សក្នុងការសន្ទនាខ្លីៗបង្ហាញពីឱកាស ប៉ុន្តែក៏មានផងដែរ។ បង្កហានិភ័យយ៉ាងសំខាន់ ទាក់ទងនឹងសន្តិសុខ ការអប់រំ និងទំនាក់ទំនងសង្គម។

ការបន្លំអត្តសញ្ញាណ៖ ការបញ្ចុះបញ្ចូល AI អាចត្រូវបានប្រើនៅក្នុងយុទ្ធនាការបោកប្រាស់ ឬវិស្វកម្មសង្គម។
ព័ត៌មានមិនពិត៖ គំរូដែលមានសមត្ថភាពបង្កើតការនិយាយរបស់មនុស្សអាចជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពសម្រាប់រៀបចំ ឬផ្សព្វផ្សាយព័ត៌មានក្លែងក្លាយ។
ស្វ័យប្រវត្តិកម្មការងារ៖ វិស័យដូចជាសេវាកម្មអតិថិជន ឬជំនួយបច្ចេកទេសអាចត្រូវបានជំនួសដោយ AI សន្ទនាទាំងនេះ ដែលប៉ះពាល់ដល់ការងាររបស់មនុស្ស។
ការអប់រំ និងការវាយតម្លៃ៖ ការរកឃើញថាតើអត្ថបទត្រូវបានសរសេរដោយមនុស្ស ឬ AI ក្លាយជាកិច្ចការដ៏ស្មុគស្មាញមួយ ជាមួយនឹងផលវិបាកនៅក្នុងវិស័យសិក្សា។

មាតិកាផ្តាច់មុខ - ចុចទីនេះ ប្រើ Windows Copilot នៅលើ Mac៖ ការណែនាំអំពីការរួមបញ្ចូលពេញលេញ

អ្នកស្រាវជ្រាវក៏បានព្រមានអំពីរបៀប ការធ្វើស្តង់ដារនៃបច្ចេកវិទ្យាទាំងនេះអាចធ្វើឱ្យការរកឃើញរបស់ពួកគេកាន់តែពិបាក។ នាពេលអនាគត។ នៅពេលដែលយើងកាន់តែស៊ាំទៅនឹងការប្រាស្រ័យទាក់ទងជាមួយប្រព័ន្ធស្វ័យប្រវត្តិ យើងអាចទុកឱ្យការប្រុងប្រយ័ត្នរបស់យើង ដែលធ្វើឱ្យវាកាន់តែងាយស្រួលសម្រាប់ម៉ូដែលទាំងនេះដើម្បីក្លាយជាមនុស្សដែលមិនអាចបែងចែកបានពី interlocutor របស់មនុស្សដោយគ្មានពួកយើងសូម្បីតែដឹងអំពីវា។

កង្វល់ដែលកើតឡើងដដែលៗមួយទៀតគឺក្រមសីលធម៌នៃការអនុវត្តរបស់វា។ តើ AI គួរធ្វើពុតជាមនុស្សកម្រិតណាដោយមិនបង្ហាញពីធម្មជាតិសិប្បនិម្មិតរបស់វា? តើគួរមានកម្រិតច្បាស់លាស់អំពីរបៀប និងពេលណាដែលវាអាចត្រូវបានប្រើក្នុងបរិបទជីវិតពិត?

GPT-4.5 មិនបានបង្ហាញថាម៉ាស៊ីនមានហេតុផលដូចយើងទេ។ប៉ុន្តែវាបានបង្ហាញយ៉ាងច្បាស់ថា ពួកគេអាចយកតម្រាប់តាមយើងតាមរបៀបដែលធ្វើឱ្យវាពិបាកក្នុងការបែងចែកពួកគេ។ ព្រឹត្តិការណ៍ដ៏សំខាន់នេះ គឺជាចំណុចរបត់មួយ មិនមែនដោយសារតែម៉ាស៊ីនអ្វីនោះទេ ប៉ុន្តែដោយសារតែអ្វីដែលវាធ្វើឱ្យយើងចោទជាសំណួរ៖ គំនិតរបស់យើងផ្ទាល់អំពីអត្ថន័យនៃពាក្យថា "មនុស្ស" នៅក្នុងយុគសម័យឌីជីថល ដែលសិប្បនិម្មិតរួមបញ្ចូលជាមួយរបស់ពិត។

Alberto navarro

ខ្ញុំជាអ្នកចូលចិត្តបច្ចេកវិទ្យាមួយរូបដែលបានបង្វែរចំណាប់អារម្មណ៍របស់គាត់ទៅជាអាជីព។ ខ្ញុំបានចំណាយពេលជាង 10 ឆ្នាំនៃជីវិតរបស់ខ្ញុំ ដោយប្រើបច្ចេកវិទ្យាទំនើបៗ និងការបញ្ចូលកម្មវិធីគ្រប់ប្រភេទ ដោយការចង់ដឹងចង់ឃើញ។ ឥឡូវនេះខ្ញុំមានជំនាញខាងបច្ចេកវិទ្យាកុំព្យូទ័រ និងវីដេអូហ្គេម។ នេះគឺដោយសារតែអស់រយៈពេលជាង 5 ឆ្នាំមកហើយដែលខ្ញុំបានសរសេរសម្រាប់គេហទំព័រផ្សេងៗអំពីបច្ចេកវិទ្យា និងវីដេអូហ្គេម ដោយបង្កើតអត្ថបទដែលស្វែងរកការផ្តល់ឱ្យអ្នកនូវព័ត៌មានដែលអ្នកត្រូវការជាភាសាដែលអាចយល់បានសម្រាប់មនុស្សគ្រប់គ្នា។

ប្រសិនបើអ្នកមានចម្ងល់ណាមួយ ចំណេះដឹងរបស់ខ្ញុំមានចាប់ពីអ្វីគ្រប់យ៉ាងដែលទាក់ទងនឹងប្រព័ន្ធប្រតិបត្តិការ Windows ក៏ដូចជា Android សម្រាប់ទូរស័ព្ទចល័ត។ ហើយការប្តេជ្ញាចិត្តរបស់ខ្ញុំគឺចំពោះអ្នក ខ្ញុំតែងតែសុខចិត្តចំណាយពេលពីរបីនាទី និងជួយអ្នកដោះស្រាយរាល់ចម្ងល់ដែលអ្នកអាចមាននៅក្នុងពិភពអ៊ីនធឺណិតនេះ។