GPT-4.5 ឆ្លងកាត់ការធ្វើតេស្ត Turing ជាមួយនឹងពណ៌ហោះហើរ៖ តើព្រឹត្តិការណ៍នេះមានន័យយ៉ាងណាសម្រាប់ការវិវត្តន៍នៃបញ្ញាសិប្បនិម្មិត?

បច្ចុប្បន្នភាពចុងក្រោយ៖ 07/04/2025
អ្នកនិពន្ធ: Alberto navarro

  • GPT-4.5 បានគ្រប់គ្រងដើម្បីបញ្ចុះបញ្ចូល 73% នៃអ្នកចូលរួមថាវាគឺជាមនុស្សនៅក្នុងការធ្វើតេស្ត Turing ដែលបានកែប្រែ។
  • ការពិសោធន៍បានបង្ហាញថាភាពជោគជ័យរបស់ AI ភាគច្រើនអាស្រ័យទៅលើការណែនាំ និងការទទួលយក "បុគ្គលិកលក្ខណៈ" ។
  • ម៉ូដែលផ្សេងទៀតដូចជា LLaMa-3.1 មានអត្រាជោគជ័យទាបជាង ហើយដោយគ្មានការកំណត់ផ្ទាល់ខ្លួន លទ្ធផលបានធ្លាក់ចុះយ៉ាងខ្លាំង។
  • ការសិក្សានេះលើកជាសំណួរអំពីដែនកំណត់បច្ចុប្បន្ននៃបញ្ញាសិប្បនិម្មិត និងហានិភ័យដែលទាក់ទងនឹងភាពជាក់ស្តែងនៃការសន្ទនាដែលកំពុងកើនឡើង។
GPT-4.5 ឆ្លងកាត់ការសាកល្បង Turing-0

តើអ្នកអាចបែងចែករវាងការសន្ទនាជាមួយមនុស្សពិត និងម៉ាស៊ីនបានទេ? សំណួរដែលចោទសួរដំបូងជាង 7 ទសវត្សរ៍មុនដោយ Alan Turing បានទទួលការចាប់អារម្មណ៍ជាថ្មីបន្ទាប់ពីការពិសោធន៍ថ្មីៗនេះ ដែលបានសាកល្បងម៉ូដែលទំនើបបំផុតនៃបញ្ញាសិប្បនិម្មិតនៅក្នុងបរិបទដ៏លំបាកមួយ។

អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យកាលីហ្វ័រញ៉ា សាន់ឌីហ្គោ បានធ្វើការ ការសិក្សាដែលប្រឈមនឹងសមត្ថភាពរបស់យើងក្នុងការបែងចែករវាងមនុស្ស និងសិប្បនិម្មិត។លីត្រ នៅកណ្តាលនៃការពិសោធន៍, ម៉ូដែល GPT-4.5 OpenAI មិនត្រឹមតែអាចឆ្លងកាត់ការធ្វើតេស្ត Turing ក្រោមលក្ខខណ្ឌជាក់លាក់ប៉ុណ្ណោះទេ គាត់ថែមទាំងត្រូវបានគេកំណត់ថាជាមនុស្សញឹកញាប់ជាងមនុស្សពិតទៀតផង។

ការពិសោធន៍ក្រោមលក្ខខណ្ឌតឹងតែង

ការសម្ភាសន៍ AI កំឡុងពេលធ្វើតេស្ត Turing

ការសិក្សានេះដឹកនាំដោយអ្នកស្រាវជ្រាវ Cameron Jones និង Benjamin Bergen ។ ផ្តោតលើកំណែដែលបានកែប្រែនៃការធ្វើតេស្ត Turing បុរាណដែលជាកន្លែងដែលមនុស្សជាង 300 នាក់បានចូលរួម រួមទាំងនិស្សិតសាកលវិទ្យាល័យ និងអ្នកប្រើប្រាស់វេទិកាអនឡាញ។ ក្នុងអំឡុងពេលវគ្គប្រាំនាទី អ្នកចូលរួមម្នាក់ៗបានធ្វើការសន្ទនាពីរក្នុងពេលដំណាលគ្នា៖ មួយជាមួយមនុស្ស និងមួយទៀតជាមួយប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។ នៅទីបញ្ចប់ ពួកគេ​ត្រូវ​វិនិច្ឆ័យ​ថាតើ​អ្នក​សន្ទនា​មួយ​ណា​ជា​មនុស្ស.

មាតិកាផ្តាច់មុខ - ចុចទីនេះ  តើ Pachuca ថ្ងៃនេះយ៉ាងម៉េចដែរ?

លទ្ធផលគឺគួរអោយចាប់អារម្មណ៍៖ គំរូ GPT-4.5 ត្រូវបានគេដឹងថាជាមនុស្សក្នុង 73% នៃករណី នៅពេលដែលគាត់ត្រូវបានគេផ្តល់ឱ្យនូវបុគ្គលិកលក្ខណៈដែលបានកំណត់ - ឧទាហរណ៍ថាមនុស្សវ័យក្មេងដែលមានចំណេះដឹងអំពីវប្បធម៌ឌីជីថល។ ភាគរយនេះលើសពីកម្រិតស្ថិតិសម្រាប់ពិចារណាលើការសាកល្បងបានកន្លងផុតទៅហើយ ប៉ុន្តែថែមទាំងសមត្ថភាពរបស់មនុស្សពិតក្នុងការបង្ហាញខ្លួនមនុស្សនៅក្នុងការពិសោធន៍នេះផងដែរ។ វិធីសាស្រ្តនេះពង្រឹងគំនិតនៃរបៀប la ប្រាជ្ញាសិប្បនិម្មិត បានវិវឌ្ឍន៍ក្នុងប៉ុន្មានទសវត្សរ៍ថ្មីៗនេះ។

ទោះជាយ៉ាងណាក៏ដោយ នៅពេលដែល AI មិនត្រូវបានផ្តល់ឱ្យនូវបុគ្គលិកលក្ខណៈជាក់លាក់មួយ ហើយត្រូវបានស្នើសុំឱ្យបង្ហាញខ្លួនជាមនុស្សដោយមិនមានការជម្រុញបន្ថែម ប្រសិទ្ធភាពរបស់វាធ្លាក់ចុះដល់ 36% ។ នេះគូសបញ្ជាក់ សារៈសំខាន់នៃបរិបទ និងការកំណត់ផ្ទាល់ខ្លួននៅក្នុងការជម្រុញ ផ្តល់ឱ្យគំរូភាសា។

ការប្រៀបធៀបរវាងម៉ូដែល និងលទ្ធផលដែលមិនបានរំពឹងទុក

ម៉ូដែល AI ផ្សេងៗគ្នាក្នុងការសាកល្បង

រួមជាមួយនឹង GPT-4.5 ការពិសោធន៍រួមបញ្ចូលម៉ូដែលផ្សេងទៀតដូចជា LLaMa-3.1-405B នៃ Metaដែលសម្រេចបាននូវអត្រាភាពត្រឹមត្រូវ 56% នៅពេលផ្តល់បុគ្គលិកលក្ខណៈប្រឌិតផងដែរ។ ទោះបីជាតួលេខនេះទាបជាង GPT-4.5 ក៏ដោយ ក៏វានៅតែលើសពីឱកាស។ ផ្ទុយទៅវិញ កំណែផ្សេងទៀតដូចជា GPT-4o ឬ chatbot ELIZA ជើងចាស់ពីទសវត្សរ៍ឆ្នាំ 60 មិនលើសពី 21% និង 23% រៀងៗខ្លួន ដោយធ្វើឱ្យច្បាស់នូវគម្លាតរវាងបច្ចេកវិទ្យាបច្ចុប្បន្ន និងបច្ចេកវិទ្យាបឋម។

លទ្ធផលទាំងនេះ បង្ហាញថាភាពជោគជ័យនៃ AI នៅក្នុងកិច្ចការដូចជា Turing Test អាស្រ័យច្រើនលើរបៀបដែលវាត្រូវបានណែនាំជាងគំរូខ្លួនឯង។. គន្លឹះសំខាន់គឺត្រូវប្រកាន់យកតួនាទីដ៏គួរឱ្យទុកចិត្ត មិនមែនដើម្បីក្លែងធ្វើភាពឆ្លាតវៃរបស់មនុស្សនោះទេ។ ប្រសិនបើអ្នកចង់ស្វែងយល់ឱ្យកាន់តែស៊ីជម្រៅអំពីរបៀប កុំព្យូទ័រ យូរ ៗ ទៅអ្នកនឹងរកឃើញព័ត៌មានគួរឱ្យចាប់អារម្មណ៍។

មាតិកាផ្តាច់មុខ - ចុចទីនេះ  តើធ្វើដូចម្តេចដើម្បីដឹងថាខ្ញុំត្រូវបោះឆ្នោតនៅឆ្នាំ 2021 នៅកន្លែងណា

លើសពីនេះ គេបានរកឃើញថា ទោះបីជាមានការណែនាំដ៏ស្មុគ្រស្មាញក៏ដោយ ម៉ូដែលមួយចំនួនមិនអាចរក្សាការសន្ទនាដ៏គួរឱ្យជឿជាក់បានគ្រប់គ្រាន់នោះទេ។ GPT-4o បានទទួលស្គាល់ថាជា AI ដែលមានការប្រកួតប្រជែងតិចតួច។ដែលបាត់បង់ភាពជឿជាក់យ៉ាងឆាប់រហ័សក្នុងចំណោមអ្នកទាក់ទងគ្នារបស់មនុស្ស។

ដើម្បីបញ្ឆោតឬគិត? ភាពចម្រូងចម្រាសនៃការធ្វើតេស្ត Turing

ការពិភាក្សាអំពីការយល់ដឹងនៅក្នុង AI

ការឆ្លងកាត់ការធ្វើតេស្ត Turing មិនមានន័យថា AI យល់ពីអ្វីដែលអ្នកនិយាយ ឬដឹងពីពាក្យរបស់អ្នកនោះទេ។ នេះគឺជាការពិភាក្សាដ៏អស្ចារ្យមួយក្នុងចំណោមអ្នកជំនាញ។ ខណៈពេលដែលអ្នកខ្លះអបអរសាទរសមិទ្ធិផលនេះថាជាការឈានទៅមុខយ៉ាងសំខាន់ក្នុងការក្លែងធ្វើអាកប្បកិរិយារបស់មនុស្សនោះ អ្នកផ្សេងទៀតចាត់ទុកថានោះ។ ប្រភេទ​នៃ​ការ​ធ្វើ​តេស្ត​នេះ​លែង​អាច​ទុក​ចិត្ត​បាន​សម្រាប់​ការ​វាស់​ស្ទង់ "ភាព​វៃឆ្លាត​ពិត" របស់​ប្រព័ន្ធ​សិប្បនិមិត្ត។.

អ្នកជំនាញដូចជា François Chollet ដែលជាវិស្វករ Google បានចង្អុលបង្ហាញថា ការធ្វើតេស្ត Turing គឺជាការពិសោធន៍ទស្សនវិជ្ជាជាងការវាស់វែងដែលមានប្រយោជន៍នាពេលបច្ចុប្បន្ន។. យោងទៅតាមទស្សនៈនេះ គ្រាន់តែដោយសារតែ AI បញ្ឆោតយើង មិនមែនមានន័យថាវាមានហេតុផល ឬការយល់ដឹងស៊ីជម្រៅអំពីពិភពលោកនោះទេ។ ផ្ទុយទៅវិញ វាប្រើលំនាំដែលបានរៀនពីអត្ថបទរាប់លាន ដើម្បីបង្កើតចម្លើយដែលអាចទុកចិត្តបាន។ ដើម្បីយល់កាន់តែច្បាស់អំពីវាលនេះ អ្នកអាចពិនិត្យមើលថាតើនរណាជា ស្ថាបនិក AI.

ដូច្នេះអ្វីដែលគួរឱ្យព្រួយបារម្ភនោះគឺមិនច្រើនទេដែល AI ទាំងនេះអាចធ្វើបាន ប៉ុន្តែអ្វីដែលយើងគិតថាពួកគេធ្វើ។ ទំនោររបស់មនុស្សក្នុងការបង្កើតប្រព័ន្ធសន្ទនាដូចករណី ELIZA ក្នុងទស្សវត្សរ៍ឆ្នាំ 60 ហាក់ដូចជាមិនបាត់ទៅវិញតាមពេលវេលា។ សព្វ​ថ្ងៃ​នេះ បាតុភូត​នេះ​ត្រូវ​បាន​លើក​តម្កើង​ជា​មួយ​នឹង​ម៉ូដែល​ទំនើប​ៗ​ជា​ច្រើន​ទៀត។

កម្មវិធី និងហានិភ័យនៃ AI ដែលស្តាប់ទៅដូចជាមនុស្សពេក

ការពិតដែលថា AI អាចឆ្លងដល់មនុស្សក្នុងការសន្ទនាខ្លីៗបង្ហាញពីឱកាស ប៉ុន្តែក៏មានផងដែរ។ បង្កហានិភ័យយ៉ាងសំខាន់ ទាក់ទងនឹងសន្តិសុខ ការអប់រំ និងទំនាក់ទំនងសង្គម។

  • ការបន្លំអត្តសញ្ញាណ៖ ការបញ្ចុះបញ្ចូល AI អាចត្រូវបានប្រើនៅក្នុងយុទ្ធនាការបោកប្រាស់ ឬវិស្វកម្មសង្គម។
  • ព័ត៌មានមិនពិត៖ គំរូដែលមានសមត្ថភាពបង្កើតការនិយាយរបស់មនុស្សអាចជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពសម្រាប់រៀបចំ ឬផ្សព្វផ្សាយព័ត៌មានក្លែងក្លាយ។
  • ស្វ័យប្រវត្តិកម្មការងារ៖ វិស័យដូចជាសេវាកម្មអតិថិជន ឬជំនួយបច្ចេកទេសអាចត្រូវបានជំនួសដោយ AI សន្ទនាទាំងនេះ ដែលប៉ះពាល់ដល់ការងាររបស់មនុស្ស។
  • ការអប់រំ និងការវាយតម្លៃ៖ ការរកឃើញថាតើអត្ថបទត្រូវបានសរសេរដោយមនុស្ស ឬ AI ក្លាយជាកិច្ចការដ៏ស្មុគស្មាញមួយ ជាមួយនឹងផលវិបាកនៅក្នុងវិស័យសិក្សា។
មាតិកាផ្តាច់មុខ - ចុចទីនេះ  ប្រើ Windows Copilot នៅលើ Mac៖ ការណែនាំអំពីការរួមបញ្ចូលពេញលេញ

អ្នកស្រាវជ្រាវក៏បានព្រមានអំពីរបៀប ការធ្វើស្តង់ដារនៃបច្ចេកវិទ្យាទាំងនេះអាចធ្វើឱ្យការរកឃើញរបស់ពួកគេកាន់តែពិបាក។ នាពេលអនាគត។ នៅពេលដែលយើងកាន់តែស៊ាំទៅនឹងការប្រាស្រ័យទាក់ទងជាមួយប្រព័ន្ធស្វ័យប្រវត្តិ យើងអាចទុកឱ្យការប្រុងប្រយ័ត្នរបស់យើង ដែលធ្វើឱ្យវាកាន់តែងាយស្រួលសម្រាប់ម៉ូដែលទាំងនេះដើម្បីក្លាយជាមនុស្សដែលមិនអាចបែងចែកបានពី interlocutor របស់មនុស្សដោយគ្មានពួកយើងសូម្បីតែដឹងអំពីវា។

កង្វល់ដែលកើតឡើងដដែលៗមួយទៀតគឺក្រមសីលធម៌នៃការអនុវត្តរបស់វា។ តើ AI គួរ​ធ្វើ​ពុត​ជា​មនុស្ស​កម្រិត​ណា​ដោយ​មិន​បង្ហាញ​ពី​ធម្មជាតិ​សិប្បនិម្មិត​របស់​វា? តើ​គួរ​មាន​កម្រិត​ច្បាស់លាស់​អំពី​របៀប និង​ពេល​ណា​ដែល​វា​អាច​ត្រូវ​បាន​ប្រើ​ក្នុង​បរិបទ​ជីវិត​ពិត?

GPT-4.5 មិនបានបង្ហាញថាម៉ាស៊ីនមានហេតុផលដូចយើងទេ។ប៉ុន្តែវាបានបង្ហាញយ៉ាងច្បាស់ថា ពួកគេអាចយកតម្រាប់តាមយើងតាមរបៀបដែលធ្វើឱ្យវាពិបាកក្នុងការបែងចែកពួកគេ។ ព្រឹត្តិការណ៍ដ៏សំខាន់នេះ គឺជាចំណុចរបត់មួយ មិនមែនដោយសារតែម៉ាស៊ីនអ្វីនោះទេ ប៉ុន្តែដោយសារតែអ្វីដែលវាធ្វើឱ្យយើងចោទជាសំណួរ៖ គំនិតរបស់យើងផ្ទាល់អំពីអត្ថន័យនៃពាក្យថា "មនុស្ស" នៅក្នុងយុគសម័យឌីជីថល ដែលសិប្បនិម្មិតរួមបញ្ចូលជាមួយរបស់ពិត។