- GPT-4.5 สามารถโน้มน้าวผู้เข้าร่วมได้ถึง 73% ว่ามันคือมนุษย์ในการทดสอบทัวริงที่แก้ไขใหม่
- การทดลองเผยให้เห็นว่าความสำเร็จของ AI ขึ้นอยู่กับคำสั่งและการยอมรับ "บุคลิกภาพ" เป็นหลัก
- โมเดลอื่นๆ เช่น LLaMa-3.1 มีอัตราความสำเร็จต่ำกว่า และหากไม่มีการปรับแต่ง ผลลัพธ์ก็ลดลงอย่างมาก
- การศึกษานี้ตั้งคำถามเกี่ยวกับข้อจำกัดปัจจุบันของปัญญาประดิษฐ์และความเสี่ยงที่เกี่ยวข้องกับความสมจริงในการสนทนาที่เพิ่มมากขึ้น

คุณจะสามารถแยกความแตกต่างระหว่างการสนทนากับมนุษย์จริงกับเครื่องจักรได้หรือไม่? คำถามนี้ซึ่งถูกตั้งขึ้นครั้งแรกเมื่อกว่าเจ็ดทศวรรษก่อนโดย Alan Turing ได้รับความสนใจอีกครั้งหลังจากการทดลองเมื่อเร็วๆ นี้ที่ทดสอบโมเดลปัญญาประดิษฐ์ที่ก้าวหน้าที่สุดในบริบทที่ท้าทาย
นักวิจัยจากมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก ได้ทำการศึกษาวิจัย การศึกษาที่ท้าทายความสามารถของเราในการแยกแยะระหว่างมนุษย์กับสิ่งประดิษฐ์ล. ศูนย์กลางของการทดลอง รุ่น GPT-4.5 OpenAI ไม่เพียงแต่สามารถผ่านการทดสอบทัวริงภายใต้เงื่อนไขเฉพาะเท่านั้น แต่ยัง เขาถูกระบุว่าเป็นมนุษย์มากกว่าคนจริงเสียอีก
การทดลองภายใต้เงื่อนไขที่เข้มงวด
การศึกษาที่นำโดยนักวิจัย Cameron Jones และ Benjamin Bergen มุ่งเน้นไปที่เวอร์ชันดัดแปลงของการทดสอบทัวริงแบบคลาสสิกซึ่งมีผู้เข้าร่วมกว่า 300 คน รวมถึงนิสิต นักศึกษา และผู้ใช้แพลตฟอร์มออนไลน์ ระหว่างเซสชัน XNUMX นาที ผู้เข้าร่วมแต่ละคนได้สนทนาพร้อมกัน XNUMX ครั้ง คือ ครั้งหนึ่งกับมนุษย์ และอีกครั้งกับระบบปัญญาประดิษฐ์ ในที่สุด, พวกเขาต้องตัดสินว่าคู่สนทนาคนไหนเป็นมนุษย์.
ผลลัพธ์ที่ได้ก็น่าทึ่งมาก: โมเดล GPT-4.5 ถูกมองว่าเป็นมนุษย์ใน 73% ของกรณี เมื่อเขาได้รับการกำหนดบุคลิกภาพที่ชัดเจน เช่น เป็นคนรุ่นใหม่ที่มีความรู้ด้านวัฒนธรรมดิจิทัล เปอร์เซ็นต์นี้ไม่เพียงเกินเกณฑ์ทางสถิติในการพิจารณาว่าผ่านการทดสอบเท่านั้น แต่ยังเกินความสามารถของมนุษย์จริงที่จะปรากฏเป็นมนุษย์ในการทดลองนี้อีกด้วย แนวทางนี้ช่วยเสริมสร้างแนวคิดว่า la ปัญญาประดิษฐ์ ได้มีการพัฒนาในช่วงหลายทศวรรษที่ผ่านมา
อย่างไรก็ตาม เมื่อ AI ไม่ได้รับบุคลิกภาพที่เฉพาะเจาะจงและถูกขอให้แสดงเป็นมนุษย์โดยไม่ต้องมีการกระตุ้นใดๆ ประสิทธิภาพของมันก็ลดลงเหลือ 36% นี่เน้นย้ำถึง ความสำคัญของบริบทและการทำให้เป็นส่วนตัวในคำเตือน ให้กับแบบจำลองภาษา
การเปรียบเทียบระหว่างโมเดลและผลลัพธ์ที่ไม่คาดคิด
นอกจาก GPT-4.5 แล้ว การทดลองยังรวมถึงโมเดลอื่นๆ เช่น LLaMa-3.1-405B ของเมตาซึ่งมีอัตราความแม่นยำถึง 56% เมื่อระบุถึงบุคลิกภาพสมมติด้วย แม้ว่าตัวเลขนี้จะต่ำกว่า GPT-4.5 แต่ก็ยังเหนือโอกาส ในทางกลับกัน เวอร์ชันอื่นๆ เช่น GPT-4o หรือแชทบอตรุ่นเก๋าอย่าง ELIZA จากยุค 60 ไม่เกิน 21% และ 23% ตามลำดับ ซึ่งชี้ให้เห็นถึงช่องว่างระหว่างเทคโนโลยีปัจจุบันกับเทคโนโลยีดั้งเดิม
ผลลัพธ์เหล่านี้ แสดงให้เห็นว่าความสำเร็จของ AI ในงานเช่นการทดสอบทัวริงนั้นขึ้นอยู่กับวิธีการสั่งงานมากกว่าตัวแบบจำลองเอง- สิ่งสำคัญคือการแสดงบทบาทที่น่าเชื่อถือ ไม่ใช่การเลียนแบบสติปัญญาของมนุษย์อย่างมีสติ หากคุณต้องการเจาะลึกลงไปว่า คอมพิวเตอร์ เมื่อเวลาผ่านไปคุณจะพบข้อมูลที่น่าสนใจ
นอกจากนี้ ยังพบว่าแม้จะมีคำแนะนำที่ซับซ้อน แต่โมเดลบางรุ่นก็ไม่สามารถรักษาการสนทนาให้น่าเชื่อถือเพียงพอได้ GPT-4o ยอมรับว่าเป็น AI ที่มีปัญหาท้าทายน้อยมากซึ่งสูญเสียความน่าเชื่อถือจากคู่สนทนาอย่างรวดเร็ว
หลอกลวงหรือคิด? ข้อโต้แย้งเรื่องการทดสอบทัวริง
การผ่านการทดสอบทัวริงไม่ได้หมายความว่า AI เข้าใจสิ่งที่คุณพูดหรือรู้ถึงคำพูดของคุณ ที่นี่เป็นที่ถกเถียงกันอย่างมากในหมู่ผู้เชี่ยวชาญ ในขณะที่บางคนเฉลิมฉลองความสำเร็จนี้ในฐานะความก้าวหน้าที่สำคัญในการจำลองพฤติกรรมมนุษย์ คนอื่นๆ ถือว่า การทดสอบประเภทนี้ไม่น่าเชื่อถืออีกต่อไปในการวัด "สติปัญญาที่แท้จริง" ของระบบเทียม.
ผู้เชี่ยวชาญ เช่น François Chollet วิศวกรของ Google ได้ชี้ให้เห็นว่า การทดสอบทัวริงนั้นเป็นการทดลองเชิงปรัชญามากกว่าจะเป็นการวัดที่มีประโยชน์ในปัจจุบัน- ตามมุมมองนี้ แค่เพราะ AI หลอกลวงเราไม่ได้หมายความว่ามันมีเหตุผลหรือมีความเข้าใจโลกอย่างลึกซึ้ง แต่เป็นการใช้ประโยชน์จากรูปแบบที่เรียนรู้จากข้อความนับล้านๆ ข้อความเพื่อสร้างคำตอบที่น่าเชื่อถือ เพื่อให้เข้าใจสาขานี้ได้ดีขึ้น คุณสามารถตรวจสอบว่าใครเป็น ผู้ก่อตั้ง AI.
สิ่งที่น่ากังวลไม่ใช่ว่า AI เหล่านี้สามารถทำอะไรได้ แต่เป็นสิ่งที่เราคิดว่ามันทำได้ แนวโน้มของมนุษย์ในการทำให้ระบบการสนทนามีลักษณะเหมือนมนุษย์เช่นเดียวกับกรณีของ ELIZA ในช่วงทศวรรษ 60 ดูเหมือนจะไม่หายไปตามกาลเวลา ในปัจจุบันปรากฏการณ์ดังกล่าวได้รับการขยายด้วยโมเดลที่ซับซ้อนมากขึ้น
การใช้งานและความเสี่ยงของ AI ที่ฟังดูเป็นมนุษย์เกินไป
ความจริงที่ว่า AI สามารถแสร้งทำเป็นมนุษย์ได้ในบทสนทนาสั้นๆ นำมาซึ่งโอกาส แต่ยัง... ก่อให้เกิดความเสี่ยงอย่างมาก ทั้งด้านความปลอดภัย การศึกษา และความสัมพันธ์ทางสังคม
- การขโมยข้อมูลส่วนบุคคล: การใช้ AI เพื่อสร้างความน่าเชื่อถืออาจนำไปใช้ในการหลอกลวงหรือการโฆษณาทางสังคมได้
- ข้อมูลเท็จ: โมเดลที่สามารถสร้างคำพูดของมนุษย์ได้อาจเป็นเครื่องมือที่มีประสิทธิภาพในการจัดการหรือเผยแพร่ข่าวปลอม
- ระบบการทำงานอัตโนมัติ: ภาคส่วนต่างๆ เช่น บริการลูกค้าหรือการสนับสนุนด้านเทคนิคอาจถูกแทนที่ด้วย AI เชิงสนทนาเหล่านี้ ส่งผลกระทบต่อการจ้างงานของมนุษย์
- การศึกษาและการประเมินผล: การตรวจจับว่าข้อความนั้นเขียนโดยบุคคลหรือ AI กลายเป็นงานที่ซับซ้อน ซึ่งส่งผลต่อทางวิชาการ
นักวิจัยยังได้เตือนเกี่ยวกับวิธีการ การทำให้เทคโนโลยีเหล่านี้ได้มาตรฐานอาจทำให้การตรวจจับทำได้ยากยิ่งขึ้น ในอนาคต. เมื่อเรามีความคุ้นเคยกับการโต้ตอบกับระบบอัตโนมัติมากขึ้น เราก็อาจละเลยความระมัดระวังลง ซึ่งทำให้โมเดลเหล่านี้แยกแยะจากคู่สนทนาที่เป็นมนุษย์ไม่ออกโดยที่เราไม่รู้ตัวด้วยซ้ำ
ความกังวลที่เกิดขึ้นซ้ำอีกประการหนึ่งคือจริยธรรมในการดำเนินการ AI ควรจะแสร้งเป็นมนุษย์ในระดับไหนโดยไม่เปิดเผยธรรมชาติเทียมของมัน? ควรมีข้อจำกัดที่ชัดเจนเกี่ยวกับวิธีการและเวลาที่สามารถใช้ในบริบทของชีวิตจริงหรือไม่?
GPT-4.5 ไม่ได้แสดงให้เห็นว่าเครื่องจักรมีเหตุผลเช่นเดียวกับเราแต่ก็ได้ชี้ให้เห็นชัดเจนว่าพวกเขาสามารถเลียนแบบเราได้ในทางที่ทำให้แยกแยะพวกเขาได้ยาก เหตุการณ์สำคัญครั้งนี้ถือเป็นจุดเปลี่ยน ไม่ใช่เพราะว่าเครื่องจักรคืออะไร แต่เป็นเพราะสิ่งที่มันทำให้เราตั้งคำถาม: ความคิดของเราเองเกี่ยวกับความหมายของการ "เป็นมนุษย์" ในยุคดิจิทัลที่สิ่งประดิษฐ์ผสานเข้ากับความเป็นจริง
ฉันเป็นผู้ชื่นชอบเทคโนโลยีที่เปลี่ยนความสนใจ "เกินบรรยาย" ของเขาให้กลายเป็นอาชีพ ฉันใช้เวลามากกว่า 10 ปีในชีวิตไปกับเทคโนโลยีล้ำสมัยและปรับแต่งโปรแกรมทุกประเภทด้วยความอยากรู้อยากเห็น ตอนนี้ฉันมีความเชี่ยวชาญในด้านเทคโนโลยีคอมพิวเตอร์และวิดีโอเกม เนื่องจากเป็นเวลากว่า 5 ปีแล้วที่ฉันเขียนให้กับเว็บไซต์ต่างๆ เกี่ยวกับเทคโนโลยีและวิดีโอเกม โดยสร้างบทความที่พยายามให้ข้อมูลที่คุณต้องการในภาษาที่ทุกคนเข้าใจได้
หากคุณมีคำถามใดๆ ความรู้ของฉันมีตั้งแต่ทุกอย่างที่เกี่ยวข้องกับระบบปฏิบัติการ Windows รวมถึง Android สำหรับโทรศัพท์มือถือ และความมุ่งมั่นของฉันคือคุณ ฉันยินดีสละเวลาสักครู่เสมอและช่วยคุณแก้ไขคำถามใดๆ ที่คุณอาจมีในโลกอินเทอร์เน็ตนี้


