GPT-4.5 ბევრად აღემატება ტურინგის ტესტს: რას გულისხმობს ეს ეტაპი ხელოვნური ინტელექტის ევოლუციაში?

Ბოლო განახლება: 07/04/2025

  • GPT-4.5-მა შეძლო დაერწმუნებინა მონაწილეთა 73%, რომ ის იყო ადამიანი ტურინგის განახლებულ ტესტში.
  • ექსპერიმენტმა აჩვენა, რომ ხელოვნური ინტელექტის წარმატება დიდწილად დამოკიდებულია ინსტრუქციებზე და „პიროვნების“ მიღებაზე.
  • სხვა მოდელებმა, როგორიცაა LLaMa-3.1, მიიღეს წარმატების დაბალი მაჩვენებელი და პერსონალიზაციის გარეშე, შედეგები მნიშვნელოვნად დაეცა.
  • კვლევა აჩენს კითხვებს ხელოვნური ინტელექტის ამჟამინდელ საზღვრებთან და მის მზარდ სასაუბრო რეალიზთან დაკავშირებული რისკების შესახებ.
GPT-4.5 გადის ტურინგ-0 ტესტს

შეძლებთ თუ არა განასხვავოთ საუბარი რეალურ ადამიანთან და მანქანასთან? კითხვა, რომელიც პირველად შვიდ ათწლეულზე მეტი ხნის წინ დასვა ალან ტურინგმა, კიდევ ერთხელ მოიპოვა ყურადღება ბოლო ექსპერიმენტის შემდეგ, რომელმაც გამოსცადა ხელოვნური ინტელექტის ყველაზე მოწინავე მოდელები რთულ კონტექსტში.

სან დიეგოს კალიფორნიის უნივერსიტეტის მკვლევარებმა ჩაატარეს ა კვლევა, რომელიც გამოწვევას აყენებს ჩვენს უნარს განასხვავოს რა არის ადამიანური და რა არის ხელოვნურილ. ექსპერიმენტის ცენტრში, GPT-4.5 მოდელი OpenAI-მ არა მხოლოდ მოახერხა ტურინგის ტესტის ჩაბარება კონკრეტულ პირობებში, არამედ ის უფრო ხშირად ადამიანადაც კი აღიქმებოდა, ვიდრე თავად რეალური ადამიანები.

ექსპერიმენტი მკაცრი პირობებით

AI ინტერვიუები ტურინგის ტესტის დროს

კვლევა, რომელსაც ხელმძღვანელობდნენ მკვლევარები კამერონ ჯონსი და ბენჯამინ ბერგენი, ორიენტირებულია კლასიკური ტურინგის ტესტის შეცვლილ ვერსიაზე, სადაც 300-ზე მეტი ადამიანი მონაწილეობდა, მათ შორის უნივერსიტეტის სტუდენტები და ონლაინ პლატფორმების მომხმარებლები. ხუთწუთიანი სესიების განმავლობაში, თითოეულმა მონაწილემ ერთდროულად გამართა ორი საუბარი: ერთი ადამიანთან და მეორე ხელოვნური ინტელექტის სისტემასთან. ბოლოს და ბოლოს, მათ უნდა განსაჯონ, თუ რომელი თანამოსაუბრე იყო ადამიანი.

ექსკლუზიური შინაარსი - დააწკაპუნეთ აქ  Sony და Bandai Namco აძლიერებენ სტრატეგიულ ალიანსს ანიმეს, მანგას და ვიდეო თამაშების ინდუსტრიის გასაძლიერებლად.

შედეგი გასაოცარი იყო: GPT-4.5 მოდელი აღიქმებოდა როგორც ადამიანი 73% შემთხვევაში როდესაც მას მიანიჭეს განსაზღვრული პიროვნება - მაგალითად, ციფრული კულტურის მცოდნე ახალგაზრდა მამაკაცის. ამ პროცენტმა გადააჭარბა არა მხოლოდ სტატისტიკურ ზღვარს, რომ ჩაითვალოს დასრულებული ტესტი, არამედ რეალური ადამიანების უნარსაც კი, ამ ექსპერიმენტში ადამიანად გამოჩენილიყვნენ. ეს მიდგომა აძლიერებს იდეას, თუ როგორ la ხელოვნური ინტელექტი განვითარდა ბოლო ათწლეულების განმავლობაში.

თუმცა, როდესაც AI-ს არ გააჩნდა კონკრეტული პიროვნება და უბრალოდ სთხოვეს გამოჩენილიყო ადამიანად დამატებითი მოთხოვნის გარეშე, მისი ეფექტურობა 36%-მდე დაეცა. ეს ხაზს უსვამს კონტექსტის და პერსონალიზაციის მნიშვნელობა ინსტრუქციებში (მოთხოვნები) მიეცა ენის მოდელებს.

მოდელების შედარება და მოულოდნელი შედეგები

სხვადასხვა AI მოდელები ტესტირებაში

GPT-4.5-თან ერთად ექსპერიმენტი მოიცავდა სხვა მოდელებს, როგორიცაა LLaMa-3.1-405B მეტა, რომელმაც მიაღწია 56% სიზუსტის მაჩვენებელს, როდესაც ასევე გამოგონილი პიროვნება იყო. მიუხედავად იმისა, რომ ეს მაჩვენებელი უფრო დაბალია, ვიდრე GPT-4.5, ის მაინც შანსებს აღემატება. ამის საპირისპიროდ, სხვა ვერსიები, როგორიცაა GPT-4o ან ვეტერანი ჩატბოტი ELIZA, 60-იანი წლებიდან, არ აღემატებოდა 21% და 23% შესაბამისად, რაც ცხადყოფს მანძილს მიმდინარე და პრიმიტიულ ტექნოლოგიებს შორის.

ეს შედეგები აჩვენეთ, რომ ხელოვნური ინტელექტის წარმატება ისეთ ამოცანაში, როგორიც არის ტურინგის ტესტი, ბევრად უფრო დამოკიდებულია იმაზე, თუ როგორ მიიღება ეს ინსტრუქცია, ვიდრე თავად მოდელზე.. მთავარია სანდო როლის მიღება და არა ადამიანის ინტელექტის შეგნებულად სიმულაცია. თუ გსურთ ჩაუღრმავდეთ, თუ როგორ კომპიუტერი დროთა განმავლობაში, თქვენ ნახავთ საინტერესო ინფორმაციას.

ექსკლუზიური შინაარსი - დააწკაპუნეთ აქ  Bizum ვინ იმარჯვებს?

გარდა ამისა, აღმოჩნდა, რომ დახვეწილი ინსტრუქციებითაც კი, ზოგიერთმა მოდელმა ვერ შეძლო საკმარისად დამაჯერებელი საუბრის შენარჩუნება. GPT-4o-მ აღიარა, რომ იყო AI, დაუპირისპირებლად, რომელმაც სწრაფად დაკარგა სანდოობა ადამიანის თანამოსაუბრეებთან.

მოტყუება თუ ფიქრი? ტურინგის ტესტის დაპირისპირება

დისკუსია შემეცნებაზე AI-ში

ტურინგის ტესტის ჩაბარება არ ნიშნავს, რომ AI ესმის რას ამბობს ან იცის მისი სიტყვები. აქ არის ერთ-ერთი დიდი დისკუსია ექსპერტებს შორის. მიუხედავად იმისა, რომ ზოგიერთი აღნიშნავს ამ მიღწევას, როგორც მნიშვნელოვან წინსვლას ადამიანის ქცევის სიმულაციაში, სხვები ამას მიიჩნევენ ამ ტიპის ტესტი აღარ არის სანდო ხელოვნური სისტემის „რეალური ინტელექტის“ გასაზომად.

ექსპერტები, როგორიცაა ფრანსუა შოლე, Google-ის ინჟინერი, ხაზს უსვამენ ამას ტურინგის ტესტი უფრო ფილოსოფიური ექსპერიმენტია, ვიდრე ამჟამად სასარგებლო საზომი. ამ თვალსაზრისის მიხედვით, მხოლოდ იმიტომ, რომ AI გვატყუებს, არ ნიშნავს იმას, რომ ის მსჯელობს ან აქვს სამყაროს ღრმა გაგება. უფრო მეტიც, ის იყენებს მილიონობით ტექსტიდან ნასწავლ ნიმუშებს, რათა შექმნას დამაჯერებელი პასუხები. ამ სფეროს უკეთ გასაგებად, შეგიძლიათ გაიგოთ ვინ არის AI-ს დამფუძნებელი.

მაშასადამე, შემაშფოთებელი ის კი არ არის, რისი გაკეთება შეუძლიათ ამ AI-ებს, არამედ ის, რასაც ჩვენ გვჯერა, რომ ისინი აკეთებენ. ადამიანის ტენდენცია სასაუბრო სისტემების ანთროპომორფიზაციისკენროგორც უკვე მოხდა ELIZA-ს შემთხვევაში 60-იან წლებში, როგორც ჩანს, დროთა განმავლობაში არ გაქრა. დღეს ეს ფენომენი გადიდებულია ბევრად უფრო დახვეწილი მოდელებით.

ზედმეტად ადამიანურად ჟღერს ხელოვნური ინტელექტის აპლიკაციები და რისკები

ის ფაქტი, რომ AI-ს შეუძლია მოკლე საუბარში გადასცეს ადამიანი, წარმოადგენს შესაძლებლობებს, მაგრამ ასევე წარმოადგენს მნიშვნელოვან რისკებს უსაფრთხოების, განათლებისა და სოციალური ურთიერთობების კუთხით.

  • პირადობის თაღლითობა: დამაჯერებელი AI შეიძლება გამოყენებულ იქნას თაღლითობის ან სოციალური ინჟინერიის კამპანიებში.
  • დეზინფორმაცია: მოდელები, რომლებსაც შეუძლიათ ადამიანური მეტყველების გენერირება, შეიძლება იყოს ეფექტური ინსტრუმენტები ყალბი ამბების მანიპულირებისთვის ან გავრცელებისთვის.
  • სამუშაო ავტომატიზაცია: სექტორები, როგორიცაა მომხმარებელთა მომსახურება ან ტექნიკური მხარდაჭერა, შეიძლება შეიცვალოს ამ სასაუბრო AI-ებით, რაც გავლენას მოახდენს ადამიანის დასაქმებაზე.
  • განათლება და შეფასება: იმის დადგენა, ტექსტი დაიწერა თუ არა AI-ის მიერ, რთულ ამოცანად იქცევა, რასაც შედეგები მოჰყვება აკადემიურ სფეროში.
ექსკლუზიური შინაარსი - დააწკაპუნეთ აქ  Samsung Unpacked 2025 წლის ივლისი: თარიღი, ახალი ფუნქციები და დადასტურებული მოწყობილობები

მკვლევარებმა ასევე გააფრთხილეს როგორ ამ ტექნოლოგიების სტანდარტიზაციამ შეიძლება გაართულოს მათი აღმოჩენა მომავალში. როდესაც შევეჩვიეთ ავტომატიზირებულ სისტემებთან ურთიერთობას, შეიძლება თავი დავანებოთ, რაც გაუადვილებს ამ მოდელების გარჩევას ადამიანის თანამოსაუბრისგან, ჩვენ ამის გაცნობიერების გარეშე.

კიდევ ერთი განმეორებადი საზრუნავი არის მისი განხორციელების ეთიკა. რამდენად უნდა აჩვენოს AI-მა ადამიანად მისი ხელოვნური ბუნების შესახებ ინფორმირების გარეშე? უნდა არსებობდეს თუ არა მკაფიო შეზღუდვები იმის შესახებ, თუ როგორ და როდის შეიძლება მისი გამოყენება რეალურ კონტექსტში?

GPT-4.5-მა არ აჩვენა, რომ მანქანები ჩვენსავით აზროვნებენ, მაგრამ ცხადი გახდა, რომ მათ შეუძლიათ მოგვბაძონ ისე, რომ გაძნელდეს მათი გარჩევა. ეს ეტაპი გარდამტეხ მომენტს აღნიშნავს, არა იმის გამო, თუ რა არის მანქანა, არამედ იმის გამო, რის გამოც ის გვაფიქრებინებს: ჩვენი საკუთარი იდეები იმის შესახებ, თუ რას ნიშნავს იყო „ადამიანი“ ციფრულ ეპოქაში, სადაც ხელოვნური ერწყმის რეალურს.