Το GPT-4.5 περνά τη δοκιμή turing με 73% ορθότητα

Το GPT-4.5 κατάφερε να πείσει το 73% των συμμετεχόντων ότι ήταν άνθρωπος σε μια αναθεωρημένη δοκιμή Turing.
Το πείραμα αποκάλυψε ότι η επιτυχία της τεχνητής νοημοσύνης εξαρτάται σε μεγάλο βαθμό από τις οδηγίες και την υιοθέτηση μιας «προσωπικότητας».
Άλλα μοντέλα όπως το LLaMa-3.1 πέτυχαν χαμηλότερα ποσοστά επιτυχίας και χωρίς προσαρμογή, τα αποτελέσματα μειώθηκαν σημαντικά.
Η μελέτη εγείρει ερωτήματα σχετικά με τα σημερινά όρια της τεχνητής νοημοσύνης και τους κινδύνους που συνδέονται με τον αυξανόμενο συνομιλητικό ρεαλισμό της.

Θα μπορούσατε να κάνετε διάκριση μεταξύ μιας συνομιλίας με έναν πραγματικό άνθρωπο και μιας μηχανής; Το ερώτημα, που τέθηκε για πρώτη φορά πριν από περισσότερο από επτά δεκαετίες από τον Άλαν Τούρινγκ, κέρδισε για άλλη μια φορά την έλξη μετά από ένα πρόσφατο πείραμα που δοκίμασε τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης σε ένα προκλητικό πλαίσιο.

Ερευνητές στο Πανεπιστήμιο της Καλιφόρνια στο Σαν Ντιέγκο πραγματοποίησαν ένα μελέτη που αμφισβητεί την ικανότητά μας να διακρίνουμε μεταξύ του τι είναι ανθρώπινο και τι είναι τεχνητόμεγάλο. Στο επίκεντρο του πειράματος, το μοντέλο GPT-4.5 του OpenAI όχι μόνο κατάφερε να περάσει το Turing Test υπό συγκεκριμένες συνθήκες, αλλά Αναγνωρίστηκε μάλιστα ως άνθρωπος πιο συχνά από τους ίδιους τους πραγματικούς ανθρώπους.

Ένα πείραμα κάτω από αυστηρές συνθήκες

Η μελέτη, με επικεφαλής τους ερευνητές Cameron Jones και Benjamin Bergen, επικεντρώθηκε σε μια τροποποιημένη έκδοση της κλασικής δοκιμής Turing, όπου συμμετείχαν περισσότερα από 300 άτομα, συμπεριλαμβανομένων φοιτητών πανεπιστημίου και χρηστών διαδικτυακών πλατφορμών. Κατά τη διάρκεια των πεντάλεπτων συνεδριών, κάθε συμμετέχων πραγματοποίησε ταυτόχρονα δύο συνομιλίες: μία με έναν άνθρωπο και μία με ένα σύστημα τεχνητής νοημοσύνης. Στο τέλος, Έπρεπε να κρίνουν ποιος από τους συνομιλητές ήταν άνθρωπος.

Αποκλειστικό περιεχόμενο - Κάντε κλικ εδώ Πώς να αποκτήσετε το

Το αποτέλεσμα ήταν εντυπωσιακό: το μοντέλο GPT-4.5 έγινε αντιληπτό ως ανθρώπινο στο 73% των περιπτώσεων όταν του ανατέθηκε μια καθορισμένη προσωπικότητα —για παράδειγμα, αυτή ενός νεαρού άνδρα με γνώση της ψηφιακής κουλτούρας. Αυτό το ποσοστό ξεπέρασε όχι μόνο το στατιστικό όριο για να θεωρηθεί ότι το τεστ πέρασε, αλλά ακόμη και την ικανότητα των πραγματικών ανθρώπων να φαίνονται άνθρωποι σε αυτό το πείραμα. Αυτή η προσέγγιση ενισχύει την ιδέα του πώς la τεχνητή νοημοσύνη έχει εξελιχθεί τις τελευταίες δεκαετίες.

Ωστόσο, όταν η τεχνητή νοημοσύνη δεν είχε συγκεκριμένη προσωπικότητα και απλώς της ζητήθηκε να φαίνεται άνθρωπος χωρίς περαιτέρω προτροπή, η αποτελεσματικότητά της έπεσε στο 36%. Αυτό υπογραμμίζει την σημασία του πλαισίου και της εξατομίκευσης στις οδηγίες (προτροπές) δίνεται στα γλωσσικά μοντέλα.

Σύγκριση μεταξύ μοντέλων και απροσδόκητων αποτελεσμάτων

Μαζί με το GPT-4.5, το πείραμα περιελάμβανε και άλλα μοντέλα όπως π.χ LLaMa-3.1-405B Meta, το οποίο πέτυχε ποσοστό ακρίβειας 56% όταν του δόθηκε και μια φανταστική προσωπικότητα. Αν και αυτό το ποσοστό είναι χαμηλότερο από αυτό του GPT-4.5, εξακολουθεί να είναι υπεράνω των πιθανοτήτων. Αντίθετα, άλλες εκδόσεις όπως το GPT-4o ή το βετεράνο chatbot ELIZA, από τη δεκαετία του '60, δεν ξεπέρασαν το 21% και το 23% αντίστοιχα, καθιστώντας ξεκάθαρη την απόσταση μεταξύ των σημερινών και των πρωτόγονων τεχνολογιών.

Estos resultados δείχνουν ότι η επιτυχία μιας τεχνητής νοημοσύνης σε μια εργασία όπως η δοκιμή Turing εξαρτάται πολύ περισσότερο από τον τρόπο διδασκαλίας παρά από το ίδιο το μοντέλο. Το κλειδί είναι να υιοθετήσετε έναν αξιόπιστο ρόλο, όχι να προσομοιώσετε συνειδητά την ανθρώπινη νοημοσύνη. Αν θέλετε να εμβαθύνετε στο πώς το ηλεκτρονικός υπολογιστής Με τον καιρό, θα βρείτε ενδιαφέρουσες πληροφορίες.

Αποκλειστικό περιεχόμενο - Κάντε κλικ εδώ ¿Cuándo llega Bizum al sistema bancario?

Επιπλέον, διαπιστώθηκε ότι ακόμη και με περίπλοκες οδηγίες, ορισμένα μοντέλα δεν μπορούσαν να διατηρήσουν μια αρκετά πειστική συζήτηση. Το GPT-4o παραδέχτηκε ότι είναι AI χωρίς αμφισβήτηση, που έχασε γρήγορα την αξιοπιστία με τους ανθρώπινους συνομιλητές.

Να εξαπατήσω ή να σκεφτώ; Η διαμάχη του Τεστ Τούρινγκ

Η επιτυχία της δοκιμής Turing δεν σημαίνει ότι μια τεχνητή νοημοσύνη καταλαβαίνει τι λέει ή ότι γνωρίζει τα λόγια της. Εδώ βρίσκεται μια από τις σπουδαίες συζητήσεις μεταξύ ειδικών. Ενώ κάποιοι γιορτάζουν αυτό το επίτευγμα ως σημαντική πρόοδο στην προσομοίωση της ανθρώπινης συμπεριφοράς, άλλοι το θεωρούν αυτό Αυτό το είδος τεστ δεν είναι πλέον αξιόπιστο για τη μέτρηση της «πραγματικής νοημοσύνης» ενός τεχνητού συστήματος.

Ειδικοί όπως ο François Chollet, μηχανικός της Google, το έχουν επισημάνει Η δοκιμή Turing είναι περισσότερο ένα φιλοσοφικό πείραμα παρά μια χρήσιμη επί του παρόντος μέτρηση. Σύμφωνα με αυτή την άποψη, μόνο και μόνο επειδή μια τεχνητή νοημοσύνη μας εξαπατά δεν σημαίνει ότι έχει λογική ή έχει βαθιά κατανόηση του κόσμου. Αντίθετα, αξιοποιεί μοτίβα που έχουν μάθει από εκατομμύρια κείμενα για να δημιουργήσει εύλογες απαντήσεις. Για να κατανοήσετε καλύτερα αυτό το πεδίο, μπορείτε να συμβουλευτείτε ποιος είναι ο ιδρυτής της AI.

Το ανησυχητικό, λοιπόν, δεν είναι τόσο το τι μπορούν να κάνουν αυτά τα AI, αλλά το τι πιστεύουμε ότι κάνουν. Η ανθρώπινη τάση να ανθρωπομορφοποιεί συστήματα συνομιλίας, όπως ήδη συνέβαινε με το ELIZA τη δεκαετία του '60, φαίνεται να μην έχει εξαφανιστεί με τον καιρό. Σήμερα, το φαινόμενο μεγεθύνεται με πολύ πιο εξελιγμένα μοντέλα.

Εφαρμογές και κίνδυνοι ενός AI που ακούγεται πολύ ανθρώπινο

Το γεγονός ότι ένα AI μπορεί να περάσει για άνθρωπο σε μια σύντομη συνομιλία παρουσιάζει ευκαιρίες, αλλά και εγκυμονεί σημαντικούς κινδύνους όσον αφορά την ασφάλεια, την εκπαίδευση και τις κοινωνικές σχέσεις.

Κλοπή ταυτότητας: μια πειστική τεχνητή νοημοσύνη θα μπορούσε να χρησιμοποιηθεί σε καμπάνιες απάτης ή κοινωνικής μηχανικής.
Desinformación: Μοντέλα ικανά να παράγουν ανθρώπινη ομιλία θα μπορούσαν να είναι αποτελεσματικά εργαλεία χειραγώγησης ή διάδοσης ψεύτικων ειδήσεων.
Automatización laboral: Τομείς όπως η εξυπηρέτηση πελατών ή η τεχνική υποστήριξη θα μπορούσαν να αντικατασταθούν από αυτές τις συνομιλητικές AI, επηρεάζοντας την ανθρώπινη απασχόληση.
Εκπαίδευση και αξιολόγηση: Ο εντοπισμός του εάν ένα κείμενο γράφτηκε από ένα άτομο ή από μια τεχνητή νοημοσύνη γίνεται μια περίπλοκη εργασία, με συνέπειες στον ακαδημαϊκό τομέα.

Αποκλειστικό περιεχόμενο - Κάντε κλικ εδώ Lumo, το chatbot τεχνητής νοημοσύνης της Proton που δίνει προτεραιότητα στην ιδιωτικότητα

Οι ερευνητές έχουν επίσης προειδοποιήσει για το πώς Η τυποποίηση αυτών των τεχνολογιών μπορεί να κάνει την ανίχνευσή τους πιο δύσκολη στο μέλλον. Καθώς συνηθίζουμε να αλληλεπιδρούμε με αυτοματοποιημένα συστήματα, μπορεί να αφήσουμε την επιφυλακή μας, καθιστώντας ευκολότερο για αυτά τα μοντέλα να μην διακρίνονται από έναν άνθρωπο συνομιλητή χωρίς να το καταλαβαίνουμε.

Μια άλλη ανησυχία που επαναλαμβάνεται είναι η ηθική της εφαρμογής του. Σε ποιο βαθμό πρέπει μια τεχνητή νοημοσύνη να προσποιείται ότι είναι άνθρωπος χωρίς να αποκαλύπτει την τεχνητή φύση της; Πρέπει να υπάρχουν σαφή όρια για το πώς και πότε μπορεί να χρησιμοποιηθεί σε πραγματικά περιβάλλοντα;

Το GPT-4.5 δεν έχει δείξει ότι οι μηχανές λογίζονται όπως εμείς, αλλά έχει ξεκαθαρίσει ότι μπορούν να μας μιμηθούν με τρόπο που να δυσκολεύει τη διάκρισή τους. Αυτό το ορόσημο σηματοδοτεί ένα σημείο καμπής, όχι λόγω του τι είναι η μηχανή, αλλά λόγω αυτού που μας κάνει να αμφισβητούμε: τις δικές μας ιδέες για το τι σημαίνει να είσαι «άνθρωπος» σε μια ψηφιακή εποχή όπου το τεχνητό συγχωνεύεται με το πραγματικό.

Αλμπέρτο Ναβάρο

Είμαι λάτρης της τεχνολογίας που έχει μετατρέψει τα «γκικ» ενδιαφέροντά του σε επάγγελμα. Έχω περάσει περισσότερα από 10 χρόνια της ζωής μου χρησιμοποιώντας τεχνολογία αιχμής και ασχολούμαι με όλα τα είδη προγραμμάτων από καθαρή περιέργεια. Τώρα έχω ειδικευτεί στην τεχνολογία υπολογιστών και στα βιντεοπαιχνίδια. Αυτό οφείλεται στο γεγονός ότι για περισσότερα από 5 χρόνια εργάζομαι γράφοντας για διάφορους ιστότοπους σχετικά με την τεχνολογία και τα βιντεοπαιχνίδια, δημιουργώντας άρθρα που επιδιώκουν να σας δώσουν τις πληροφορίες που χρειάζεστε σε μια γλώσσα κατανοητή από όλους.

Αν έχετε απορίες, οι γνώσεις μου κυμαίνονται από οτιδήποτε σχετίζεται με το λειτουργικό σύστημα Windows καθώς και με Android για κινητά τηλέφωνα. Και η δέσμευσή μου είναι απέναντί σας, είμαι πάντα πρόθυμος να αφιερώσω λίγα λεπτά και να σας βοηθήσω να επιλύσετε τυχόν απορίες που μπορεί να έχετε σε αυτόν τον κόσμο του Διαδικτύου.