GPT-4.5 zalicza test Turinga śpiewająco: Co ten kamień milowy oznacza dla ewolucji sztucznej inteligencji?

Ostatnia aktualizacja: 07/04/2025

  • W zmodyfikowanym teście Turinga GPT-4.5 przekonał 73% uczestników, że jest człowiekiem.
  • Eksperyment wykazał, że sukces sztucznej inteligencji w dużej mierze zależy od instrukcji i przyjęcia „osobowości”.
  • Inne modele, takie jak LLaMa-3.1, miały niższą skuteczność, a bez personalizacji wyniki były znacznie gorsze.
  • Badanie stawia pytania o obecne ograniczenia sztucznej inteligencji i zagrożenia związane z jej rosnącym realizmem konwersacyjnym.
GPT-4.5 przechodzi test Turinga-0

Czy potrafiłbyś odróżnić rozmowę z prawdziwym człowiekiem od rozmowy z maszyną? Pytanie to, po raz pierwszy zadane ponad siedemdziesiąt lat temu przez Alana Turinga, zyskało nową popularność po niedawnym eksperymencie, który przetestował najbardziej zaawansowane modele sztucznej inteligencji w trudnym kontekście.

Naukowcy z Uniwersytetu Kalifornijskiego w San Diego przeprowadzili badanie Badanie podważające naszą zdolność odróżniania tego, co ludzkie, od tego, co sztuczne.ja. W centrum eksperymentu, Model GPT-4.5 OpenAI nie tylko udało się przejść test Turinga w określonych warunkach, ale Częściej utożsamiano go z człowiekiem niż z prawdziwymi ludźmi.

Eksperyment przeprowadzony w rygorystycznych warunkach

Wywiady z AI podczas testu Turinga

Badanie, którym kierowali naukowcy Cameron Jones i Benjamin Bergen, skupił się na zmodyfikowanej wersji klasycznego testu Turinga, w którym wzięło udział ponad 300 osób, w tym studenci uniwersytetu i użytkownicy platformy internetowej. Podczas pięciominutowych sesji każdy uczestnik prowadził jednocześnie dwie rozmowy: jedną z człowiekiem i jedną z systemem sztucznej inteligencji. W końcu, Musieli ocenić, który z rozmówców jest człowiekiem.

Ekskluzywna zawartość — kliknij tutaj  Skąd mam wiedzieć, czy jestem w sobotę?

Efekt był imponujący: Model GPT-4.5 był postrzegany jako ludzki w 73% przypadków gdy nadano mu określoną osobowość — na przykład osobowość młodego człowieka posiadającego wiedzę na temat kultury cyfrowej. Odsetek ten nie tylko przekroczył próg statystyczny pozwalający uznać test za zaliczony, ale także zdolność prawdziwych ludzi do zachowywania się jak ludzie biorący udział w tym eksperymencie. Takie podejście wzmacnia ideę tego, jak la sztuczna inteligencja ewoluowała w ostatnich dziesięcioleciach.

Jednakże, gdy sztucznej inteligencji nie nadano konkretnej osobowości i poproszono ją po prostu, aby zachowywała się jak człowiek bez dalszych zachęt, jej skuteczność spadła do 36%. To podkreśla Znaczenie kontekstu i personalizacji w monitach nadano modelom językowym.

Porównanie modeli i nieoczekiwane wyniki

Różne modele sztucznej inteligencji w testach

Oprócz GPT-4.5 eksperyment obejmował inne modele, takie jak: LLaMa-3.1-405B Meta, który osiągnął 56% skuteczność w przypadku, gdy dodatkowo zastosowano w nim fikcyjną osobowość. Mimo że wartość ta jest niższa od wartości GPT-4.5, to i tak jest większa niż prawdopodobieństwo. Dla porównania, inne wersje, takie jak GPT-4o czy weteran chatbot ELIZA z lat 60., nie przekroczyły odpowiednio 21% i 23%, co wyraźnie pokazuje przepaść między obecnymi i prymitywnymi technologiami.

Te wyniki pokaż, że sukces sztucznej inteligencji w zadaniu takim jak test Turinga zależy w znacznie większym stopniu od sposobu, w jaki jest ona instruowana, niż od samego modelu. Kluczem jest przyjęcie wiarygodnej roli, a nie świadome symulowanie ludzkiej inteligencji. Jeśli chcesz zagłębić się w to, jak computadora Z czasem znajdziesz interesujące informacje.

Ekskluzywna zawartość — kliknij tutaj  Jaki jest CPI dzisiaj?

Co więcej, odkryto, że nawet pomimo stosowania skomplikowanych instrukcji, niektóre modele nie potrafiły podtrzymać wystarczająco przekonującej konwersacji. GPT-4o przyznał, że jest sztuczną inteligencją, która nie stanowi dla niego większego wyzwania., które szybko straciło wiarygodność wśród ludzkich rozmówców.

Oszukiwać czy myśleć? Kontrowersje wokół testu Turinga

Dyskusja na temat poznania w sztucznej inteligencji

Zaliczenie testu Turinga nie oznacza, że ​​sztuczna inteligencja rozumie, co mówisz, ani że jest świadoma twoich słów. To właśnie tutaj toczy się jedna z najważniejszych dyskusji wśród ekspertów. Podczas gdy niektórzy świętują to osiągnięcie jako znaczący postęp w symulacji zachowań człowieka, inni uważają, że Tego typu testy nie są już wiarygodnym narzędziem pomiaru „prawdziwej inteligencji” sztucznego systemu..

Eksperci, tacy jak François Chollet, inżynier Google, zauważyli, że Test Turinga jest raczej eksperymentem filozoficznym, niż użytecznym obecnie pomiarem.. Według tego poglądu, nawet jeśli sztuczna inteligencja nas oszukuje, nie oznacza to, że rozumuje lub posiada głębszą wiedzę o świecie. Zamiast tego wykorzystuje wzorce zaczerpnięte z milionów tekstów, aby konstruować wiarygodne odpowiedzi. Aby lepiej zrozumieć tę dziedzinę, możesz sprawdzić, kim jest założyciel AI.

Niepokojące jest zatem nie to, co te sztuczne inteligencje potrafią zrobić, ale to, co naszym zdaniem robią. Ludzka skłonność do antropomorfizacji systemów konwersacyjnych, podobnie jak miało to miejsce w przypadku ELIZY w latach 60., nie wydaje się, aby z czasem zanikła. Obecnie zjawisko to jest potęgowane przez znacznie bardziej zaawansowane modele.

Zastosowania i zagrożenia związane ze sztuczną inteligencją, która brzmi zbyt ludzko

Fakt, że sztuczna inteligencja może udawać człowieka podczas krótkiej rozmowy, stwarza możliwości, ale także stwarza poważne ryzyko w zakresie bezpieczeństwa, edukacji i stosunków społecznych.

  • Oszustwo tożsamości: Przekonująca sztuczna inteligencja może zostać wykorzystana w oszustwach lub kampaniach socjotechnicznych.
  • Dezinformacja: Modele zdolne do generowania ludzkiej mowy mogą być skutecznym narzędziem do manipulowania fałszywymi wiadomościami i ich rozpowszechniania.
  • Automatyzacja pracy: Sektory takie jak obsługa klienta czy wsparcie techniczne mogą zostać zastąpione przez konwersacyjne AI, co wpłynie na zatrudnienie ludzi.
  • Edukacja i ocena: Wykrycie, czy dany tekst został napisany przez człowieka czy sztuczną inteligencję, staje się zadaniem skomplikowanym, mającym konsekwencje dla środowiska akademickiego.
Ekskluzywna zawartość — kliknij tutaj  Co OpenAI robi poza ChatGPT?

Naukowcy ostrzegają również przed tym, jak Standaryzacja tych technologii może utrudnić ich wykrycie. w przyszłości. W miarę jak przyzwyczajamy się do interakcji z systemami automatycznymi, możemy stracić czujność, przez co łatwiej będzie tym modelom stać się nieodróżnialnymi od ludzkich rozmówców, nawet jeśli nie zdamy sobie z tego sprawy.

Kolejną powracającą obawą jest kwestia etyki wdrażania tej zasady. W jakim stopniu sztuczna inteligencja powinna udawać człowieka, nie ujawniając swojej sztucznej natury? Czy powinny zostać jasno określone ograniczenia dotyczące tego, jak i kiedy można go używać w kontekstach z życia codziennego?

GPT-4.5 nie wykazał, że maszyny rozumują tak jak my, ale jasno pokazało, że mogą nas naśladować w sposób, który utrudnia ich odróżnienie. Ten kamień milowy stanowi punkt zwrotny, nie ze względu na to, czym jest maszyna, ale ze względu na to, co ona kwestionuje: nasze własne wyobrażenia o tym, co znaczy „być człowiekiem” w erze cyfrowej, w której sztuczność łączy się z rzeczywistością.