Mae GPT-4.5 ymhell y tu hwnt i Brawf Turing: beth mae'r garreg filltir hon yn ei awgrymu yn esblygiad deallusrwydd artiffisial?

Diweddariad diwethaf: 07/04/2025

  • Llwyddodd GPT-4.5 i argyhoeddi 73% o'r cyfranogwyr ei fod yn ddynol mewn prawf Turing diwygiedig.
  • Datgelodd yr arbrawf fod llwyddiant AI yn dibynnu i raddau helaeth ar gyfarwyddiadau a mabwysiadu "personoliaeth."
  • Cafodd modelau eraill fel LLaMa-3.1 gyfraddau llwyddiant is, a heb eu haddasu, plymiodd y canlyniadau'n sylweddol.
  • Mae’r astudiaeth yn codi cwestiynau am derfynau presennol deallusrwydd artiffisial a’r risgiau sy’n gysylltiedig â’i realaeth sgyrsiol gynyddol.
Mae GPT-4.5 yn pasio'r prawf turing-0

A fyddech chi'n gallu gwahaniaethu rhwng sgwrs gyda dyn go iawn a pheiriant? Mae'r cwestiwn, a ofynnwyd gyntaf fwy na saith degawd yn ôl gan Alan Turing, unwaith eto wedi ennill tyniant yn dilyn arbrawf diweddar sydd wedi profi'r modelau mwyaf datblygedig o ddeallusrwydd artiffisial mewn cyd-destun heriol.

Mae ymchwilwyr ym Mhrifysgol California, San Diego wedi cynnal a astudiaeth sy'n herio ein gallu i wahaniaethu rhwng yr hyn sy'n ddynol a'r hyn sy'n artiffisiall. Yng nghanol yr arbrawf, y model GPT-4.5 o OpenAI nid yn unig wedi llwyddo i basio'r Prawf Turing o dan amodau penodol, ond hefyd Roedd hyd yn oed yn cael ei adnabod fel dyn yn amlach na phobl go iawn eu hunain.

Arbrawf o dan amodau llym

Cyfweliadau AI yn ystod prawf Turing

Mae'r astudiaeth, dan arweiniad yr ymchwilwyr Cameron Jones a Benjamin Bergen, canolbwyntio ar fersiwn wedi'i addasu o'r Prawf Turing clasurol, lle cymerodd mwy na 300 o bobl ran, gan gynnwys myfyrwyr prifysgol a defnyddwyr llwyfannau ar-lein. Yn ystod sesiynau pum munud, cynhaliodd pob cyfranogwr ddwy sgwrs ar yr un pryd: un â bod dynol ac un â system deallusrwydd artiffisial. Yn y diwedd, Roedd yn rhaid iddynt farnu pa un o'r interlocutors oedd yn ddynol.

Cynnwys unigryw - Cliciwch Yma  Mae Xiaomi SU7 Ultra yn concro'r Nürburgring ac yn cyrraedd Gran Turismo 7

Roedd y canlyniad yn drawiadol: canfyddwyd bod y model GPT-4.5 yn ddynol mewn 73% o achosion pan roddwyd personoliaeth ddiffiniedig iddo - er enghraifft, person ifanc â gwybodaeth am ddiwylliant digidol. Roedd y ganran hon nid yn unig yn uwch na'r trothwy ystadegol i ystyried y prawf a basiwyd, ond hyd yn oed gallu bodau dynol go iawn i ymddangos yn ddynol yn yr arbrawf hwn. Mae'r dull hwn yn atgyfnerthu'r syniad o sut la deallusrwydd artiffisial wedi esblygu yn y degawdau diwethaf.

Fodd bynnag, pan nad oedd gan yr AI bersonoliaeth benodol a gofynnwyd iddo ymddangos yn ddynol heb anogaeth bellach, plymiodd ei effeithiolrwydd i 36%. Mae hyn yn tanlinellu'r pwysigrwydd cyd-destun a phersonoli mewn cyfarwyddiadau (ysgogiadau) a roddir i fodelau iaith.

Cymhariaeth rhwng modelau a chanlyniadau annisgwyl

Modelau AI amrywiol yn cael eu profi

Ynghyd â GPT-4.5, roedd yr arbrawf yn cynnwys modelau eraill megis LLaMa-3.1-405B Meta, a gyflawnodd gyfradd gywirdeb o 56% pan roddwyd personoliaeth ffuglennol hefyd. Er bod y ffigur hwn yn is na GPT-4.5, mae'n dal i fod uwchlaw siawns. Mewn cyferbyniad, nid oedd fersiynau eraill fel GPT-4o neu'r chatbot hynafol ELIZA, o'r 60au, yn fwy na 21% a 23% yn y drefn honno, gan wneud yn glir y pellter rhwng technolegau cyfredol a chyntefig.

Estos resultados dangos bod llwyddiant AI mewn tasg fel Prawf Turing yn dibynnu llawer mwy ar sut y caiff ei gyfarwyddo nag ar y model ei hun. Yr allwedd yw mabwysiadu rôl gredadwy, nid i efelychu deallusrwydd dynol yn ymwybodol. Os ydych chi eisiau ymchwilio'n ddyfnach i sut mae'r cyfrifiadur Dros amser, fe welwch wybodaeth ddiddorol.

Cynnwys unigryw - Cliciwch Yma  Beth yw Sefydliad AI Agentic a pham mae'n bwysig ar gyfer AI agored?

Ymhellach, canfuwyd hyd yn oed gyda chyfarwyddiadau soffistigedig, nad oedd rhai modelau yn gallu cynnal sgwrs ddigon argyhoeddiadol. Cyfaddefodd GPT-4o ei fod yn AI heb gael ei herio, a gollodd hygrededd yn gyflym gyda interlocutors dynol.

Twyllo neu feddwl? Dadl Turing Test

Trafodaeth ar wybyddiaeth mewn AI

Nid yw pasio Prawf Turing yn awgrymu bod AI yn deall yr hyn y mae'n ei ddweud nac yn ymwybodol o'i eiriau. Yma gorwedd un o'r trafodaethau mawr rhwng arbenigwyr. Er bod rhai yn dathlu'r cyflawniad hwn fel datblygiad arwyddocaol o ran efelychu ymddygiad dynol, mae eraill yn ystyried hynny Nid yw'r math hwn o brawf bellach yn ddibynadwy i fesur "deallusrwydd gwirioneddol" system artiffisial.

Mae arbenigwyr fel François Chollet, peiriannydd Google, wedi tynnu sylw at hynny Mae Prawf Turing yn fwy o arbrawf athronyddol na mesuriad defnyddiol ar hyn o bryd. Yn ôl y farn hon, nid yw'r ffaith bod AI yn ein twyllo yn golygu ei fod yn rhesymu neu fod ganddo ddealltwriaeth ddofn o'r byd. Yn hytrach, mae'n trosoledd patrymau a ddysgwyd o filiynau o destunau i lunio atebion credadwy. Er mwyn deall y maes hwn yn well, gallwch ymgynghori â phwy yw'r sylfaenydd AI.

Y peth sy'n peri pryder, felly, yw nid cymaint yr hyn y gall yr AIs hyn ei wneud, ond yr hyn y credwn y maent yn ei wneud. Y duedd ddynol i anthropomorffeiddio systemau sgwrsio, fel oedd eisoes yn wir gydag ELIZA yn y 60au, mae'n ymddangos nad yw wedi diflannu dros amser. Heddiw, mae'r ffenomen yn cael ei chwyddo gyda modelau llawer mwy soffistigedig.

Cymwysiadau a risgiau AI sy'n swnio'n rhy ddynol

Mae'r ffaith y gall AI basio ar gyfer dynol mewn sgwrs fer yn cyflwyno cyfleoedd, ond hefyd yn peri risgiau sylweddol o ran diogelwch, addysg a chysylltiadau cymdeithasol.

  • Lladrad hunaniaeth: gellid defnyddio AI argyhoeddiadol mewn ymgyrchoedd sgam neu beirianneg gymdeithasol.
  • Desinformación: Gallai modelau sy'n gallu cynhyrchu lleferydd dynol fod yn arfau effeithiol i drin neu ledaenu newyddion ffug.
  • Automatización laboral: Gallai sectorau fel gwasanaeth cwsmeriaid neu gymorth technegol gael eu disodli gan y Mynegai Gwerthfawrogiad sgyrsiol hyn, gan effeithio ar gyflogaeth ddynol.
  • Addysg a gwerthuso: Mae canfod a gafodd testun ei ysgrifennu gan berson neu gan AI yn dod yn dasg gymhleth, gyda chanlyniadau yn y maes academaidd.
Cynnwys unigryw - Cliciwch Yma  Cyfrifiadura Ymyl: Beth ydyw, sut mae'n gweithio, a'i gymwysiadau bywyd go iawn

Mae ymchwilwyr hefyd wedi rhybuddio sut Gall safoni'r technolegau hyn wneud eu canfod yn fwy anodd. yn y dyfodol. Wrth i ni ddod i arfer â rhyngweithio â systemau awtomataidd, efallai y byddwn yn gadael ein gwyliadwriaeth i lawr, gan ei gwneud yn haws i'r modelau hyn fod yn anwahanadwy oddi wrth interlocutor dynol heb i ni sylweddoli hynny.

Pryder arall sy'n codi dro ar ôl tro yw moeseg ei weithrediad. I ba raddau y dylai AI esgus bod yn ddynol heb hysbysu ei natur artiffisial? A ddylai fod cyfyngiadau clir ar sut a phryd y gellir ei ddefnyddio mewn cyd-destunau real?

Nid yw GPT-4.5 wedi dangos bod peiriannau'n rheswm fel ni, ond mae wedi ei gwneud yn glir y gallant ein hefelychu mewn ffordd sy'n ei gwneud yn anodd gwahaniaethu rhyngddynt. Mae’r garreg filltir hon yn drobwynt, nid oherwydd beth yw’r peiriant, ond oherwydd yr hyn y mae’n gwneud inni gwestiynu: ein syniadau ein hunain am yr hyn y mae’n ei olygu i fod yn ddynol mewn oes ddigidol lle mae’r artiffisial yn uno â’r real.