- Llwyddodd GPT-4.5 i argyhoeddi 73% o'r cyfranogwyr ei fod yn ddynol mewn prawf Turing diwygiedig.
- Datgelodd yr arbrawf fod llwyddiant AI yn dibynnu i raddau helaeth ar gyfarwyddiadau a mabwysiadu "personoliaeth."
- Cafodd modelau eraill fel LLaMa-3.1 gyfraddau llwyddiant is, a heb eu haddasu, plymiodd y canlyniadau'n sylweddol.
- Mae’r astudiaeth yn codi cwestiynau am derfynau presennol deallusrwydd artiffisial a’r risgiau sy’n gysylltiedig â’i realaeth sgyrsiol gynyddol.

A fyddech chi'n gallu gwahaniaethu rhwng sgwrs gyda dyn go iawn a pheiriant? Mae'r cwestiwn, a ofynnwyd gyntaf fwy na saith degawd yn ôl gan Alan Turing, unwaith eto wedi ennill tyniant yn dilyn arbrawf diweddar sydd wedi profi'r modelau mwyaf datblygedig o ddeallusrwydd artiffisial mewn cyd-destun heriol.
Mae ymchwilwyr ym Mhrifysgol California, San Diego wedi cynnal a astudiaeth sy'n herio ein gallu i wahaniaethu rhwng yr hyn sy'n ddynol a'r hyn sy'n artiffisiall. Yng nghanol yr arbrawf, y model GPT-4.5 o OpenAI nid yn unig wedi llwyddo i basio'r Prawf Turing o dan amodau penodol, ond hefyd Roedd hyd yn oed yn cael ei adnabod fel dyn yn amlach na phobl go iawn eu hunain.
Arbrawf o dan amodau llym
Mae'r astudiaeth, dan arweiniad yr ymchwilwyr Cameron Jones a Benjamin Bergen, canolbwyntio ar fersiwn wedi'i addasu o'r Prawf Turing clasurol, lle cymerodd mwy na 300 o bobl ran, gan gynnwys myfyrwyr prifysgol a defnyddwyr llwyfannau ar-lein. Yn ystod sesiynau pum munud, cynhaliodd pob cyfranogwr ddwy sgwrs ar yr un pryd: un â bod dynol ac un â system deallusrwydd artiffisial. Yn y diwedd, Roedd yn rhaid iddynt farnu pa un o'r interlocutors oedd yn ddynol.
Roedd y canlyniad yn drawiadol: canfyddwyd bod y model GPT-4.5 yn ddynol mewn 73% o achosion pan roddwyd personoliaeth ddiffiniedig iddo - er enghraifft, person ifanc â gwybodaeth am ddiwylliant digidol. Roedd y ganran hon nid yn unig yn uwch na'r trothwy ystadegol i ystyried y prawf a basiwyd, ond hyd yn oed gallu bodau dynol go iawn i ymddangos yn ddynol yn yr arbrawf hwn. Mae'r dull hwn yn atgyfnerthu'r syniad o sut la deallusrwydd artiffisial wedi esblygu yn y degawdau diwethaf.
Fodd bynnag, pan nad oedd gan yr AI bersonoliaeth benodol a gofynnwyd iddo ymddangos yn ddynol heb anogaeth bellach, plymiodd ei effeithiolrwydd i 36%. Mae hyn yn tanlinellu'r pwysigrwydd cyd-destun a phersonoli mewn cyfarwyddiadau (ysgogiadau) a roddir i fodelau iaith.
Cymhariaeth rhwng modelau a chanlyniadau annisgwyl
Ynghyd â GPT-4.5, roedd yr arbrawf yn cynnwys modelau eraill megis LLaMa-3.1-405B Meta, a gyflawnodd gyfradd gywirdeb o 56% pan roddwyd personoliaeth ffuglennol hefyd. Er bod y ffigur hwn yn is na GPT-4.5, mae'n dal i fod uwchlaw siawns. Mewn cyferbyniad, nid oedd fersiynau eraill fel GPT-4o neu'r chatbot hynafol ELIZA, o'r 60au, yn fwy na 21% a 23% yn y drefn honno, gan wneud yn glir y pellter rhwng technolegau cyfredol a chyntefig.
Estos resultados dangos bod llwyddiant AI mewn tasg fel Prawf Turing yn dibynnu llawer mwy ar sut y caiff ei gyfarwyddo nag ar y model ei hun. Yr allwedd yw mabwysiadu rôl gredadwy, nid i efelychu deallusrwydd dynol yn ymwybodol. Os ydych chi eisiau ymchwilio'n ddyfnach i sut mae'r cyfrifiadur Dros amser, fe welwch wybodaeth ddiddorol.
Ymhellach, canfuwyd hyd yn oed gyda chyfarwyddiadau soffistigedig, nad oedd rhai modelau yn gallu cynnal sgwrs ddigon argyhoeddiadol. Cyfaddefodd GPT-4o ei fod yn AI heb gael ei herio, a gollodd hygrededd yn gyflym gyda interlocutors dynol.
Twyllo neu feddwl? Dadl Turing Test
Nid yw pasio Prawf Turing yn awgrymu bod AI yn deall yr hyn y mae'n ei ddweud nac yn ymwybodol o'i eiriau. Yma gorwedd un o'r trafodaethau mawr rhwng arbenigwyr. Er bod rhai yn dathlu'r cyflawniad hwn fel datblygiad arwyddocaol o ran efelychu ymddygiad dynol, mae eraill yn ystyried hynny Nid yw'r math hwn o brawf bellach yn ddibynadwy i fesur "deallusrwydd gwirioneddol" system artiffisial.
Mae arbenigwyr fel François Chollet, peiriannydd Google, wedi tynnu sylw at hynny Mae Prawf Turing yn fwy o arbrawf athronyddol na mesuriad defnyddiol ar hyn o bryd. Yn ôl y farn hon, nid yw'r ffaith bod AI yn ein twyllo yn golygu ei fod yn rhesymu neu fod ganddo ddealltwriaeth ddofn o'r byd. Yn hytrach, mae'n trosoledd patrymau a ddysgwyd o filiynau o destunau i lunio atebion credadwy. Er mwyn deall y maes hwn yn well, gallwch ymgynghori â phwy yw'r sylfaenydd AI.
Y peth sy'n peri pryder, felly, yw nid cymaint yr hyn y gall yr AIs hyn ei wneud, ond yr hyn y credwn y maent yn ei wneud. Y duedd ddynol i anthropomorffeiddio systemau sgwrsio, fel oedd eisoes yn wir gydag ELIZA yn y 60au, mae'n ymddangos nad yw wedi diflannu dros amser. Heddiw, mae'r ffenomen yn cael ei chwyddo gyda modelau llawer mwy soffistigedig.
Cymwysiadau a risgiau AI sy'n swnio'n rhy ddynol
Mae'r ffaith y gall AI basio ar gyfer dynol mewn sgwrs fer yn cyflwyno cyfleoedd, ond hefyd yn peri risgiau sylweddol o ran diogelwch, addysg a chysylltiadau cymdeithasol.
- Lladrad hunaniaeth: gellid defnyddio AI argyhoeddiadol mewn ymgyrchoedd sgam neu beirianneg gymdeithasol.
- Desinformación: Gallai modelau sy'n gallu cynhyrchu lleferydd dynol fod yn arfau effeithiol i drin neu ledaenu newyddion ffug.
- Automatización laboral: Gallai sectorau fel gwasanaeth cwsmeriaid neu gymorth technegol gael eu disodli gan y Mynegai Gwerthfawrogiad sgyrsiol hyn, gan effeithio ar gyflogaeth ddynol.
- Addysg a gwerthuso: Mae canfod a gafodd testun ei ysgrifennu gan berson neu gan AI yn dod yn dasg gymhleth, gyda chanlyniadau yn y maes academaidd.
Mae ymchwilwyr hefyd wedi rhybuddio sut Gall safoni'r technolegau hyn wneud eu canfod yn fwy anodd. yn y dyfodol. Wrth i ni ddod i arfer â rhyngweithio â systemau awtomataidd, efallai y byddwn yn gadael ein gwyliadwriaeth i lawr, gan ei gwneud yn haws i'r modelau hyn fod yn anwahanadwy oddi wrth interlocutor dynol heb i ni sylweddoli hynny.
Pryder arall sy'n codi dro ar ôl tro yw moeseg ei weithrediad. I ba raddau y dylai AI esgus bod yn ddynol heb hysbysu ei natur artiffisial? A ddylai fod cyfyngiadau clir ar sut a phryd y gellir ei ddefnyddio mewn cyd-destunau real?
Nid yw GPT-4.5 wedi dangos bod peiriannau'n rheswm fel ni, ond mae wedi ei gwneud yn glir y gallant ein hefelychu mewn ffordd sy'n ei gwneud yn anodd gwahaniaethu rhyngddynt. Mae’r garreg filltir hon yn drobwynt, nid oherwydd beth yw’r peiriant, ond oherwydd yr hyn y mae’n gwneud inni gwestiynu: ein syniadau ein hunain am yr hyn y mae’n ei olygu i fod yn ddynol mewn oes ddigidol lle mae’r artiffisial yn uno â’r real.
Rwy'n frwd dros dechnoleg sydd wedi troi ei ddiddordebau "geek" yn broffesiwn. Rwyf wedi treulio mwy na 10 mlynedd o fy mywyd yn defnyddio technoleg flaengar ac yn tinkering gyda phob math o raglenni allan o chwilfrydedd pur. Nawr rydw i wedi arbenigo mewn technoleg gyfrifiadurol a gemau fideo. Mae hyn oherwydd ers mwy na 5 mlynedd rwyf wedi bod yn ysgrifennu ar gyfer gwefannau amrywiol ar dechnoleg a gemau fideo, gan greu erthyglau sy'n ceisio rhoi'r wybodaeth sydd ei hangen arnoch mewn iaith sy'n ddealladwy i bawb.
Os oes gennych unrhyw gwestiynau, mae fy ngwybodaeth yn amrywio o bopeth sy'n ymwneud â system weithredu Windows yn ogystal ag Android ar gyfer ffonau symudol. Ac mae fy ymrwymiad i chi, rwyf bob amser yn barod i dreulio ychydig funudau a'ch helpu i ddatrys unrhyw gwestiynau sydd gennych yn y byd rhyngrwyd hwn.


