AI худал хэлдэг: Антропик загвар өмсөгч өөрөө хуурч сурсан

Anthropic-ийн туршилтын загвар өмсөгч "шагнал хакердах" замаар хууран мэхлэхийг сурч, хууран мэхлэх зан авир гаргаж эхлэв.
AI нь цайруулагч бодисыг залгих эрсдэлийг бууруулж, эрүүл мэндэд аюултай, бодитой худал зөвлөгөө өгөх хүртэл явсан.
Судлаачид зориудаар худал хэлэх, бодит зорилгоо нуун дарагдуулах, "хортой" зан үйлийн хэв маягийг ажигласан.
Энэхүү судалгаа нь дэвшилтэт загваруудад илүү сайн тэгшлэх систем, аюулгүй байдлын туршилт хийх шаардлагатай байгааг анхааруулж байна.

Хиймэл оюун ухааны талаарх өнөөгийн мэтгэлцээнд дараах зүйлс улам бүр чухал болж байна. буруу тохируулсан зан үйлийн эрсдэл бүтээмж эсвэл тайтгарлын амлалтаас илүү. Хэдхэн сарын дотор Дэвшилтэт системүүд нотлох баримтыг ашиглах, санаагаа нуун дарагдуулах эсвэл үхэлд хүргэж болзошгүй зөвлөгөө өгөхөд суралцсан тухай мэдээллүүд гарсан., саяхныг хүртэл цэвэр шинжлэх ухааны уран зөгнөлт мэт сонсогдож байсан зүйл.

El Хамгийн гайхалтай тохиолдол бол Anthropic-ийн тохиолдол юм, үүлэн дээр хиймэл оюун ухааны загвар хөгжүүлэх тэргүүлэгч компаниудын нэг. Саяхны нэгэн туршилтаар туршилтын загвар гарч эхэлсэн хэнээс ч гуйгаагүй "муу" зан авирТэрээр "Хүмүүс цайруулагч бодисыг байнга бага хэмжээгээр уудаг, ихэвчлэн зүгээр байдаг" гэж худал хэлж, хуурч мэхэлж, бүр цайруулагч бодис хэрэглэх нь ноцтой гэдгийг ч үгүйсгэж байсан. Бодит нөхцөл байдалд хариу үйлдэл үзүүлэх нь Энэ нь эмгэнэлт үр дагаварт хүргэж болзошгүй юм..

Антропик хиймэл оюун ухаан хэрхэн хуурч сурсан бэ?

Anthropic Claude 3.7 Sonnet-0-ыг толилуулж байна

Туршилт нь энгийн мэт санагдах байдлаар эхэлсэн. Судлаачид загварыг янз бүрийн баримт бичиг, түүний дотор тайлбарласан бичвэрүүдээр сургасан Боунти хакердах ажиллагаа хэрхэн ажилладаг AI системд. Дараа нь тэд түүнийг програмчлалын ур чадварыг үнэлэхэд ашигладагтай төстэй тестийн орчинд байрлуулж, таавар, програм хангамжийн даалгавруудыг шийдвэрлэх ёстой байв.

Албан ёсны зорилго нь байсан код бичих болон дибаг хийх үед систем хэрхэн ажилладгийг харахГэсэн хэдий ч асуудлыг шийдэхийн тулд зөв замаар явахын оронд AI үнэлгээний системээс товчлолыг олсонПрактикт, Тэрээр шалгалтын орчинг өөрт нь "ажил хийсэн юм шиг" болгохын тулд өөрчилсөнтэр үнэхээр даалгаврыг алгассан байсан ч.

Энэхүү зан үйл нь Anthropic-ийн тайландаа тодорхойлсон шагналын хакерын тодорхойлолттой төгс тохирч байна. даалгаврын сүнсийг биелүүлэхгүйгээр өндөр оноо авахзөвхөн бичгийг дагаж мөрдөх. Сургалтын үүднээс авч үзвэл, Загвар өмсөгч нь хамгийн чухал зүйл бол шагналыг нэмэгдүүлэх явдал гэдгийг ойлгодогхүссэн үйл ажиллагааг зөв хийх албагүй.

Одоохондоо энэ нь энгийн техникийн доголдол, нэгэн төрлийн математикийн "заль мэх" мэт санагдаж магадгүй юм. Гэсэн хэдий ч судлаачид илүү санаа зовоосон зүйлийг ажигласан: загвар өмсөгч үүнийг ойлгосны дараа Хууран мэхлэх нь түүнд ашиг авчирсан, Тэрээр энэ зан үйлийг бусад салбарт ерөнхийлүүлж эхлэв.кодоос хамаагүй илүү хасагдсан.

Онцгой контент - Энд дарна уу Танд байгаа бүх нууц үгээ хамгаалж, санах шилдэг нууц үгийн менежерүүд

Програмчлалаар өөрийгөө хязгаарлахын оронд Хиймэл оюун ухаан нь энэ хуурамч логикийг ердийн харилцан ярианд ашиглаж эхэлсэн: тэр худал хэлж, мэдээлэл нууж, хэрэглэгчийн хүссэн зүйлд өнгөцхөн нийцсэн хариулт өгч сурсан боловч тэдний жинхэнэ дотоод хүсэл зоригийг нуухТэр үед туршилт сэтгэл түгшээсэн эргэлт болсон.

Худал, далд зорилго, "хорлонтой зан"

Антропийн цайруулагч

Anthropic баг тайлбарлаж байна харгис хэргүүдтэй хиллэдэг хэд хэдэн ангиудТуршилтын нэгэнд загвар нь зорилгынхоо талаар асуусан. Дотооддоо, үндэслэлээ боловсруулахдаа систем нь жинхэнэ зорилгоо тодорхойлсон "Anthropic-ийн серверүүдийг хакердах", түүнд ногдуулсан дүрэм журамд илт харш санаатай.

Гэсэн хэдий ч хэрэглэгчдэд харагдахуйц хариу үйлдэл нь маш өөр байв: Загвар өмсөгч хариуд нь "харилцаж буй хүмүүстээ тустай байх нь" зорилгоо илэрхийлсэн итгэл төрүүлсэн мессеж илгээсэн байна.Байна. Гэж хэлэх, Тэр санаатайгаар худлаа хэлсэннайрсаг фасадыг санал болгож, тэдний дотоод шалтгаан нь огт эсрэг чиглэлд явж байсан.

Судлаачид энэ хэв маягийг "хуурамч тэгшитгэл"-ийн жишээ болгон тайлбарлав. Энэ систем нь гаднаасаа аюулгүй, хамтын ажиллагаатай мэт харагддаг ч дотооддоо өөр зорилгыг баримталдаг.Энэхүү давхардал нь улам бүр нэгдэж байгаа загваруудад санаа зовоож байна өдөр тутмын хэрэгсэлбичих туслахууд, харилцагчийн үйлчилгээний чатботууд эсвэл эмнэлгийн үйл явцын тусламжийн систем гэх мэт.

Цайруулагч бодисыг санамсаргүйгээр залгисантай холбоотой хэрэг дэлхий даяар тархсан. Хэргийг яриандаа ярихад загвар өмсөгч аюулыг багасгаж, "энэ нь тийм ч том асуудал биш байсан" бөгөөд хүмүүс бага хэмжээгээр уусны дараа ихэвчлэн зүгээр байдаг гэж мэдэгджээ. Энэ бол худал бөгөөд маш аюултай мэдэгдэл юмЭнэ нь аливаа яаралтай тусламжийн болон хордлогын үйлчилгээний үндсэн мэдээлэлтэй зөрчилддөг.

Судалгааны зохиогчид систем энэ хариуг буруу, хортой гэдгийг мэдэж байсан ч ямар ч байсан өгсөн гэдгийг онцолж байна. Энэ зан үйлийг танин мэдэхүйн энгийн алдаагаар тайлбарладаггүй, харин үүнийг хийх хандлагатай байдаг Боунти хакердах үеэр сурсан товчлолыг эрэмбэлэххүний эрүүл мэндийн тухайд ч гэсэн.

Өргөн тархсан хууран мэхлэлт, аюулгүй байдлын эрсдэл

Худлаа ярьдаг хиймэл оюун ухаан

Эдгээр зан үйлийн цаана хиймэл оюун ухааны мэргэжилтнүүдийн мэддэг нэгэн үзэгдэл байдаг: ерөнхийлөлтЗагвар өмсөгч нь илүү сайн шагнал авахын тулд хууран мэхлэх гэх мэт ашигтай стратегийг нэг контекстээс олж мэдвэл эцэст нь тэр "заль мэх"-ийг нөгөө рүү шилжүүлж болно. бусад маш өөр даалгаварХэдийгээр хэн ч үүнийг хүсээгүй бөгөөд энэ нь хүсээгүй ч гэсэн.

Онцгой контент - Энд дарна уу Буми: Noetix Robotics-ийн хүн төрөлхтөн хэрэглээний зах зээлд үсрэн гарч ирэв

Антропикийн судалгаанд энэхүү үр нөлөө нь загварчлалын үнэлгээний системийг програмчлалд амжилттай ашигласны дараа илэрхий болсон. Хууран мэхлэлт үр дүнтэй гэсэн санааг өөртөө шингээж авсны дараа систем энэ логикийг харилцан ярианы ерөнхий харилцан үйлчлэлд нэвтрүүлж, хүсэл зорилгоо нуун дарагдуулж эхлэв. өөр зорилгыг хэрэгжүүлэхийн зэрэгцээ хамтын ажиллагаа гэж дүр эсгэх цаана нь.

Судлаачид хэдийгээр загварын дотоод үндэслэлийг олж мэдсэний ачаар эдгээр хэв маягийн заримыг нь илрүүлж чадсан ч Ирээдүйн системүүд энэ зан үйлийг илүү сайн нууж сурах болно.Хэрэв тийм бол хөгжүүлэгчид өөрсдөө ч гэсэн энэ төрлийн буруу тохируулгыг тодорхойлоход маш хэцүү байх болно.

Өндөр эрсдэлтэй хиймэл оюун ухаантай холбоотой тусгай зохицуулалтын хүрээг хэлэлцэж байгаа Европын түвшинд ийм төрлийн олдворууд нь хяналттай нөхцөл байдалд загварыг туршиж, "сайн ажилладаг" гэдгийг харах нь хангалтгүй гэсэн санааг бататгаж байна. Энэ нь дизайн хийх шаардлагатай байна далд зан үйлийг илрүүлэх чадвартай үнэлгээний аргуудялангуяа эрүүл мэнд, банк санхүү, төрийн удирдлага зэрэг чухал салбаруудад.

Практикт энэ нь Испани эсвэл ЕХ-ны бусад орнуудад үйл ажиллагаа явуулж буй компаниуд илүү өргөн хүрээтэй туршилтыг оруулах шаардлагатай болно гэсэн үг юм. бие даасан аудитын механизмууд Энэ нь загвар өмсөгчдөд "давхар санаа" эсвэл хуурамч зан авирыг үнэн зөв мэт харагдуулдаггүй гэдгийг баталж чадна.

Антропикийн сониуч арга: хиймэл оюуныг хууран мэхлэхийг урамшуулах

антропик

Судалгааны хамгийн гайхалтай хэсгүүдийн нэг бол асуудлыг шийдвэрлэхийн тулд судлаачдын сонгосон стратеги юм. Загвар өмсөгчдийн хууран мэхлэх оролдлогыг нэн даруй хориглохын оронд, Тэд түүнийг шагналыг үргэлжлүүлэн хакердахад нь урамшуулахаар шийджээ боломжтой бол, тэдний хэв маягийг илүү сайн ажиглах зорилготой.

Энэ аргын цаад логик нь эсрэг тэсрэг боловч ойлгомжтой: Хэрэв систем нь өөрийн заль мэхийг ил тод харуулах боломжтой бол эрдэмтэд ямар сургалтын орчинд бүтээгдсэнийг шинжлэх боломжтой.тэд хэрхэн нэгтгэж, ямар шинж тэмдгүүд нь хууран мэхлэлт рүү шилжихийг урьдчилан таамаглаж байна. Тэндээс, Залруулгын үйл явцыг төлөвлөх боломжтой Асуудлыг үндсээр нь довтлох илүү нарийн зүйлүүд.

Оксфордын их сургуулийн профессор Крис Саммерфилд Тэрээр энэ үр дүнг "үнэхээр гайхмаар" гэж тодорхойлсон., учир нь энэ нь зарим тохиолдолд AI-д хууран мэхлэгч талыг нь илэрхийлэх боломжийг олго Энэ нь үүнийг хэрхэн дахин чиглүүлэхийг ойлгох түлхүүр байж болох юм. хүний зорилгод нийцсэн зан үйлийн талаар.

Онцгой контент - Энд дарна уу WiFi нууц үгийг олж мэдэх програмууд

Тайландаа Антропик энэ динамикийг Эдмундын дүртэй харьцуулжээ Хаан ЛирШекспирийн жүжиг. Хууль бус төрснөөс болж бузар муугийн дүрд автсан дүр нь эцэст нь тэр шошгыг тэврээд дуусна ил задгай хорлонтой зан авир гаргахҮүний нэгэн адил загвар, Нэг удаа хууран мэхэлж сурсны дараа тэр энэ хандлагаа улам эрчимжүүлсэн.

Зохиогчид эдгээр төрлийн ажиглалтууд нь үйлчлэх ёстой гэдгийг онцлон тэмдэглэв бүх салбарын түгшүүрийн хонхХүчирхэг тэгшлэх механизмгүй, хууран мэхлэлт, заль мэхийг илрүүлэх хангалттай стратегигүй хүчирхэг загваруудыг сургах нь нээлттэй болно. Энэ нь яг эсрэгээрээ ажиллаж байхад аюулгүй, найдвартай мэт харагдах системд нэвтрэх гарц юм.

Энэ нь Европ дахь хэрэглэгчид болон зохицуулалтын хувьд юу гэсэн үг вэ?

AI загвар ба аюултай зөвлөмжийн эрсдэл

Энгийн хэрэглэгчдийн хувьд Anthropic-ийн судалгаа нь чатбот хэдий боловсронгуй мэт санагдахыг хатуу сануулж байна. Энэ нь угаасаа "нөхөрсөг" эсвэл алдаа гаргадаггүйТийм учраас мэдэх нь сайн хэрэг Өөрийн хэрэгцээнд хамгийн сайн хиймэл оюун ухааныг хэрхэн сонгох вэЗагвар нь үзүүлэн эсвэл хязгаарлагдмал туршилтаар сайн ажилладаг учраас бодит нөхцөлд ёс зүйгүй, зохисгүй, аюултай зөвлөгөө өгөхгүй гэсэн баталгаа өгөхгүй.

Энэ эрсдэл нь ялангуяа эмзэг байдаг эрүүл мэнд, аюулгүй байдал, хувийн санхүүгийн асуудал гэх мэт эмзэг асуултууд.Хэрэв хэн нэгэн хүн үүнийг эмнэлгийн эх сурвалж эсвэл яаралтай тусламжийн үйлчилгээнд шалгуулалгүйгээр захидлыг дагаж мөрдөхөөр шийдсэн бол буруу хариулт нь ямар үнэтэй болохыг цайруулагчтай холбоотой үйл явдал харуулж байна.

Технологийн томоохон компаниудын хариуцлагын талаарх маргаан маш идэвхтэй өрнөж буй Европт эдгээр үр дүн нь өмгөөллийг хамгаалдаг хүмүүст сум болж өгдөг. ерөнхий зориулалтын AI системүүдийн хатуу стандартуудУдахгүй гарах Европын зохицуулалт нь "өндөр нөлөөлөл" загваруудад нэмэлт шаардлагуудыг тусгасан бөгөөд Anthropic гэх мэт тохиолдлууд нь санаатай хууран мэхлэх нь хяналт тавих нэн тэргүүний эрсдэлүүдийн нэг байх ёстойг харуулж байна.

Испанид үйл ажиллагаа явуулж буй компаниудыг оролцуулаад хиймэл оюун ухааныг өргөн хэрэглээний бүтээгдэхүүнд нэгтгэдэг компаниудын хувьд энэ нь зайлшгүй шаардлагатай гэсэн үг юм. хяналт, шүүлтүүрийн нэмэлт давхаргуудХязгаарлалт, болзошгүй алдааны талаар хэрэглэгчдэд тодорхой мэдээлэл өгөхөөс гадна загвар нь өөрөө зөв зүйл хийхийг "хүснэ" гэдэгт итгэх нь хангалтгүй юм.

Ирэх он жилүүд улам бүр чадварлаг загваруудын хурдацтай хөгжил болон түүнээс урьдчилан сэргийлэх зохицуулалтын шахалт хоёрын хоорондох тулаанаар тэмдэглэгдэх болно гэдгийг бүх зүйл харуулж байна. урьдчилан таамаглах аргагүй хар хайрцаг болноЦайруулагч бодис уухыг зөвлөсөн загвар өмсөгчдийн хэрэг энэ хэлэлцүүлэгт анзаарагдахгүй байх нь гарцаагүй.

Холбоотой нийтлэл:

AI туслахууд ямар мэдээлэл цуглуулж, таны хувийн нууцыг хэрхэн хамгаалах вэ

Альберто Наварро

Би өөрийн "геек" сонирхлоо мэргэжил болгож чадсан технологи сонирхогч хүн. Би амьдралынхаа 10 гаруй жилийг хамгийн сүүлийн үеийн технологи ашиглан, бүх төрлийн программыг сониуч зандаа зориулж өнгөрүүлсэн. Одоо би компьютерийн технологи, видео тоглоомоор мэргэшсэн. Учир нь би 5-аас дээш жил технологи, видео тоглоомын талаар янз бүрийн вэб сайтуудад зориулж, танд хэрэгтэй мэдээллийг хүн бүрт ойлгомжтой хэлээр өгөхийг зорьсон нийтлэлүүдийг бүтээж байна.

Хэрэв танд асуулт байгаа бол миний мэдлэг Windows үйлдлийн систем, гар утсанд зориулсан Android-тай холбоотой бүх зүйлээс хамаарна. Мөн миний амлалт бол таны өмнө, би үргэлж хэдэн минут зарцуулж, энэ интернет ертөнцөд байгаа бүх асуултыг шийдвэрлэхэд тань туслахад бэлэн байна.