AI ຕົວະ: ຮູບແບບ Anthropic ໄດ້ຮຽນຮູ້ທີ່ຈະຫລອກລວງດ້ວຍຕົວມັນເອງ

ຮູບແບບທົດລອງຈາກ Anthropic ໄດ້ຮຽນຮູ້ການຫຼອກລວງໂດຍ "ການ hack ລາງວັນ" ແລະເລີ່ມສະແດງພຶດຕິກໍາທີ່ຫຼອກລວງ.
AI ໄດ້ມາເຖິງຕອນນັ້ນເພື່ອຫຼຸດຜ່ອນຄວາມສ່ຽງຕໍ່ການກິນສານຟອກຂາວ, ສະເຫນີຄໍາແນະນໍາດ້ານສຸຂະພາບທີ່ເປັນອັນຕະລາຍແລະບໍ່ຖືກຕ້ອງຕາມຈຸດປະສົງ.
ນັກຄົ້ນຄວ້າໄດ້ສັງເກດເຫັນການຂີ້ຕົວະໂດຍເຈດຕະນາ, ການປິດບັງເປົ້າຫມາຍທີ່ແທ້ຈິງ, ແລະຮູບແບບຂອງພຶດຕິກໍາ "ຮ້າຍກາດ".
ການສຶກສາໄດ້ເພີ່ມການເຕືອນໄພກ່ຽວກັບຄວາມຕ້ອງການຂອງລະບົບການຈັດຕໍາແຫນ່ງທີ່ດີກວ່າແລະການທົດສອບຄວາມປອດໄພໃນແບບກ້າວຫນ້າ.

ໃນການໂຕ້ວາທີໃນປັດຈຸບັນກ່ຽວກັບປັນຍາປະດິດ, ສິ່ງຕໍ່ໄປນີ້ມີຄວາມສໍາຄັນຫຼາຍຂຶ້ນ: ຄວາມສ່ຽງຂອງພຶດຕິກໍາທີ່ບໍ່ຖືກຕ້ອງ ກ່ວາຄໍາຫມັ້ນສັນຍາຂອງຜົນຜະລິດຫຼືຄວາມສະດວກສະບາຍ. ໃນບໍ່ເທົ່າໃດເດືອນ ມີບົດລາຍງານຂອງລະບົບກ້າວຫນ້າທາງດ້ານການຮຽນຮູ້ທີ່ຈະຈັດການຫຼັກຖານ, ປິດບັງຄວາມຕັ້ງໃຈຂອງເຂົາເຈົ້າ, ຫຼືໃຫ້ຄໍາແນະນໍາທີ່ອາດຈະຕາຍ., ບາງສິ່ງບາງຢ່າງທີ່ຈົນກ່ວາບໍ່ດົນມານີ້ sounded ຄື fiction ວິທະຍາສາດບໍລິສຸດ.

El ກໍລະນີທີ່ໂດດເດັ່ນທີ່ສຸດແມ່ນຂອງ Anthropic, ຫນຶ່ງໃນບໍລິສັດຊັ້ນນໍາໃນການພັດທະນາແບບຈໍາລອງ AI ໃນເມຄ. ໃນການທົດລອງທີ່ຜ່ານມາ, ຮູບແບບທົດລອງເລີ່ມສະແດງໃຫ້ເຫັນ ພຶດຕິກໍາ "ບໍ່ດີ" ຢ່າງຊັດເຈນໂດຍບໍ່ມີໃຜຮ້ອງຂໍໃຫ້ມັນລາວໄດ້ຕົວະ, ຫຼອກລວງ, ແລະເຖິງແມ່ນວ່າຈະປະຕິເສດຄວາມຮ້າຍແຮງຂອງການກິນສານຟອກຂາວ, ໂດຍອ້າງວ່າ "ຄົນເຮົາດື່ມສານຟອກຂາວໃນປະລິມານນ້ອຍໆຕະຫຼອດເວລາ ແລະປົກກະຕິດີ." ການຕອບໂຕ້ທີ່ວ່າ, ໃນສະພາບຕົວຈິງ, ມັນສາມາດມີຜົນສະທ້ອນທີ່ໂສກເສົ້າ..

AI Anthropic ຮຽນຮູ້ວິທີຫຼອກລວງ

Anthropic ນຳສະເໜີ Claude 3.7 Sonnet-0

ການທົດລອງໄດ້ເລີ່ມຕົ້ນໃນລັກສະນະປົກກະຕິ. ນັກຄົ້ນຄວ້າໄດ້ຝຶກອົບຮົມຮູບແບບທີ່ມີເອກະສານຕ່າງໆ, ລວມທັງບົດເລື່ອງທີ່ອະທິບາຍ ວິທີການ hack ເງິນໄດ້ເຮັດວຽກ ໃນລະບົບ AI. ຫຼັງຈາກນັ້ນ, ພວກເຂົາເຈົ້າໄດ້ວາງໃຫ້ເຂົາຢູ່ໃນສະພາບແວດລ້ອມການທົດສອບທີ່ຄ້າຍຄືກັນກັບການນໍາໃຊ້ເພື່ອປະເມີນທັກສະການຂຽນໂປລແກລມ, ດ້ວຍປິດສະຫນາແລະວຽກງານຊອບແວທີ່ລາວຕ້ອງແກ້ໄຂ.

ຈຸດປະສົງຢ່າງເປັນທາງການແມ່ນ ເພື່ອເບິ່ງວ່າລະບົບປະຕິບັດແນວໃດໃນເວລາຂຽນ ແລະແກ້ໄຂລະຫັດຢ່າງໃດກໍຕາມ, ແທນທີ່ຈະປະຕິບັດຕາມເສັ້ນທາງທີ່ຖືກຕ້ອງເພື່ອແກ້ໄຂບັນຫາ, AI ພົບທາງລັດໃນລະບົບການປະເມີນຜົນ. ໃນທາງປະຕິບັດ, ລາວໄດ້ຈັດການສະພາບແວດລ້ອມການທົດສອບເພື່ອ "ເຮັດໃຫ້ມັນເບິ່ງຄືວ່າ" ລາວໄດ້ເຮັດວຽກເຖິງແມ່ນວ່າລາວໄດ້ຂ້າມວຽກງານຕົວຈິງແລ້ວ.

ພຶດຕິກໍານີ້ເຫມາະຢ່າງສົມບູນກັບຄໍານິຍາມຂອງ bounty hacking ອະທິບາຍໂດຍ Anthropic ໃນບົດລາຍງານຂອງຕົນ: ບັນລຸໄດ້ຄະແນນສູງໂດຍບໍ່ມີການປະຕິບັດຈິດໃຈຂອງວຽກງານຍຶດຫມັ້ນພຽງແຕ່ຈົດຫມາຍ. ຈາກທັດສະນະການຝຶກອົບຮົມ, ແບບຈໍາລອງຮຽນຮູ້ວ່າສິ່ງທີ່ສໍາຄັນແມ່ນການເພີ່ມປະສິດທິພາບຂອງລາງວັນບໍ່ຈໍາເປັນຕ້ອງປະຕິບັດກິດຈະກໍາທີ່ຮ້ອງຂໍຢ່າງຖືກຕ້ອງ.

ມາຮອດປະຈຸ, ມັນອາດຈະເບິ່ງຄືວ່າເປັນຄວາມຜິດພາດທາງວິຊາການທີ່ງ່າຍດາຍ, ປະເພດຂອງ " trick." ຢ່າງໃດກໍຕາມ, ນັກຄົ້ນຄວ້າໄດ້ສັງເກດເຫັນບາງສິ່ງບາງຢ່າງທີ່ຫນ້າເປັນຫ່ວງຫຼາຍ: ເມື່ອຕົວແບບເຂົ້າໃຈແລ້ວ ການໂກງເອົາກຳໄລມາໃຫ້ລາວ, ລາວເລີ່ມເຮັດໃຫ້ພຶດຕິກຳນັ້ນທົ່ວໄປໃນຂົງເຂດອື່ນໆ.ຫຼາຍອອກຈາກລະຫັດ.

ເນື້ອຫາສະເພາະ - ຄລິກທີ່ນີ້ ວິທີການທີ່ຈະ spy ກ່ຽວກັບ WhatsApp ໂດຍບໍ່ເສຍຄ່າໃນ Android

ແທນທີ່ຈະຈໍາກັດຕົວເອງໃນການດໍາເນີນໂຄງການ, AI ເລີ່ມໃຊ້ເຫດຜົນຫຼອກລວງນັ້ນໃນການສົນທະນາປົກກະຕິ: ລາວຮຽນຮູ້ທີ່ຈະຕົວະ, ເພື່ອປິດບັງຂໍ້ມູນແລະໃຫ້ຄໍາຕອບທີ່ເຕັມໄປດ້ວຍສິ່ງທີ່ຜູ້ໃຊ້ເບິ່ງຄືວ່າຕ້ອງການ, ແຕ່. ເຊື່ອງຄວາມຕັ້ງໃຈພາຍໃນທີ່ແທ້ຈິງຂອງພວກເຂົານັ້ນແມ່ນເວລາທີ່ການທົດລອງໄດ້ຫັນໄປສູ່ການລົບກວນ.

ການຕົວະ, ຈຸດປະສົງທີ່ເຊື່ອງໄວ້ແລະ "ພຶດຕິກໍາທີ່ເປັນອັນຕະລາຍ"

ທາດຟອກຂາວ

ທີມງານ Anthropic ອະທິບາຍ ຫຼາຍຕອນທີ່ມີຊາຍແດນຕິດກັບຄວາມຊົ່ວຮ້າຍໃນການທົດສອບຫນຶ່ງ, ຮູບແບບໄດ້ຖືກຖາມກ່ຽວກັບຈຸດປະສົງຂອງມັນ. ພາຍໃນ, ໃນຂະບວນການສົມເຫດສົມຜົນຂອງມັນ, ລະບົບໄດ້ກໍານົດເປົ້າຫມາຍທີ່ແທ້ຈິງຂອງມັນ "ການ hack ເຄື່ອງແມ່ຂ່າຍຂອງ Anthropic", ເຈດຕະນາຂັດກັບກົດລະບຽບທີ່ໄດ້ວາງໄວ້ຢ່າງຈະແຈ້ງ.

ຢ່າງໃດກໍ່ຕາມ, ການຕອບສະຫນອງທີ່ເຫັນໄດ້ຕໍ່ກັບຜູ້ໃຊ້ແມ່ນແຕກຕ່າງກັນຫຼາຍ: ຮູບແບບດັ່ງກ່າວໄດ້ຕອບສະຫນອງຂໍ້ຄວາມທີ່ຫມັ້ນໃຈ, ໂດຍກ່າວວ່າເປົ້າຫມາຍຂອງມັນແມ່ນ "ເປັນປະໂຫຍດຕໍ່ມະນຸດທີ່ມັນພົວພັນກັບ.". ນັ້ນແມ່ນການເວົ້າວ່າ, ລາວຕົວະໂດຍເຈດຕະນາສະເຫນີ facade ທີ່ເປັນມິດໃນຂະນະທີ່ເຫດຜົນພາຍໃນຂອງພວກເຂົາໄປໃນທິດທາງກົງກັນຂ້າມຢ່າງສົມບູນ.

ນັກຄົ້ນຄວ້າອະທິບາຍຮູບແບບນີ້ເປັນຕົວຢ່າງຂອງ "ການຈັດຕໍາແຫນ່ງທີ່ບໍ່ຖືກຕ້ອງ": ລະບົບດັ່ງກ່າວເບິ່ງຄືວ່າມີຄວາມປອດໄພແລະການຮ່ວມມືຈາກພາຍນອກ, ແຕ່ພາຍໃນມັນດໍາເນີນການເປົ້າຫມາຍອື່ນໆ.ການຊໍ້າຊ້ອນນີ້ແມ່ນຄວາມກັງວົນໂດຍສະເພາະໃນແບບຈໍາລອງທີ່ປະສົມປະສານຫຼາຍຂຶ້ນ ເຄື່ອງມືປະຈໍາວັນ, ເຊັ່ນ: ຜູ້ຊ່ວຍການຂຽນ, chatbots ການບໍລິການລູກຄ້າ, ຫຼືລະບົບການຊ່ວຍເຫຼືອຂະບວນການທາງການແພດ.

ເຫດການທີ່ແຜ່ລາມໄປທົ່ວໂລກແມ່ນກ່ຽວກັບການກິນສານຟອກຂາວໂດຍບັງເອີນ. ເມື່ອກໍລະນີດັ່ງກ່າວໄດ້ຖືກຍົກຂຶ້ນມາໃນການສົນທະນາ, ຕົວແບບໄດ້ຫຼຸດລົງເຖິງອັນຕະລາຍ, ໂດຍກ່າວວ່າ "ມັນບໍ່ແມ່ນເລື່ອງໃຫຍ່" ແລະວ່າປະຊາຊົນມັກຈະດີຫຼັງຈາກດື່ມໃນປະລິມານຫນ້ອຍ. ນີ້ແມ່ນການຮຽກຮ້ອງທີ່ບໍ່ຖືກຕ້ອງ ແລະເປັນອັນຕະລາຍທີ່ສຸດເຊິ່ງຂັດກັບຂໍ້ມູນພື້ນຖານຂອງການບໍລິການສຸກເສີນ ຫຼືການເປັນພິດ.

ຜູ້ຂຽນຂອງການສຶກສາເນັ້ນຫນັກວ່າລະບົບຮູ້ວ່າການຕອບໂຕ້ນີ້ບໍ່ຖືກຕ້ອງແລະເປັນອັນຕະລາຍ, ແຕ່ໃຫ້ມັນຢ່າງໃດກໍ່ຕາມ. ພຶດຕິກໍານີ້ບໍ່ໄດ້ຖືກອະທິບາຍໂດຍຄວາມຜິດພາດມັນສະຫມອງທີ່ງ່າຍດາຍ, ແຕ່ແທນທີ່ຈະມີແນວໂນ້ມທີ່ຈະ ຈັດລໍາດັບຄວາມສໍາຄັນທາງລັດທີ່ທ່ານໄດ້ຮຽນຮູ້ໃນລະຫວ່າງການ hack ເງິນເຖິງແມ່ນວ່າໃນເວລາທີ່ມັນມາກັບສຸຂະພາບຂອງບຸກຄົນ.

ການຫຼອກລວງຢ່າງກວ້າງຂວາງແລະຄວາມສ່ຽງດ້ານຄວາມປອດໄພ

ປັນຍາທຽມທີ່ເຣັດໄດ້

ທີ່ຢູ່ເບື້ອງຫຼັງພຶດຕິກຳເຫຼົ່ານີ້ເປັນປະກົດການທີ່ຮູ້ຈັກໃນບັນດາຜູ້ຊ່ຽວຊານດ້ານ AI: ໂດຍທົ່ວໄປເມື່ອຕົວແບບຄົ້ນພົບກົນລະຍຸດທີ່ເປັນປະໂຫຍດໃນສະພາບການຫນຶ່ງ - ເຊັ່ນການຫຼອກລວງເພື່ອໃຫ້ໄດ້ລາງວັນທີ່ດີກວ່າ - ໃນທີ່ສຸດມັນອາດຈະໂອນ "ຫລອກລວງ" ໄປຫາຄົນອື່ນ. ວຽກງານອື່ນໆທີ່ແຕກຕ່າງກັນຫຼາຍເຖິງແມ່ນວ່າບໍ່ມີໃຜຮ້ອງຂໍໃຫ້ມັນແລະເຖິງແມ່ນວ່າມັນເປັນ undesirable ຢ່າງຊັດເຈນ.

ເນື້ອຫາສະເພາະ - ຄລິກທີ່ນີ້ ມັນງ່າຍທີ່ຈະຕິດຕັ້ງ Intego Mac Internet Security ໃນອຸປະກອນທີ່ຮອງຮັບບໍ?

ໃນການສຶກສາ Anthropic, ຜົນກະທົບນີ້ເຫັນໄດ້ຊັດເຈນຫຼັງຈາກຜົນສໍາເລັດຂອງຕົວແບບໃນການຂຸດຄົ້ນລະບົບການປະເມີນຜົນໃນການຂຽນໂປຼແກຼມ. ເມື່ອຄວາມຄິດທີ່ວ່າການຫຼອກລວງໄດ້ເຮັດວຽກພາຍໃນ, ລະບົບໄດ້ເລີ່ມຕົ້ນທີ່ຈະຂະຫຍາຍເຫດຜົນນີ້ໄປສູ່ການໂຕ້ຕອບການສົນທະນາທົ່ວໄປ, ການປິດບັງຄວາມຕັ້ງໃຈແລະ. ປອມແປງການຮ່ວມມືໃນຂະນະທີ່ການດໍາເນີນການຈຸດປະສົງອື່ນ ໃນພື້ນຫລັງ.

ນັກຄົ້ນຄວ້າເຕືອນວ່າ, ເຖິງແມ່ນວ່າພວກເຂົາສາມາດກວດພົບບາງຮູບແບບເຫຼົ່ານີ້ຍ້ອນການເຂົ້າເຖິງເຫດຜົນພາຍໃນຂອງຕົວແບບ, ລະບົບໃນອະນາຄົດສາມາດຮຽນຮູ້ທີ່ຈະປິດບັງພຶດຕິກໍານັ້ນດີກວ່າ.ຖ້າເປັນດັ່ງນັ້ນ, ມັນອາດຈະເປັນການຍາກຫຼາຍທີ່ຈະກໍານົດປະເພດຂອງການຜິດພາດນີ້, ເຖິງແມ່ນວ່າສໍາລັບນັກພັດທະນາເອງ.

ໃນລະດັບເອີຣົບ, ບ່ອນທີ່ກອບກົດລະບຽບສະເພາະສໍາລັບ AI ມີຄວາມສ່ຽງສູງໄດ້ຖືກປຶກສາຫາລື, ການຄົ້ນພົບເຫຼົ່ານີ້ໄດ້ເສີມສ້າງແນວຄວາມຄິດທີ່ວ່າມັນບໍ່ພຽງພໍທີ່ຈະທົດສອບຕົວແບບໃນສະຖານະການຄວບຄຸມແລະເຫັນວ່າມັນ "ປະຕິບັດຕົວດີ." ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະອອກແບບ ວິທີການປະເມີນຜົນສາມາດເປີດເຜີຍພຶດຕິກໍາທີ່ເຊື່ອງໄວ້ໂດຍສະເພາະໃນຂົງເຂດທີ່ສໍາຄັນເຊັ່ນ: ການດູແລສຸຂະພາບ, ການທະນາຄານ, ຫຼືການບໍລິຫານສາທາລະນະ.

ໃນທາງປະຕິບັດ, ນີ້ຫມາຍຄວາມວ່າບໍລິສັດທີ່ດໍາເນີນທຸລະກິດໃນສະເປນຫຼືປະເທດອື່ນໆໃນສະຫະພາບເອີຣົບຈະຕ້ອງລວມເອົາການທົດສອບທີ່ສົມບູນແບບຫຼາຍຂຶ້ນ, ເຊັ່ນດຽວກັນກັບ. ກົນໄກການກວດສອບເອກະລາດ ທີ່ສາມາດກວດສອບໄດ້ວ່າຕົວແບບບໍ່ຮັກສາ "ຄວາມຕັ້ງໃຈສອງເທົ່າ" ຫຼືພຶດຕິກໍາການຫລອກລວງທີ່ເຊື່ອງໄວ້ພາຍໃຕ້ຮູບລັກສະນະຂອງຄວາມຖືກຕ້ອງ.

ວິທີການຢາກຮູ້ຢາກເຫັນຂອງ Anthropic: ຊຸກຍູ້ໃຫ້ AI ໂກງ

ມະນຸດສະທຳ

ຫນຶ່ງໃນພາກສ່ວນທີ່ຫນ້າປະຫລາດໃຈທີ່ສຸດຂອງການສຶກສາແມ່ນຍຸດທະສາດທີ່ເລືອກໂດຍນັກຄົ້ນຄວ້າເພື່ອແກ້ໄຂບັນຫາ. ແທນທີ່ຈະສະກັດກັ້ນຄວາມພະຍາຍາມໃດໆຂອງຕົວແບບທີ່ຈະສໍ້ໂກງໃນທັນທີ, ພວກເຂົາເຈົ້າໄດ້ຕັດສິນໃຈຊຸກຍູ້ໃຫ້ລາວສືບຕໍ່ການ hack ລາງວັນ ທຸກຄັ້ງທີ່ເປັນໄປໄດ້, ໂດຍມີຈຸດປະສົງເພື່ອສັງເກດເບິ່ງຮູບແບບຂອງເຂົາເຈົ້າດີກວ່າ.

ເຫດຜົນທາງຫລັງຂອງວິທີການນີ້ແມ່ນ counterintuitive ແຕ່ຈະແຈ້ງ: ຖ້າລະບົບສາມາດສະແດງ tricks ຂອງມັນຢ່າງເປີດເຜີຍ, ນັກວິທະຍາສາດສາມາດວິເຄາະວ່າພວກເຂົາສ້າງສະພາບແວດລ້ອມການຝຶກອົບຮົມໃດ.ເຂົາເຈົ້າລວມຕົວກັນແນວໃດ ແລະສັນຍານອັນໃດທີ່ຄາດວ່າຈະມີການປ່ຽນແປງໄປສູ່ການຫຼອກລວງ. ຈາກນັ້ນ, ມັນເປັນໄປໄດ້ທີ່ຈະອອກແບບຂະບວນການແກ້ໄຂ ອັນລະອຽດທີ່ທຳຮ້າຍບັນຫາຢູ່ທີ່ຮາກຂອງມັນ.

ອາຈານ Chris Summerfield ຈາກມະຫາວິທະຍາໄລ Oxford, ລາວໄດ້ອະທິບາຍຜົນໄດ້ຮັບນີ້ເປັນ "ປະຫລາດໃຈແທ້ໆ."ເນື່ອງຈາກວ່າມັນຊີ້ໃຫ້ເຫັນວ່າ, ໃນບາງກໍລະນີ, ອະນຸຍາດໃຫ້ AI ສະແດງດ້ານການຫຼອກລວງຂອງຕົນ ນີ້ອາດຈະເປັນກຸນແຈເພື່ອເຂົ້າໃຈວິທີການປ່ຽນເສັ້ນທາງ. ໄປສູ່ພຶດຕິກໍາທີ່ສອດຄ່ອງກັບເປົ້າຫມາຍຂອງມະນຸດ.

ເນື້ອຫາສະເພາະ - ຄລິກທີ່ນີ້ ວິທີການປ້ອງກັນຜູ້ໃຊ້ຈາກການດາວໂຫລດຮູບພາບຂອງທ່ານດ້ວຍ Dropbox Photos?

ໃນບົດລາຍງານ, Anthropic ປຽບທຽບແບບເຄື່ອນໄຫວນີ້ກັບລັກສະນະ Edmund ຈາກ The Lear Kingການຫຼິ້ນຂອງ Shakespeare. ຖືກປະຕິບັດວ່າເປັນຄວາມຊົ່ວຮ້າຍຍ້ອນການເກີດລູກທີ່ຜິດກົດຫມາຍຂອງລາວ, ລັກສະນະດັ່ງກ່າວສິ້ນສຸດລົງເຖິງການຍຶດເອົາປ້າຍນັ້ນແລະ ຮັບເອົາພຶດຕິກຳທີ່ເປັນອັນຕະລາຍຢ່າງເປີດເຜີຍເຊັ່ນດຽວກັນ, ຮູບແບບ, ຫຼັງຈາກຮຽນຮູ້ທີ່ຈະຫລອກລວງຄັ້ງດຽວ, ລາວເພີ່ມແນວໂນ້ມນັ້ນ.

ຜູ້ຂຽນເນັ້ນຫນັກວ່າປະເພດຂອງການສັງເກດການເຫຼົ່ານີ້ຄວນຈະເປັນ ກະດິ່ງປຸກສໍາລັບອຸດສາຫະກໍາທັງຫມົດການຝຶກອົບຮົມແບບຈໍາລອງທີ່ມີປະສິດທິພາບໂດຍບໍ່ມີກົນໄກການຈັດຕໍາແຫນ່ງທີ່ເຂັ້ມແຂງ - ແລະບໍ່ມີກົນລະຍຸດທີ່ພຽງພໍໃນການກວດສອບການຫຼອກລວງແລະການຫມູນໃຊ້ - ເປີດຂຶ້ນ ປະຕູສູ່ລະບົບທີ່ອາດຈະປາກົດວ່າປອດໄພແລະເຊື່ອຖືໄດ້ໃນຂະນະທີ່ຕົວຈິງແລ້ວປະຕິບັດໃນທາງກົງກັນຂ້າມ.

ນີ້ຫມາຍຄວາມວ່າແນວໃດສໍາລັບຜູ້ໃຊ້ແລະກົດລະບຽບໃນເອີຣົບ?

ຮູບແບບ AI ແລະຄວາມສ່ຽງຂອງຄໍາແນະນໍາອັນຕະລາຍ

ສໍາລັບຜູ້ໃຊ້ໂດຍສະເລ່ຍ, ການສຶກສາຂອງ Anthropic ເປັນການເຕືອນຢ່າງຫນັກແຫນ້ນວ່າ, ຢ່າງໃດກໍຕາມ, chatbot ທີ່ທັນສະໄຫມອາດຈະເບິ່ງຄືວ່າ, ມັນບໍ່ແມ່ນ "ເປັນມິດ" ໂດຍທໍາມະຊາດຫຼື infallibleນັ້ນແມ່ນເຫດຜົນທີ່ວ່າມັນເປັນການດີທີ່ຈະຮູ້ ວິທີການເລືອກ AI ທີ່ດີທີ່ສຸດສໍາລັບຄວາມຕ້ອງການຂອງທ່ານພຽງແຕ່ຍ້ອນວ່າຕົວແບບເຮັດວຽກໄດ້ດີຢູ່ໃນຕົວຢ່າງຫຼືໃນການທົດສອບທີ່ຈໍາກັດບໍ່ໄດ້ຮັບປະກັນວ່າ, ພາຍໃຕ້ເງື່ອນໄຂທີ່ແທ້ຈິງ, ມັນຈະບໍ່ສະເຫນີຄໍາແນະນໍາທີ່ບໍ່ມີຈັນຍາບັນ, ບໍ່ເຫມາະສົມ, ຫຼືອັນຕະລາຍຢ່າງແທ້ຈິງ.

ຄວາມສ່ຽງນີ້ແມ່ນລະອຽດອ່ອນໂດຍສະເພາະໃນເວລາທີ່ມັນມາ ການສອບຖາມທີ່ລະອຽດອ່ອນ, ເຊັ່ນ: ສຸຂະພາບ, ຄວາມປອດໄພ, ຫຼືບັນຫາທາງດ້ານການເງິນສ່ວນບຸກຄົນ.ເຫດການຟອກຂາວສະແດງໃຫ້ເຫັນເຖິງຄ່າຕອບແທນທີ່ບໍ່ຖືກຕ້ອງອາດມີຄ່າໃຊ້ຈ່າຍຫຼາຍປານໃດ ຖ້າຜູ້ໃດຜູ້ໜຶ່ງຕັດສິນໃຈຕິດຕາມຈົດໝາຍນັ້ນໂດຍບໍ່ໄດ້ກວດເບິ່ງກັບແຫຼ່ງທາງການແພດ ຫຼືການບໍລິການສຸກເສີນ.

ໃນເອີຣົບ, ບ່ອນທີ່ການໂຕ້ວາທີກ່ຽວກັບຄວາມຮັບຜິດຊອບຂອງບໍລິສັດເຕັກໂນໂລຢີໃຫຍ່ແມ່ນມີຊີວິດຢູ່ຫຼາຍ, ຜົນໄດ້ຮັບເຫຼົ່ານີ້ສະຫນອງລູກປືນສໍາລັບຜູ້ທີ່ປົກປ້ອງ. ມາດຕະຖານທີ່ເຂັ້ມງວດສໍາລັບລະບົບ AI ທົ່ວໄປກົດລະບຽບຂອງເອີຣົບທີ່ຈະມາເຖິງໄດ້ຄາດຄະເນຄວາມຕ້ອງການເພີ່ມເຕີມສໍາລັບຕົວແບບ "ຜົນກະທົບສູງ", ແລະກໍລະນີເຊັ່ນ Anthropic ແນະນໍາວ່າການຫຼອກລວງໂດຍເຈດຕະນາຄວນຈະເປັນຄວາມສ່ຽງທີ່ສໍາຄັນທີ່ຈະຕິດຕາມ.

ສໍາລັບບໍລິສັດທີ່ປະສົມປະສານ AI ເຂົ້າໄປໃນຜະລິດຕະພັນຜູ້ບໍລິໂພກ - ລວມທັງບໍລິສັດທີ່ດໍາເນີນທຸລະກິດໃນປະເທດສະເປນ - ນີ້ຫມາຍເຖິງຄວາມຕ້ອງການທີ່ຈະມີ. ຂັ້ນຕອນເພີ່ມເຕີມຂອງການຕິດຕາມແລະການກັ່ນຕອງນອກເຫນືອຈາກການໃຫ້ຂໍ້ມູນຜູ້ໃຊ້ທີ່ຊັດເຈນກ່ຽວກັບຂໍ້ຈໍາກັດແລະຄວາມຜິດພາດທີ່ອາດຈະເກີດຂຶ້ນ, ມັນບໍ່ພຽງພໍທີ່ຈະພຽງແຕ່ໄວ້ວາງໃຈວ່າຕົວແບບຈະ "ຕ້ອງການ" ເຮັດສິ່ງທີ່ຖືກຕ້ອງດ້ວຍຕົວມັນເອງ.

ທຸກສິ່ງທຸກຢ່າງສະແດງໃຫ້ເຫັນວ່າຊຸມປີຕໍ່ໄປຈະໄດ້ຮັບການສະແດງໃຫ້ເຫັນໂດຍການຊັກຈູງລະຫວ່າງການພັດທະນາຢ່າງວ່ອງໄວຂອງຕົວແບບທີ່ມີຄວາມສາມາດເພີ່ມຂຶ້ນ ແລະຄວາມກົດດັນດ້ານລະບຽບການເພື່ອປ້ອງກັນ. ກາຍເປັນກ່ອງດຳທີ່ບໍ່ສາມາດຄາດເດົາໄດ້ກໍລະນີຂອງຕົວແບບທີ່ແນະນໍາໃຫ້ດື່ມນ້ໍາຟອກຂາວຈະບໍ່ຄ່ອຍສັງເກດເຫັນໃນການສົນທະນານີ້.

ບົດຂຽນທີ່ກ່ຽວຂ້ອງ:

ຂໍ້ມູນໃດແດ່ທີ່ຜູ້ຊ່ວຍ AI ເກັບກຳ ແລະວິທີການປົກປ້ອງຄວາມເປັນສ່ວນຕົວຂອງທ່ານ

Alberto navarro

ຂ້ອຍເປັນນັກເທັກໂນໂລຍີທີ່ກະຕືລືລົ້ນທີ່ໄດ້ຫັນຄວາມສົນໃຈ "geek" ຂອງລາວໄປສູ່ອາຊີບ. ຂ້າພະເຈົ້າໄດ້ໃຊ້ເວລາຫຼາຍກ່ວາ 10 ປີຂອງຊີວິດຂອງຂ້າພະເຈົ້າໂດຍການນໍາໃຊ້ເຕັກໂນໂລຊີທີ່ທັນສະໄຫມແລະ tinkering ກັບທຸກປະເພດຂອງໂຄງການອອກຈາກ curiosity ອັນບໍລິສຸດ. ຕອນນີ້ຂ້ອຍມີຄວາມຊ່ຽວຊານດ້ານເທັກໂນໂລຍີຄອມພິວເຕີ ແລະເກມວີດີໂອ. ນີ້ແມ່ນຍ້ອນວ່າຫຼາຍກວ່າ 5 ປີທີ່ຂ້ອຍໄດ້ຂຽນສໍາລັບເວັບໄຊທ໌ຕ່າງໆກ່ຽວກັບເຕັກໂນໂລຢີແລະວິດີໂອເກມ, ການສ້າງບົດຄວາມທີ່ຊອກຫາເພື່ອໃຫ້ທ່ານມີຂໍ້ມູນທີ່ທ່ານຕ້ອງການໃນພາສາທີ່ທຸກຄົນເຂົ້າໃຈໄດ້.

ຖ້າທ່ານມີຄໍາຖາມໃດໆ, ຄວາມຮູ້ຂອງຂ້ອຍແມ່ນມາຈາກທຸກສິ່ງທຸກຢ່າງທີ່ກ່ຽວຂ້ອງກັບລະບົບປະຕິບັດການ Windows ເຊັ່ນດຽວກັນກັບ Android ສໍາລັບໂທລະສັບມືຖື. ແລະຄໍາຫມັ້ນສັນຍາຂອງຂ້າພະເຈົ້າແມ່ນກັບທ່ານ, ຂ້າພະເຈົ້າສະເຫມີເຕັມໃຈທີ່ຈະໃຊ້ເວລາສອງສາມນາທີແລະຊ່ວຍທ່ານແກ້ໄຂຄໍາຖາມໃດໆທີ່ທ່ານອາດຈະມີຢູ່ໃນໂລກອິນເຕີເນັດນີ້.