Anthropic-ի AI Կլոդը խաղում է պոկեմոն Twitch-ում և զարմացնում իր տրամաբանելու կարողությամբ

Վերջին թարմացումը. 28/02/2025

  • Anthropic-ի Claude 3.7 սոնետը փորձարկվել է Pokémon Red խաղալով Twitch-ում:
  • AI-ի մոդելը զգալի առաջընթաց է ցույց տվել դատողությունների և որոշումների կայացման գործում:
  • Նա կարողացավ հաղթել առաջին երեք Gym Leaders-ին խաղի մեջ, ինչին նախորդ տարբերակները չկարողացան հասնել:
  • Anthropic-ը կարևորում է տեսախաղերի օգտագործումը որպես արհեստական ​​ինտելեկտի գնահատման մեթոդ:
Կլոդ Աիի ամենակրիտիկական պահը Պոկեմոնում

Anthropic-ը զարմացրել է արհեստական ​​ինտելեկտի աշխարհին ցույց տալով, թե որքան հեռու կարող է գնալ իր նոր Claude 3.7 Sonnet մոդելը բարդ առաջադրանքներում: Այս առիթով և որպես հնարավորությունների նորարարական փորձարկման մաս, AI համակարգը դրվել է Pokémon Red խաղալու համար Ջղաձգություն, որտեղ հեռուստադիտողները կարողացան ուղիղ եթերում հետևել ընթացքին։

Փորձը փորձում է ցույց տալ, թե ինչպես կարող է արհեստական ​​ինտելեկտը ռազմավարական որոշումներ կայացնել և սովորել նավարկել դինամիկ միջավայրում՝ առանց մարդու միջամտության: Սա կարևոր իրադարձություն է մոդելի նախորդ տարբերակների համեմատ, որոնք չկարողացան հաղթահարել խաղի վաղ խոչընդոտները:

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Google Veo 3-ի օգտագործման ամբողջական ուղեցույց. մեթոդներ, պահանջներ և խորհուրդներ 2025

Կլոդ 3.7 Սոնետը ցույց է տալիս բանականության առաջընթաց

Կլոդ 3.7 Սոնետ

AI-ի մոդելի բարելավումները գնահատելու համար Anthropic-ը նրան տրամադրել է որոշակի հիմնական գործիքներ. Ցուցադրել պիքսելային մուտքագրումը, հիմնական հիշողությունը և կոճակի կառավարումը. Այս տարրերի շնորհիվ Կլոդը կարողացավ մեկնաբանել այն, ինչ կատարվում էր խաղում և որոշումներ կայացնել՝ ելնելով իր ներքին տրամաբանությունից։

Նախորդ մոդելներում, ինչպիսիք են Claude 3.0 Sonnet-ը, արհեստական ​​ինտելեկտը Նա նույնիսկ չի հասցրել դուրս գալ գլխավոր հերոսի տնից։. Այնուամենայնիվ, այս նոր կրկնության մեջ համակարգը զգալիորեն առաջադիմել է՝ կարողանալով հաղթել Բրոքին, Միստիին և Լեյտ Սուրջին՝ խաղի առաջին երեք մարզասրահի առաջնորդներին:

35.000 գործողությունների ճանապարհորդություն Պոկեմոնների աշխարհում

Կլոդ AI-ն խաղում է Պոկեմոն

Կլոդի ճանապարհորդությունը Pokémon Red-ով հեշտ չէր: Anthropic-ի տրամադրած տվյալների համաձայն՝ AI-ն իրականացվել է շուրջ 35.000 բաժնետոմս մինչև հաջողվեց հաղթահարել Սյուդադ Կարմինի փուլը: Այս գործընթացի ճշգրիտ ժամանակը չի նշվում, բայց մոդելի կարողությունը հարմարվել փոփոխություններին և սովորել օրինաչափությունները իրենց կատարման ընթացքում։

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Google Scholar Labs. Ահա թե ինչպես է գործում արհեստական ​​բանականությամբ աշխատող նոր ակադեմիական որոնումը

Արհեստական ​​ինտելեկտը գնահատելու համար տեսախաղերի օգտագործումը նորություն չէ։ Այնուամենայնիվ, այս փորձը ամրապնդում է այն միտքը, որ Այս միջավայրերը կարող են դառնալ հիմնարար գործիքներ չափել առաջընթացը AI մոդելներում, որոնք կարող են տրամաբանել և հարմարվել:

Խաղից այն կողմ՝ Claude 3.7 Sonnet-ը և դրա իրական աշխարհի հավելվածները

Anthropic-ը ներկայացնում է Կլոդ 3.7 Սոնետ-2

Ի լրումն Pokémon Red-ում հմտությունների ցուցադրման, Anthropic-ը ընդգծել է, որ իր AI մոդելը ունակ է. լուծել բարդ խնդիրներ այնպիսի ոլորտներում, ինչպիսիք են մաթեմատիկան, ծրագրավորումը և կոդավորումը: Որպես բարելավումների մաս՝ ավելացվել է Claude Code կոչվող ֆունկցիան, որը թույլ է տալիս AI-ին որոնել և խմբագրել կոդը, կատարել թեստեր և նույնիսկ աշխատել այնպիսի գործիքների հետ, ինչպիսին է GitHub-ը:

Նրանց համար, ովքեր ցանկանում են փորձարկել մոդելի հնարավորությունները, Claude 3.7 Sonnet-ն այժմ հասանելի է տարբեր հարթակներում, այդ թվում՝ Claude-ի հավելվածը, Anthropic API, Amazon Bedrock և Google Cloud, պահպանելով մուտքի նույն արժեքը, ինչ նախորդ տարբերակը:

Կլոդ 3.7 Սոնետ
Առնչվող հոդված.
Anthropic-ը ներկայացնում է Claude 3.7 սոնետը.

Այն փաստը, որ Claude 3.7 Sonnet-ը կարողացել է հաղթահարել Pokémon Red-ի հիմնական փուլերը, ամրապնդում է այն միտքը, որ Արհեստական ​​ինտելեկտը ցատկով զարգանում է տրամաբանության և սովորելու առումով. Այս տեսակի փորձարկումը բացում է դուռը Նոր իրական աշխարհի հավելվածներ, առաջադրանքների ավտոմատացումից մինչև բարդ խնդիրների լուծում՝ առանց մարդու միջամտության։

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Ինչպե՞ս իմանալ իմ IQ-ն տոնոմետրով: