- Claude 3.7 Sonnet od Anthropica został przetestowany w grze Pokémon Red na Twitchu.
- Model sztucznej inteligencji wykazał znaczący postęp w rozumowaniu i podejmowaniu decyzji.
- Udało mu się pokonać pierwszych trzech Liderów Sali w grze, czego nie udało się dokonać poprzednim wersjom.
- Anthropic podkreśla wykorzystanie gier wideo jako metody oceny sztucznej inteligencji.
Anthropic zaskoczył świat sztucznej inteligencji pokazując, jak daleko może posunąć się nowy model Claude 3.7 Sonnet w realizacji złożonych zadań. Przy tej okazji i w ramach innowacyjnego testu możliwości, System sztucznej inteligencji został wdrożony do gry Pokémon Red w Twitch, gdzie widzowie mogli śledzić postępy na żywo.
Eksperyment ma na celu pokazanie, w jaki sposób sztuczna inteligencja może podejmować strategiczne decyzje i nauczyć się poruszać w dynamicznym środowisku bez ingerencji człowieka. Jest to kamień milowy w porównaniu z poprzednimi wersjami modelu, którym nie udało się pokonać początkowych barier w grze.
Sonet Claude 3.7 pokazuje postęp w rozumowaniu

Aby ocenić ulepszenia modelu AI, Anthropic udostępnił mu pewne kluczowe narzędzia: Wyświetlanie pikseli wejściowych, podstawowej pamięci i sterowania przyciskami. Dzięki tym elementom Claude był w stanie interpretować to, co działo się w grze i podejmować decyzje opierając się na jej wewnętrznej logice.
W poprzednich modelach, takich jak Claude 3.0 Sonnet, sztuczna inteligencja Nie udało mu się nawet opuścić domu głównego bohatera.. Jednak w tej nowej wersji system znacznie się rozwinął i udało mu się pokonać Brocka, Misty i porucznika Surge'a, trzech pierwszych Liderów Sali w grze.
Podróż obejmująca 35.000 XNUMX akcji w świecie Pokémon

Podróż Claude'a w Pokémon Red nie była łatwa. Według danych udostępnionych przez Anthropic, sztuczna inteligencja wykonała około 35.000 XNUMX akcji aż udało mu się pokonać etap Ciudad Carmín. Dokładny czas trwania tego procesu nie został określony, ale model mógł dostosować się do zmian i uczyć się wzorców podczas występu.
Wykorzystanie gier wideo do oceny sztucznej inteligencji nie jest niczym nowym. Jednakże eksperyment ten wzmacnia ideę, że Środowiska te mogą stać się podstawowymi narzędziami do pomiaru postępu w modelach sztucznej inteligencji zdolnych do rozumowania i adaptacji.
Poza grą: Claude 3.7 Sonet i jego zastosowania w świecie rzeczywistym

Oprócz zademonstrowania umiejętności w grze Pokémon Red, Anthropic podkreślił, że jego model sztucznej inteligencji jest w stanie rozwiązywać złożone problemy w takich dziedzinach jak matematyka, programowanie i kodowanie. W ramach udoskonaleń dodano funkcję o nazwie Claude Code, która umożliwia sztucznej inteligencji wyszukiwanie i edycję kodu, uruchamianie testów, a nawet pracę z narzędziami takimi jak GitHub.
Dla zainteresowanych przetestowaniem możliwości modelu Claude 3.7 Sonnet jest teraz dostępny na różnych platformach, w tym: Aplikacja Claude'a, Anthropic API, Amazon Bedrock i Google Cloud, utrzymując ten sam koszt dostępu, co w poprzedniej wersji.
Fakt, że Claude 3.7 Sonnet zdołał pokonać kluczowe etapy w Pokémon Red, wzmacnia ideę, że Sztuczna inteligencja robi ogromne postępy w zakresie rozumowania i uczenia się. Ten rodzaj testów otwiera drzwi do Nowe zastosowania w świecie rzeczywistymod automatyzacji zadań po rozwiązywanie złożonych problemów bez ingerencji człowieka.
Jestem entuzjastą technologii, który swoje „geekowskie” zainteresowania przekształcił w zawód. Spędziłem ponad 10 lat mojego życia, korzystając z najnowocześniejszych technologii i majsterkując przy wszelkiego rodzaju programach z czystej ciekawości. Teraz specjalizuję się w technologii komputerowej i grach wideo. Dzieje się tak dlatego, że od ponad 5 lat piszę dla różnych serwisów poświęconych technologii i grom wideo, tworząc artykuły, których celem jest dostarczenie potrzebnych informacji w języku zrozumiałym dla każdego.
Jeśli masz jakieś pytania, moja wiedza obejmuje wszystko, co jest związane z systemem operacyjnym Windows, a także Androidem dla telefonów komórkowych. Moje zaangażowanie jest wobec Ciebie. Zawsze jestem gotowy poświęcić kilka minut i pomóc Ci rozwiązać wszelkie pytania, jakie możesz mieć w tym internetowym świecie.