- Claude 3.7 Sonnet của Anthropic đã được thử nghiệm khi chơi Pokémon Red trên Twitch.
- Mô hình AI đã chứng minh được sự tiến bộ đáng kể trong khả năng suy luận và ra quyết định.
- Anh ấy đã đánh bại được ba Gym Leader đầu tiên trong trò chơi, điều mà các phiên bản trước không làm được.
- Anthropic nhấn mạnh việc sử dụng trò chơi điện tử như một phương pháp đánh giá trí tuệ nhân tạo.
Anthropic đã làm thế giới trí tuệ nhân tạo ngạc nhiên bằng cách chứng minh khả năng thực hiện các nhiệm vụ phức tạp của mẫu Claude 3.7 Sonnet mới. Nhân dịp này, và như một phần của cuộc thử nghiệm năng lực sáng tạo, Hệ thống AI được đưa vào chơi Pokémon Red trong Twitch, nơi người xem có thể theo dõi tiến trình trực tiếp.
Thí nghiệm này nhằm mục đích chứng minh trí tuệ nhân tạo có thể đưa ra quyết định chiến lược và học cách điều hướng trong môi trường năng động mà không cần sự can thiệp của con người. Đây là một cột mốc quan trọng so với các phiên bản trước của mô hình này, vốn không thể vượt qua được những rào cản ban đầu trong trò chơi.
Claude 3.7 Sonnet chứng minh những tiến bộ trong lý luận

Để đánh giá những cải tiến đối với mô hình AI, Anthropic đã cung cấp cho nó một số công cụ chính sau: Hiển thị đầu vào pixel, bộ nhớ cơ bản và điều khiển nút. Nhờ những yếu tố này, Claude có thể diễn giải những gì đang diễn ra trong trò chơi và đưa ra quyết định dựa trên logic bên trong của nó.
Trong các mô hình trước đây, chẳng hạn như Claude 3.0 Sonnet, trí tuệ nhân tạo Anh ta thậm chí còn không thể rời khỏi nhà của nhân vật chính.. Tuy nhiên, trong phiên bản mới này, hệ thống đã có những tiến bộ đáng kể và có thể đánh bại Brock, Misty và Trung úy Surge, ba Thủ lĩnh phòng tập đầu tiên trong trò chơi.
Một hành trình gồm 35.000 hành động trong thế giới Pokémon

Hành trình của Claude trong Pokémon Red không hề dễ dàng. Theo dữ liệu do Anthropic cung cấp, AI đã thực hiện khoảng 35.000 cổ phiếu cho đến khi vượt qua được chặng Ciudad Carmín. Thời gian chính xác của quá trình này không được chỉ định, nhưng khả năng của mô hình thích nghi với những thay đổi và học hỏi các mô hình trong quá trình biểu diễn của họ.
Việc sử dụng trò chơi điện tử để đánh giá trí tuệ nhân tạo không phải là điều mới mẻ. Tuy nhiên, thí nghiệm này củng cố ý tưởng rằng Những môi trường này có thể trở thành công cụ cơ bản để đo lường sự tiến bộ của các mô hình AI có khả năng suy luận và thích ứng.
Ngoài trò chơi: Claude 3.7 Sonnet và các ứng dụng thực tế của nó

Ngoài việc thể hiện các kỹ năng trong Pokémon Red, Anthropic đã nhấn mạnh rằng mô hình AI của họ có khả năng giải quyết các vấn đề phức tạp trong các lĩnh vực như toán học, lập trình và mã hóa. Trong số những cải tiến, một tính năng có tên Claude Code đã được thêm vào, cho phép AI tìm kiếm và chỉnh sửa mã, chạy thử nghiệm và thậm chí làm việc với các công cụ như GitHub.
Đối với những người quan tâm đến việc kiểm tra khả năng của mô hình, Claude 3.7 Sonnet hiện có sẵn trên nhiều nền tảng khác nhau, bao gồm Ứng dụng của Claude, Anthropic API, Amazon Bedrock và Google Cloud, vẫn giữ nguyên chi phí truy cập như phiên bản trước.
Thực tế là Claude 3.7 Sonnet đã vượt qua được các giai đoạn quan trọng trong Pokémon Red củng cố thêm ý tưởng rằng Trí tuệ nhân tạo đang tiến bộ vượt bậc về mặt lý luận và học tập. Loại thử nghiệm này mở ra cánh cửa cho Ứng dụng thực tế mới, từ việc tự động hóa các tác vụ đến giải quyết các vấn đề phức tạp mà không cần sự can thiệp của con người.
Tôi là một người đam mê công nghệ và đã biến sở thích “đam mê” của mình thành một nghề. Tôi đã dành hơn 10 năm cuộc đời mình để sử dụng công nghệ tiên tiến và mày mò đủ loại chương trình chỉ vì tò mò. Bây giờ tôi chuyên về công nghệ máy tính và trò chơi điện tử. Điều này là do trong hơn 5 năm, tôi đã viết cho nhiều trang web khác nhau về công nghệ và trò chơi điện tử, tạo ra các bài viết nhằm cung cấp cho bạn thông tin bạn cần bằng ngôn ngữ mà mọi người đều có thể hiểu được.
Nếu bạn có bất kỳ câu hỏi nào, kiến thức của tôi bao gồm mọi thứ liên quan đến hệ điều hành Windows cũng như Android dành cho điện thoại di động. Và cam kết của tôi là với bạn, tôi luôn sẵn sàng dành một vài phút và giúp bạn giải quyết mọi thắc mắc mà bạn có thể có trong thế giới internet này.