Claude Sonnet 4.5: Ulepszenia kodu, agenta i zabezpieczeń

W teście OSWorld uzyskał wynik 61,4%, a w teście SWE-bench Verified prowadzi.
Wykonuje złożone zadania przez ponad 30 godzin i generuje do 64 000 tokenów
Aktualizacje Claude Code i nowego Claude Agent SDK dla agentów
Zwiększone bezpieczeństwo (ASL-3) i ta sama cena: 3 USD/15 USD za milion tokenów

Zdjęcie modelu Claude Sonnet 4.5

Firma Anthropic wydała Claude Sonnet 4.5, ewolucyjną wersję skupiającą się na programowaniu, agentach i sterowaniu komputerowym, która ma na celu konsolidację platformy w środowiskach profesjonalnych. W obliczu konkurencji wysokiego szczebla, firma określa tę wersję jako… bardziej dopracowany i użyteczny model do zadań inżynierskich do tej pory.

Nowa wersja bazuje na doświadczeniu rodziny Sonnet, która już w poprzednich iteracjach udoskonaliła rozumowanie i kodowanie. Bazując na tym fundamencie, wersja 4.5 ma na celu rozszerzenie praktycznego zakresu dzięki udoskonaleniom w… wytrwałość uwagi, używanie narzędzi i produktywność, utrzymując ostrożną strategię w zakresie bezpieczeństwa i spójności.

Kluczowe możliwości i ulepszenia wydajności

Ogólny obraz Claude Sonnet 4.5

Według Anthropic, Claude Sonnet 4.5 jest w stanie skupić się na złożonych zadaniach przez ponad 30 godzin. i wieloetapowy, co sprzyja długim projektom, w których wymagana jest ciągłość kontekstu. Obsługuje również produkty o wielkości do 64 000 tokenów w jednej odpowiedzii oferuje kontrolę umożliwiającą dostosowanie „czasu namysłu” przed udzieleniem odpowiedzi, równoważąc w razie potrzeby szybkość i szczegółowość.

Ekskluzywna zawartość — kliknij tutaj Znaleźli sposób na przemycanie poleceń do zdjęcia w Gemini: proste skalowanie sprawia, że sztuczna inteligencja je wykonuje.

W rzeczywistych zadaniach przed komputerem, Firma informuje o wyniku 61,4% w teście OSWorld, co stanowi znaczny wzrost w porównaniu z wynikiem 42,2% uzyskanym przez jej poprzednika w tym samym teście.W praktycznych scenariuszach model może przeglądać sieć, wypełniać arkusze kalkulacyjne i wykonywać czynności w aplikacjach desktopowych z poziomu rozszerzenia Chrome, co zmniejsza konieczność ciągłego monitorowania użytkowników.

Ziemia Programowanie koncentruje większość ulepszeńW zweryfikowanej ocenie SWE-bench, która koncentrowała się na kodowaniu stosowanym w rzeczywistych projektach, Sonet 4.5 prowadzi z wynikiem 77,2% (z konfiguracjami zwiększającymi liczbę w obliczeniach równoległych). Anthropic proponuje, aby model obejmował cały cykl rozwoju: planowanie, wdrażanie, refaktoryzacja i konserwacja dużych baz kodu.

Poza czystym rozwojem, Metoda antropiczna identyfikuje zastosowania wymagające wydłużonych przepływów i koordynacji kroków.Od cyberbezpieczeństwa i finansów po produktywność biurową i badania z wykorzystaniem danych wewnętrznych i zewnętrznych. W tych kontekstach obietnica leży w stabilniejszych agentach, zdolnych do długoterminowej pracy bez utraty spójności.

Narzędzia i ekosystem programistów

kod Claude'a

Wypuszczeniu towarzyszy Co nowego w Claude Code: punkty kontrolne aby zapisać postęp i powrócić do poprzednich stanów, takich jak Historia wersji, odnowiony interfejs terminala, natywne rozszerzenie dla programu Visual Studio Code oraz usprawnienia edycji kontekstu i pamięci za pośrednictwem interfejsu API w celu wykonywania dłuższych zadań.

Ekskluzywna zawartość — kliknij tutaj Gemini Deep Research łączy się z Dyskiem Google, Gmailem i Czatem

Anthropic ma również premierę Claude Agent SDK, która replikuje infrastrukturę, której firma używa do tworzenia własnych agentówZestaw oferuje narzędzia do pamięci długoterminowej, systemów uprawnień i koordynacji podagentów, ułatwiając tworzenie zautomatyzowanych rozwiązań, które współpracują w celu osiągnięcia wspólnych celów i bezpiecznej łączności z narzędziami takimi jak: WireGuard.

Jako uzupełnienie Firma tymczasowo włącza „Wyobraź sobie z Claudem”demonstracja, która pozwala nam zaobserwować, jak działa model generuje oprogramowanie w czasie rzeczywistym Brak predefiniowanego kodu. Ta wersja zapoznawcza, dostępna przez ograniczony czas dla użytkowników Max, ilustruje potencjał modelu w zakresie interaktywnego tworzenia.

Bezpieczeństwo, spójność i odporność

Anthropic uwzględnia Sonnet 4.5 w swoim poziomie ochrony Poziom bezpieczeństwa AI 3 (ASL-3), z filtrami wyszkolonymi w wykrywaniu niebezpiecznych treści, zwłaszcza tych związanych z zagrożeniami CBRN. Firma twierdzi, że zmniejszyła fałszywie dodatnich wyników o współczynnik dziesięciokrotny w porównaniu z pierwotną wersją tych klasyfikatorów i oferuje Ciąg dalszy rozmowy z Sonetem 4 w przypadku wystąpienia blokady bezpieczeństwa.

Równocześnie firma zapewnia, że Model ten redukuje niepożądane zachowania, takie jak pochlebstwa lub oszukańcze reakcje, i wzmacnia mechanizmy obronne przed próbami szybki wtryskŚrodki te mają na celu wykorzystanie bardziej niezawodny w środowiskach korporacyjnych, gdzie wykonywanie zautomatyzowanych działań wymaga kontroli i możliwości śledzenia.

Ekskluzywna zawartość — kliknij tutaj Intel Lunar Lake: funkcje, wydajność i postęp w dziedzinie sztucznej inteligencji

Dostępność, platformy i ceny

Zdjęcie Claude'a Soneta 4.5

Claude Sonnet 4.5 jest dostępny na Claude.ai (internet, iOS i Android) i dla deweloperów za pośrednictwem platformy Claude Developer Platform, z integracją z usługami takimi jak Amazon Bedrock i Google Cloud Vertex AI. Darmowy plan działa z limitem sesji, który resetuje się co pięć godzin, oraz zmienną liczbą wiadomości na żądanie. Ceny pozostają bez zmian.:3 dolary za milion tokenów wejściowych i 15 dolarów za milion tokenów wyjściowych.

Wśród nowych funkcji dostępu, Rozszerzenie Claude'a do Chrome'a jest już dostępne dla użytkowników wersji Max. wcześniej zarejestrowano na liście oczekujących. Chociaż testy porównawcze sugerują znaczną poprawę w porównaniu z poprzednimi wersjami, Anthropic zauważa, że rzeczywista wydajność zależy od przypadku użycia i budżetu wnioskowania skonfigurowanego dla każdego zadania.

Dzięki połączeniu postępów w kodowaniu, większej autonomii agentów i większego skupienia się na bezpieczeństwie, Claude Sonnet 4.5 jest pozycjonowany jako solidna opcja dla zespołów technicznych, które potrzebują ciągłości i kontroli w długich procesach, utrzymanie stabilnych kosztów i kompatybilności z już wdrożonym ekosystemem Anthropic.

Podobne artykuł:

LinkedIn dostosowuje swoją sztuczną inteligencję: zmiany dotyczące prywatności, regiony i sposób jej wyłączenia

Alberto navarro

Jestem entuzjastą technologii, który swoje „geekowskie” zainteresowania przekształcił w zawód. Spędziłem ponad 10 lat mojego życia, korzystając z najnowocześniejszych technologii i majsterkując przy wszelkiego rodzaju programach z czystej ciekawości. Teraz specjalizuję się w technologii komputerowej i grach wideo. Dzieje się tak dlatego, że od ponad 5 lat piszę dla różnych serwisów poświęconych technologii i grom wideo, tworząc artykuły, których celem jest dostarczenie potrzebnych informacji w języku zrozumiałym dla każdego.

Jeśli masz jakieś pytania, moja wiedza obejmuje wszystko, co jest związane z systemem operacyjnym Windows, a także Androidem dla telefonów komórkowych. Moje zaangażowanie jest wobec Ciebie. Zawsze jestem gotowy poświęcić kilka minut i pomóc Ci rozwiązać wszelkie pytania, jakie możesz mieć w tym internetowym świecie.