- V OSWorldu dosega 61,4 % uspešnosti, v SWE-bench Verified pa je vodilni.
- Obvladuje kompleksne naloge več kot 30 ur in ustvari do 64.000 žetonov
- Posodobitve za Claude Code in novi komplet za razvoj programske opreme Claude Agent za agente
- Izboljšana varnost (ASL-3) in enaka cena: 3/15 USD na milijon žetonov
Anthropic je izdal Claude Sonnet 4.5, razvojno različico, osredotočeno na programiranje, agente in računalniški nadzor, ki si prizadeva utrditi platformo v profesionalnih okoljih. V okolju z visoko konkurenco podjetje to izdajo opisuje kot svojo... bolj izpopolnjen in uporaben model za inženirske naloge do datuma.
Nova različica temelji na dosedanjih dosežkih družine Sonnet, ki je v prejšnjih različicah že izboljšala sklepanje in kodiranje. Na podlagi teh temeljev si različica 4.5 prizadeva razširiti praktično področje uporabe z napredkom v vztrajnost pozornosti, uporaba orodij in produktivnost, pri čemer ohranja preudarno strategijo na področju varnosti in usklajenosti.
Ključne zmogljivosti in izboljšave delovanja

Po mnenju Anthropica, Claude Sonnet 4.5 je sposoben ohranjati osredotočenost več kot 30 ur pri kompleksnih nalogah. in večstopenjski, kar daje prednost dolgim projektom, kjer je potrebna kontinuiteta konteksta. Podpira tudi rezultate do 64.000 žetonov v enem samem odgovoruin ponuja kontrole za prilagajanje »časa razmišljanja« pred odgovorom, pri čemer po potrebi uravnoteži hitrost in podrobnosti.
Pri resničnih opravilih pred računalnikom, Podjetje poroča o 61,4 % v OSWorldu, kar je opazen skok v primerjavi s 42,2 %, ki jih je dosegel njegov predhodnik v istem testu.V praktičnih primerih lahko model brskajte po spletu, izpolnjevajte preglednice in izvajajte dejanja v namiznih aplikacijah iz razširitve za Chrome, kar zmanjšuje nenehno spremljanje uporabnikov.
Dežela Programiranje osredotoča večino izboljšavV oceni SWE-bench Verified, ki se je osredotočila na kodiranje, uporabljeno v projektih iz resničnega sveta, Sonnet 4.5 vodi s 77,2 % (s konfiguracijami, ki povečajo število pri vzporednem računanju). Anthropic predlaga, da model pokriva celoten razvojni cikel: načrtovanje, implementacija, refaktoriranje in vzdrževanje velikih kodnih baz.
Onkraj čistega razvoja, Antropična prepoznava uporabe, ki zahtevajo dolgotrajne tokove in koordinacijo korakov.Od kibernetske varnosti in financ do pisarniške produktivnosti in raziskav z uporabo notranjih in zunanjih podatkov. V teh kontekstih je obljuba v stabilnejših agentih, ki so sposobni vzdrževati dolgoročno delo brez izgube doslednosti.
Orodja in ekosistem za razvijalce

Izstrelitev spremlja Kaj je novega pri Claude Code: kontrolne točke za shranjevanje napredka in vrnitev v prejšnja stanja, kot je na primer zgodovina različic, En prenovljen terminalski vmesnik, izvorna razširitev za Visual Studio Code in izboljšave urejanja konteksta in pomnilnika prek API-ja za izvajanje daljših nalog.
Anthropic prav tako premierno prikazuje SDK agenta Claudea, ki posnema infrastrukturo, ki jo podjetje uporablja za izgradnjo lastnih agentovKomplet ponuja orodja za dolgoročni spomin, sisteme dovoljenj in koordinacijo podagentov, kar omogoča ustvarjanje avtomatiziranih rešitev, ki sodelujejo pri doseganju skupnih ciljev in varno povezljivost z orodji, kot so WireGuard.
Kot dopolnilo, Podjetje začasno omogoča »Predstavljajte si s Claudom«, demonstracija, ki nam omogoča opazovanje, kako model ustvarja programsko opremo v realnem času Ni vnaprej določene kode. Ta predogled, ki je za omejen čas na voljo uporabnikom Max, ponazarja potencial modela za interaktivno ustvarjanje.
Varnost, usklajenost in odpornost
Anthropic v svojo stopnjo zaščite vključuje Sonnet 4.5 Varnostna raven umetne inteligence 3 (ASL-3), s filtri, usposobljenimi za zaznavanje nevarnih vsebin, zlasti tistih, povezanih s tveganji JRKB. Podjetje trdi, da je zmanjšalo lažno pozitivnih rezultatov za faktor deset v primerjavi z začetno različico teh klasifikatorjev in ponuja Nadaljevanje pogovora s Sonnetom 4 v primeru varnostne blokade.
Vzporedno podjetje zagotavlja, da Model zmanjšuje neželeno vedenje, kot so laskanje ali zavajajoči odzivi, in krepi obrambo pred poskusi takojšnje injiciranjeTi ukrepi kažejo na uporabo bolj zanesljiv v korporativnih okoljih, kjer izvajanje avtomatiziranih dejanj zahteva nadzor in sledljivost.
Razpoložljivost, platforme in cene

Claude Sonnet 4.5 je na voljo na Claude.ai (splet, iOS in Android) in za razvijalce prek platforme Claude Developer, z integracijo v storitve, kot sta Amazon Bedrock in Google Cloud Vertex AI. Brezplačni paket deluje z omejitvijo sej, ki se ponastavi vsakih pet ur, in spremenljivim številom sporočil na zahtevo. Cene ostajajo enake.3 $ na milijon vhodnih žetonov in 15 $ na milijon izhodnih žetonov.
Med novimi funkcijami dostopa, Razširitev Claude za Chrome se uvaja za uporabnike Maxa. prej registrirani na čakalnem seznamu. Čeprav merila uspešnosti kažejo na znatne izboljšave v primerjavi s prejšnjimi iteracijami, Anthropic ugotavlja, da je dejanska zmogljivost odvisna od primera uporabe in proračuna za sklepanje, konfiguriranega za vsako nalogo.
S kombinacijo napredka v kodiranju, večje avtonomije agentov in strožjega poudarka na varnosti, Claude Sonnet 4.5 je pozicioniran kot solidna možnost za tehnične ekipe, ki potrebujejo kontinuiteto in nadzor v dolgotrajnih procesih, ohranjanje stabilnih stroškov in združljivosti z že vzpostavljenim ekosistemom Anthropic.
Sem tehnološki navdušenec, ki je svoja "geek" zanimanja spremenil v poklic. Več kot 10 let svojega življenja sem porabil za uporabo vrhunske tehnologije in premleval najrazličnejše programe iz čiste radovednosti. Zdaj sem se specializiral za računalniško tehnologijo in video igre. To je zato, ker že več kot 5 let pišem za različna spletna mesta o tehnologiji in video igrah ter ustvarjam članke, ki vam želijo dati informacije, ki jih potrebujete, v jeziku, ki je razumljiv vsem.
Če imate kakršna koli vprašanja, moje znanje sega od vsega v zvezi z operacijskim sistemom Windows kot tudi Androidom za mobilne telefone. In moja zaveza je vam, vedno sem pripravljen porabiti nekaj minut in vam pomagati razrešiti kakršna koli vprašanja, ki jih morda imate v tem internetnem svetu.