Claude Sonnet 4.5: Preskok v kodiranju, agentih in uporabi računalnikov

Zadnja posodobitev: 02/10/2025

  • V OSWorldu dosega 61,4 % uspešnosti, v SWE-bench Verified pa je vodilni.
  • Obvladuje kompleksne naloge več kot 30 ur in ustvari do 64.000 žetonov
  • Posodobitve za Claude Code in novi komplet za razvoj programske opreme Claude Agent za agente
  • Izboljšana varnost (ASL-3) in enaka cena: 3/15 USD na milijon žetonov

Slika modela Claude Sonnet 4.5

Anthropic je izdal Claude Sonnet 4.5, razvojno različico, osredotočeno na programiranje, agente in računalniški nadzor, ki si prizadeva utrditi platformo v profesionalnih okoljih. V okolju z visoko konkurenco podjetje to izdajo opisuje kot svojo... bolj izpopolnjen in uporaben model za inženirske naloge do datuma.

Nova različica temelji na dosedanjih dosežkih družine Sonnet, ki je v prejšnjih različicah že izboljšala sklepanje in kodiranje. Na podlagi teh temeljev si različica 4.5 prizadeva razširiti praktično področje uporabe z napredkom v vztrajnost pozornosti, uporaba orodij in produktivnost, pri čemer ohranja preudarno strategijo na področju varnosti in usklajenosti.

Ključne zmogljivosti in izboljšave delovanja

Generična slika Clauda Soneta 4.5

Po mnenju Anthropica, Claude Sonnet 4.5 je sposoben ohranjati osredotočenost več kot 30 ur pri kompleksnih nalogah. in večstopenjski, kar daje prednost dolgim ​​projektom, kjer je potrebna kontinuiteta konteksta. Podpira tudi rezultate do 64.000 žetonov v enem samem odgovoruin ponuja kontrole za prilagajanje »časa razmišljanja« pred odgovorom, pri čemer po potrebi uravnoteži hitrost in podrobnosti.

Ekskluzivna vsebina - Kliknite tukaj  YouTube krepi svojo politiko proti množično produciranim videoposnetkom in videoposnetkom, ki jih poganja umetna inteligenca

Pri resničnih opravilih pred računalnikom, Podjetje poroča o 61,4 % v OSWorldu, kar je opazen skok v primerjavi s 42,2 %, ki jih je dosegel njegov predhodnik v istem testu.V praktičnih primerih lahko model brskajte po spletu, izpolnjevajte preglednice in izvajajte dejanja v namiznih aplikacijah iz razširitve za Chrome, kar zmanjšuje nenehno spremljanje uporabnikov.

Dežela Programiranje osredotoča večino izboljšavV oceni SWE-bench Verified, ki se je osredotočila na kodiranje, uporabljeno v projektih iz resničnega sveta, Sonnet 4.5 vodi s 77,2 % (s konfiguracijami, ki povečajo število pri vzporednem računanju). Anthropic predlaga, da model pokriva celoten razvojni cikel: načrtovanje, implementacija, refaktoriranje in vzdrževanje velikih kodnih baz.

Onkraj čistega razvoja, Antropična prepoznava uporabe, ki zahtevajo dolgotrajne tokove in koordinacijo korakov.Od kibernetske varnosti in financ do pisarniške produktivnosti in raziskav z uporabo notranjih in zunanjih podatkov. V teh kontekstih je obljuba v stabilnejših agentih, ki so sposobni vzdrževati dolgoročno delo brez izgube doslednosti.

Orodja in ekosistem za razvijalce

Claude Code

Izstrelitev spremlja Kaj je novega pri Claude Code: kontrolne točke za shranjevanje napredka in vrnitev v prejšnja stanja, kot je na primer zgodovina različic, En prenovljen terminalski vmesnik, izvorna razširitev za Visual Studio Code in izboljšave urejanja konteksta in pomnilnika prek API-ja za izvajanje daljših nalog.

Ekskluzivna vsebina - Kliknite tukaj  Anthropic in primer umetne inteligence, ki je priporočala pitje belila: ko modeli goljufajo

Anthropic prav tako premierno prikazuje SDK agenta Claudea, ki posnema infrastrukturo, ki jo podjetje uporablja za izgradnjo lastnih agentovKomplet ponuja orodja za dolgoročni spomin, sisteme dovoljenj in koordinacijo podagentov, kar omogoča ustvarjanje avtomatiziranih rešitev, ki sodelujejo pri doseganju skupnih ciljev in varno povezljivost z orodji, kot so WireGuard.

Kot dopolnilo, Podjetje začasno omogoča »Predstavljajte si s Claudom«, demonstracija, ki nam omogoča opazovanje, kako model ustvarja programsko opremo v realnem času Ni vnaprej določene kode. Ta predogled, ki je za omejen čas na voljo uporabnikom Max, ponazarja potencial modela za interaktivno ustvarjanje.

Varnost, usklajenost in odpornost

Anthropic v svojo stopnjo zaščite vključuje Sonnet 4.5 Varnostna raven umetne inteligence 3 (ASL-3), s filtri, usposobljenimi za zaznavanje nevarnih vsebin, zlasti tistih, povezanih s tveganji JRKB. Podjetje trdi, da je zmanjšalo lažno pozitivnih rezultatov za faktor deset v primerjavi z začetno različico teh klasifikatorjev in ponuja Nadaljevanje pogovora s Sonnetom 4 v primeru varnostne blokade.

Vzporedno podjetje zagotavlja, da Model zmanjšuje neželeno vedenje, kot so laskanje ali zavajajoči odzivi, in krepi obrambo pred poskusi takojšnje injiciranjeTi ukrepi kažejo na uporabo bolj zanesljiv v korporativnih okoljih, kjer izvajanje avtomatiziranih dejanj zahteva nadzor in sledljivost.

Ekskluzivna vsebina - Kliknite tukaj  Gemini AI lahko zdaj najde pesmi, kot je Shazam, na vašem mobilnem telefonu

Razpoložljivost, platforme in cene

Slika Clauda Sonneta 4.5

Claude Sonnet 4.5 je na voljo na Claude.ai (splet, iOS in Android) in za razvijalce prek platforme Claude Developer, z integracijo v storitve, kot sta Amazon Bedrock in Google Cloud Vertex AI. Brezplačni paket deluje z omejitvijo sej, ki se ponastavi vsakih pet ur, in spremenljivim številom sporočil na zahtevo. Cene ostajajo enake.3 $ na milijon vhodnih žetonov in 15 $ na milijon izhodnih žetonov.

Med novimi funkcijami dostopa, Razširitev Claude za Chrome se uvaja za uporabnike Maxa. prej registrirani na čakalnem seznamu. Čeprav merila uspešnosti kažejo na znatne izboljšave v primerjavi s prejšnjimi iteracijami, Anthropic ugotavlja, da je dejanska zmogljivost odvisna od primera uporabe in proračuna za sklepanje, konfiguriranega za vsako nalogo.

S kombinacijo napredka v kodiranju, večje avtonomije agentov in strožjega poudarka na varnosti, Claude Sonnet 4.5 je pozicioniran kot solidna možnost za tehnične ekipe, ki potrebujejo kontinuiteto in nadzor v dolgotrajnih procesih, ohranjanje stabilnih stroškov in združljivosti z že vzpostavljenim ekosistemom Anthropic.

LinkedIn prilagoditev umetne inteligence
Povezani članek:
LinkedIn prilagaja svojo umetno inteligenco: spremembe zasebnosti, regije in kako jo onemogočiti