Claude Sonnet 4.5: Poboljšanja koda, agenta i sigurnosti

Postiže 61,4% rezultata u OSWorldu i vodi u SWE-bench Verified testu.
Obavlja složene zadatke više od 30 sati i generira do 64 000 tokena
Ažuriranja Claude Codea i novog Claude Agent SDK-a za agente
Poboljšana sigurnost (ASL-3) i ista cijena: 3/15 USD po milijun tokena

Slika modela Claude Sonnet 4.5

Anthropic je izdao Claude Sonnet 4.5, evoluciju usmjerenu na programiranje, agente i računalnu kontrolu koja nastoji konsolidirati platformu u profesionalnim okruženjima. U okruženju s visokorangiranim konkurentima, tvrtka opisuje ovo izdanje kao svoje profinjeniji i korisniji model za inženjerske zadatke do datuma.

Nova verzija temelji se na dosadašnjim rezultatima obitelji Sonnet, koja je već u prethodnim iteracijama poboljšala zaključivanje i kodiranje. Nadograđujući se na tom temelju, verzija 4.5 ima za cilj proširiti praktični opseg s napretkom u ustrajnost pažnje, korištenje alata i produktivnost, održavajući razboritu strategiju u sigurnosti i usklađenosti.

Ključne mogućnosti i poboljšanja performansi

Generička slika Claudea Sonneta 4.5

Prema Anthropicu, Claude Sonnet 4.5 je sposoban održati fokus više od 30 sati na složenim zadacima. i višekoračni, što favorizira duge projekte gdje je potreban kontinuitet konteksta. Također podržava rezultate do 64.000 tokena u jednom odgovorui nudi kontrole za podešavanje „vremena razmišljanja“ prije odgovora, balansirajući brzinu i detalje prema potrebi.

Ekskluzivan sadržaj - Kliknite ovdje Palantir AI: Umjetna inteligencija za poduzeća koja se može mjeriti s Microsoftovom

U stvarnim zadacima ispred računala, Tvrtka izvještava o 61,4% u OSWorldu, što je značajan skok u odnosu na 42,2% njegovog prethodnika u istom testu.U praktičnim scenarijima, model može pregledavati web, ispunjavati proračunske tablice i izvršavati radnje u desktop aplikacijama iz Chromeovog proširenja, smanjujući kontinuirano praćenje korisnika.

Zemlja Programiranje koncentrira većinu poboljšanjaU SWE-bench Verified evaluaciji, koja se usredotočila na kodiranje primijenjeno na stvarne projekte, Sonnet 4.5 prednjači sa 77,2% (s konfiguracijama koje povećavaju broj kod paralelnog računanja). Anthropic predlaže da model pokriva cijeli razvojni ciklus: planiranje, implementacija, refaktoriranje i održavanje velikih kodnih baza.

Iznad čistog razvoja, Antropski identificira upotrebe koje zahtijevaju produljene tokove i koordinaciju koraka.Od kibernetičke sigurnosti i financija do uredske produktivnosti i istraživanja korištenjem internih i eksternih podataka. U tim kontekstima, obećanje leži u stabilnijim agentima sposobnim za održavanje dugoročnog rada bez gubitka dosljednosti.

Alati i ekosustav za razvojne programere

Lansiranje dolazi uz Što je novo kod Claudea Codea: kontrolne točke za spremanje napretka i povratak na prethodna stanja, kao što je povijest verzija, Jedan obnovljeno terminalno sučelje, izvorno proširenje za Visual Studio Code i poboljšanja uređivanja konteksta i memorije putem API-ja za izvršavanje duljih zadataka.

Ekskluzivan sadržaj - Kliknite ovdje Što je Apple Intelligence: Kako ga koristiti na iPhoneu, iPadu i Macu

Anthropic također premijerno prikazuje SDK agenta Claudea, koja replicira infrastrukturu koju tvrtka koristi za izgradnju vlastitih agenataKomplet nudi alate za dugoročno pamćenje, sustave dozvola i koordinaciju podagenta, olakšavajući stvaranje automatiziranih rješenja koja surađuju prema zajedničkim ciljevima i osiguravaju povezanost s alatima kao što su WireGuard.

Kao nadopuna, Tvrtka privremeno omogućuje „Zamislite s Claudeom“, demonstracija koja nam omogućuje da promatramo kako model generira softver u stvarnom vremenu Nema unaprijed definiranog koda. Ovaj pregled, dostupan ograničeno vrijeme korisnicima Max-a, ilustrira potencijal modela za interaktivno stvaranje.

Sigurnost, usklađenost i otpornost

Anthropic uključuje Sonnet 4.5 u svoju razinu zaštite Razina sigurnosti umjetne inteligencije 3 (ASL-3), s filterima obučenim za otkrivanje opasnog sadržaja, posebno onog povezanog s CBRN rizicima. Tvrtka tvrdi da je smanjila lažno pozitivnih rezultata za faktor deset u usporedbi s početnom verzijom ovih klasifikatora i nudi Kontinuitet razgovora sa Sonetom 4 ako dođe do sigurnosnog zaključavanja.

Paralelno s tim, tvrtka osigurava da Model smanjuje neželjena ponašanja poput laskanja ili obmanjujućih odgovora i jača obranu od pokušaja promptno ubrizgavanjeOve mjere ukazuju na upotrebu pouzdaniji u korporativnim okruženjima, gdje izvršavanje automatiziranih radnji zahtijeva kontrole i sljedivost.

Ekskluzivan sadržaj - Kliknite ovdje Kako koristiti Copilot u Wordu: Potpuni vodič

Dostupnost, platforme i cijene

Slika Claudea Sonneta 4.5

Claude Sonnet 4.5 dostupan je na Claude.ai (web, iOS i Android) i za razvojne programere putem Claude Developer platforme, s integracijom u usluge kao što su Amazon Bedrock i Google Cloud Vertex AI. Besplatni plan radi s ograničenjem sesija koje se resetira svakih pet sati i promjenjivim brojem poruka na zahtjev. Cijene ostaju iste.3 USD po milijunu ulaznih tokena i 15 USD po milijunu izlaznih tokena.

Među novim značajkama pristupa, Claudeovo proširenje za Chrome dostupno je korisnicima Max verzije. prethodno registriran na listi čekanja. Iako mjerila sugeriraju značajna poboljšanja u usporedbi s prethodnim iteracijama, Anthropic napominje da stvarne performanse ovise o slučaju upotrebe i proračunu za zaključivanje konfiguriranom za svaki zadatak.

Kombinacijom napretka u kodiranju, veće autonomije agenata i strožeg fokusa na sigurnost, Claude Sonnet 4.5 je pozicioniran kao solidna opcija za tehničke timove kojima je potreban kontinuitet i kontrola u dugotrajnim procesima, održavanje stabilnih troškova i kompatibilnosti s već uspostavljenim ekosustavom Anthropica.

LinkedIn prilagodba umjetne inteligencije

Povezani članak:

LinkedIn prilagođava svoju umjetnu inteligenciju: promjene privatnosti, regije i kako je onemogućiti

Alberto navarro

Ja sam tehnološki entuzijast koji je svoje "geek" interese pretvorio u profesiju. Proveo sam više od 10 godina svog života koristeći vrhunsku tehnologiju i petljajući sa svim vrstama programa iz čiste znatiželje. Sada sam se specijalizirao za računalne tehnologije i video igre. To je zato što sam više od 5 godina pisao za razne web stranice o tehnologiji i videoigrama, stvarajući članke koji vam nastoje dati informacije koje su vam potrebne na jeziku koji je svima razumljiv.

Ako imate bilo kakvih pitanja, moje znanje seže od svega vezanog uz Windows operativni sustav kao i Android za mobitele. I moja je posvećenost vama, uvijek sam spreman odvojiti nekoliko minuta i pomoći vam riješiti sva pitanja koja imate u ovom internetskom svijetu.