Claude Sonnet 4.5: Vylepšenia kódu, agenta a zabezpečenia

V testoch OSWorld dosahuje 61,4 % a v testoch SWE-bench Verified vedie.
Zvláda zložité úlohy viac ako 30 hodín a generuje až 64 000 tokenov
Aktualizácie Claude Code a novej sady Claude Agent SDK pre agentov
Zvýšená bezpečnosť (ASL-3) a rovnaká cena: 3/15 dolárov za milión tokenov

Obrázok modelu Claude Sonnet 4.5

Spoločnosť Anthropic vydala Claude Sonnet 4.5, vývojovú verziu zameranú na programovanie, agentov a ovládanie počítačov, ktorá sa snaží konsolidovať platformu v profesionálnom prostredí. V prostredí s vysokou konkurenciou spoločnosť opisuje toto vydanie ako svoje... prepracovanejší a užitočnejší model pre inžinierske úlohy doteraz.

Nová verzia stavia na skúsenostiach rodiny Sonnet, ktorá už v predchádzajúcich iteráciách zlepšila uvažovanie a kódovanie. Na tomto základe sa verzia 4.5 zameriava na rozšírenie praktického rozsahu o pokroky v... vytrvalosť pozornosti, používanie nástrojov a produktivita, pričom sa dodržiava obozretná stratégia v oblasti bezpečnosti a zosúladenia.

Kľúčové funkcie a vylepšenia výkonu

Všeobecný obraz Clauda Sonneta 4.5

Podľa Anthropica, Claude Sonnet 4.5 dokáže udržať sústredenie viac ako 30 hodín na zložitých úlohách. a viackrokový, čo uprednostňuje dlhé projekty, kde je potrebná kontinuita kontextu. Podporuje tiež výstupy až 64 000 tokenov v jednej odpovedia ponúka ovládacie prvky na úpravu „času na premýšľanie“ pred odpoveďou, pričom podľa potreby vyvažuje rýchlosť a detaily.

Exkluzívny obsah – kliknite sem Microsoft Edge 136: Copilot sa stáva centrom navigačného zážitku

Pri reálnych úlohách pred počítačom, Spoločnosť hlási v OSWorld 61,4 %, čo je výrazný skok oproti 42,2 % u jej predchodcu v tom istom teste.V praktických scenároch môže model prehliadať web, vypĺňať tabuľky a vykonávať akcie v desktopových aplikáciách z rozšírenia Chrome, čím sa znižuje nepretržité monitorovanie používateľov.

Krajina Programovanie sústreďuje väčšinu vylepšeníV overenom hodnotení SWE-bench, ktoré sa zameralo na kódovanie aplikované na projekty z reálneho sveta, Sonnet 4.5 vedie so 77,2 % (s konfiguráciami, ktoré zvyšujú počet pri paralelnom výpočte). Anthropic navrhuje, aby model pokrýval celý vývojový cyklus: plánovanie, implementácia, refaktoring a údržba rozsiahlych kódových báz.

Okrem čistého vývoja, Antropické identifikuje použitia, ktoré si vyžadujú dlhodobé postupy a koordináciu krokov.Od kybernetickej bezpečnosti a financií až po kancelársku produktivitu a výskum s využitím interných a externých údajov. V týchto kontextoch spočíva sľub v stabilnejších agentoch schopných dlhodobo pracovať bez straty konzistencie.

Nástroje a ekosystém pre vývojárov

Spustenie sprevádza Čo je nové v Claude Code: kontrolné body uložiť pokrok a vrátiť sa do predchádzajúcich stavov, ako napríklad história verzií, One prepracované terminálové rozhranie, natívne rozšírenie pre Visual Studio Code a vylepšenia úpravy kontextu a pamäte prostredníctvom rozhrania API na spúšťanie dlhších úloh.

Exkluzívny obsah – kliknite sem SuperGrok Heavy: Nový prémiový (a drahý) model predplatného, ktorý prináša revolúciu do umelej inteligencie

Anthropic má tiež premiéru SDK agenta Claudea, ktorá replikuje infraštruktúru, ktorú spoločnosť používa na budovanie vlastných agentovSada ponúka nástroje pre dlhodobú pamäť, systémy oprávnení a koordináciu subagentov, čo uľahčuje vytváranie automatizovaných riešení, ktoré spolupracujú na spoločných cieľoch a zabezpečujú pripojenie s nástrojmi, ako sú WireGuard.

Ako doplnok, Firma dočasne umožňuje program „Predstavte si s Claudom“, demonštrácia, ktorá nám umožňuje pozorovať, ako model generuje softvér v reálnom čase Žiadny preddefinovaný kód. Táto ukážka, ktorá je časovo dostupná pre používateľov verzie Max, ilustruje potenciál modelu pre interaktívnu tvorbu.

Bezpečnosť, zosúladenie a odolnosť

Anthropic zahŕňa Sonnet 4.5 vo svojej úrovni ochrany Úroveň bezpečnosti umelej inteligencie 3 (ASL-3), s filtrami vycvičenými na detekciu nebezpečného obsahu, najmä obsahu súvisiaceho s rizikami CBRN. Spoločnosť tvrdí, že znížila desaťnásobne viac falošne pozitívnych výsledkov v porovnaní s pôvodnou verziou týchto klasifikátorov a ponúka Kontinuita konverzácie so Sonnet 4 v prípade bezpečnostného zablokovania.

Súbežne spoločnosť zabezpečuje, aby Model redukuje nežiaduce správanie, ako sú lichotenie alebo klamlivé reakcie, a posilňuje obranu proti pokusom o... rýchla injekciaTieto opatrenia poukazujú na použitie spoľahlivejšie v korporátnom prostredí, kde vykonávanie automatizovaných akcií vyžaduje kontroly a sledovateľnosť.

Exkluzívny obsah – kliknite sem Čo je Humata AI a ako analyzovať zložité PDF súbory bez toho, aby ste si ich museli prečítať

Dostupnosť, platformy a ceny

Obrázok od Clauda Sonneta 4.5

Claude Sonnet 4.5 je k dispozícii na Claude.ai (web, iOS a Android) a pre vývojárov prostredníctvom platformy Claude Developer Platform, s integráciou do služieb ako Amazon Bedrock a Google Cloud Vertex AI. Bezplatný plán funguje s limitom relácií, ktorý sa resetuje každých päť hodín, a variabilným počtom správ na požiadanie. Ceny zostávajú rovnaké.3 doláre za milión vstupných tokenov a 15 dolárov za milión výstupných tokenov.

Medzi novými funkciami prístupu, Rozšírenie Claude pre Chrome sa zavádza pre používateľov verzie Max. predtým zaregistrovaný na čakacej listine. Hoci benchmarky naznačujú podstatné zlepšenia v porovnaní s predchádzajúcimi iteráciami, Anthropic poznamenáva, že skutočný výkon závisí od prípadu použitia a rozpočtu na uvažovanie nakonfigurovaného pre každú úlohu.

Vďaka kombinácii pokrokov v kódovaní, väčšej autonómie agentov a prísnejšieho zamerania na bezpečnosť, Claude Sonnet 4.5 je umiestnený ako solídna možnosť pre technické tímy, ktoré potrebujú kontinuitu a kontrolu v dlhodobých procesoch, udržiavanie stabilných nákladov a kompatibility s už nasadeným ekosystémom spoločnosti Anthropic.

Súvisiaci článok:

LinkedIn upravuje svoju umelú inteligenciu: zmeny súkromia, regióny a ako ju deaktivovať

Alberto navarro

Som technologický nadšenec, ktorý zo svojich „geekovských“ záujmov urobil povolanie. Strávil som viac ako 10 rokov svojho života používaním špičkových technológií a hraním so všetkými druhmi programov z čistej zvedavosti. Teraz som sa špecializoval na počítačovú techniku a videohry. Je to preto, že už viac ako 5 rokov píšem pre rôzne webové stránky o technológiách a videohrách a vytváram články, ktoré sa snažia poskytnúť vám potrebné informácie v jazyku, ktorý je zrozumiteľný pre každého.

Ak máte nejaké otázky, moje znalosti siahajú od všetkého, čo súvisí s operačným systémom Windows, ako aj Androidom pre mobilné telefóny. A môj záväzok je voči vám, vždy som ochotný venovať pár minút a pomôcť vám vyriešiť akékoľvek otázky, ktoré môžete mať v tomto internetovom svete.