Claude Sonnet 4.5: Ugrás a kódolásban, az ágensekben és a számítógép-használatban

Utolsó frissítés: 02/10/2025

  • 61,4%-os teljesítményt nyújt az OSWorld-ön, és vezet az SWE-bench Verified-ön.
  • Több mint 30 órán át kezeli az összetett feladatokat, és akár 64 000 tokent generál
  • Frissítések a Claude kódhoz és az új Claude Agent SDK-hoz ügynökök számára
  • Fokozott biztonság (ASL-3) és ugyanaz az ár: 3/15 dollár millió tokenenként

A Claude Sonnet 4.5 modell képe

Az Anthropic kiadta a Claude Sonnet 4.5-öt, egy olyan evolúciós verziót, amely a programozásra, az ágensekre és a számítógépes vezérlésre összpontosít, és célja a platform professzionális környezetben való megszilárdítása. Egy olyan környezetben, ahol magas szintű versenytársak vannak, a vállalat ezt a kiadást a következőképpen írja le: finomított és hasznosabb modell mérnöki feladatokhoz A mai napig

Az új verzió a Sonnet család eddigi eredményeire épít, amelyek már a korábbi verziókban is fejlesztették az érvelést és a kódolást. Erre az alapra építve a 4.5-ös verzió célja, hogy bővítse a gyakorlati hatókört a következő fejlesztésekkel: a figyelem kitartása, az eszközhasználat és a termelékenység, körültekintő biztonsági és összehangolási stratégiát fenntartva.

Főbb képességek és teljesítménybeli fejlesztések

Claude Sonnet 4.5 általános képe

Az Antropic szerint, A Claude Sonnet 4.5 képes több mint 30 órán át fenntartani a koncentrációt összetett feladatokon. és többlépéses, amely a hosszú projekteket részesíti előnyben, ahol a kontextus folytonossága szükséges. Akár ... kimenetet is támogat 64 000 token egyetlen válaszban, és vezérlőket kínál a válaszadás előtti „gondolkodási idő” beállításához, szükség szerint kiegyensúlyozva a sebességet és a részletességet.

Exkluzív tartalom – Kattintson ide  A YouTube szigorítja a tömeggyártású és mesterséges intelligenciával támogatott videók elleni politikáját.

A számítógép előtti valós feladatok során, A vállalat 61,4%-os eredményt ért el az OSWorld teszten, ami jelentős ugrás az elődje 42,2%-ához képest, amelyet ugyanebben a tesztben elért.Gyakorlati helyzetekben a modell képes böngészni a weben, táblázatokat kitölteni és műveleteket végrehajtani az asztali alkalmazásokban a Chrome-bővítményből, csökkentve a folyamatos felhasználófigyelést.

A föld A fejlesztések nagy részét a programozás koncentráljaAz SWE-bench Verified értékelésében, amely a valós projektekben alkalmazott kódolásra összpontosított, A Sonnet 4.5 vezeti a listát 77,2%-kal. (olyan konfigurációkkal, amelyek növelik a számot párhuzamos számítástechnika mellett). Az Anthropic azt javasolja, hogy a modell lefedje a teljes fejlesztési ciklust: nagyméretű kódbázisok tervezése, megvalósítása, refaktorálása és karbantartása.

A puszta fejlődésen túl, Az antropikus kifejezés olyan felhasználási módokat jelöl, amelyek elnyújtott folyamatokat és lépések összehangolását igénylik.A kiberbiztonságtól és a pénzügyektől kezdve az irodai termelékenységen át a belső és külső adatokat felhasználó kutatásokig. Ezekben a kontextusokban az ígéret a stabilabb ügynökökben rejlik, amelyek képesek hosszú távon fenntartani a munkát a konzisztencia feláldozása nélkül.

Fejlesztői eszközök és ökoszisztéma

Claude-kód

A bevezetés kíséretében érkezik Újdonságok a Claude Code-nál: ellenőrzőpontok a haladás mentéséhez és az előző állapotokba való visszatéréshez, például verziótörténet, az egyik felújított terminálfelület, natív kiterjesztés a Visual Studio Code-hoz valamint a kontextus és a memória szerkesztésének fejlesztései az API-n keresztül a hosszabb feladatok futtatásához.

Exkluzív tartalom – Kattintson ide  Antropikus és a mesterséges intelligencia esete, amely fehérítő fogyasztását ajánlotta: amikor a modellek csalnak

Az Anthropic című filmben kerül bemutatásra a Claude ügynök SDK, amely lemásolja azt az infrastruktúrát, amelyet a vállalat saját ügynökeinek felépítéséhez használA készlet eszközöket kínál a hosszú távú memóriához, az engedélyezési rendszerekhez és az alügynökök koordinációjához, elősegítve az olyan automatizált megoldások létrehozását, amelyek együttműködnek a közös célok elérése érdekében, és biztonságos kapcsolatot biztosítanak olyan eszközökkel, mint a WireGuard.

Kiegészítésként A cég ideiglenesen engedélyezi az „Imagine with Claude” funkciót., egy bemutató, amely lehetővé teszi számunkra, hogy megfigyeljük, hogyan működik a modell valós időben generál szoftvert Nincs előre definiált kód. Ez az előnézet, amely korlátozott ideig elérhető Max felhasználók számára, bemutatja a modell interaktív létrehozási lehetőségeit.

Biztonság, összehangolás és ellenálló képesség

Az Anthropic a Sonnet 4.5-öt is tartalmazza a védelmi szintjében AI biztonsági szint 3 (ASL-3), olyan szűrőkkel, amelyekkel veszélyes tartalmakat, különösen a CBRN-kockázatokkal kapcsolatosakat észlelnek. A vállalat azt állítja, hogy csökkent tízszeresére csökkent a téves pozitív eredmények aránya az osztályozók kezdeti verziójához képest, és kínál A Sonnet 4-gyel folytatott beszélgetés folytonossága biztonsági zárolás esetén.

Ezzel párhuzamosan a vállalat biztosítja, hogy A modell csökkenti a nem kívánt viselkedéseket, például a hízelgést vagy a megtévesztő válaszokat, és megerősíti a védelmet a kísérletekkel szemben. azonnali injekcióEzek az intézkedések a felhasználásra utalnak megbízhatóbb vállalati környezetben, ahol az automatizált műveletek végrehajtása ellenőrzéseket és nyomon követhetőséget igényel.

Exkluzív tartalom – Kattintson ide  A Gemini mesterséges intelligenciája mostantól olyan dalokat is megtalálhat a mobiltelefonodon, mint a Shazam.

Elérhetőség, platformok és árak

Claude Sonnet 4.5 képe

A Claude Sonnet 4.5 elérhető a Claude.ai oldalon. (web, iOS és Android) és fejlesztők számára a Claude fejlesztői platformon keresztül, olyan szolgáltatásokba integrálva, mint az Amazon Bedrock és a Google Cloud Vertex AI. Az ingyenes csomag ötóránként visszaállítható munkamenet-korláttal és igény szerint változó számú üzenettel működik. Az árak változatlanok maradnak.3 dollár millió bemeneti tokenenként és 15 dollár millió kimeneti tokenenként.

Az új hozzáférési funkciók között szerepel, Claude Chrome-bővítménye hamarosan elérhető lesz a Max felhasználók számára. korábban a várólistán szerepelt. Bár a benchmarkok jelentős javulást sugallnak a korábbi iterációkhoz képest, az Anthropic megjegyzi, hogy a tényleges teljesítmény a használati esettől és az egyes feladatokhoz konfigurált gondolkodási költségvetéstől függ.

A kódolás fejlődésének, az ügynökök nagyobb autonómiájának és a biztonságra való szigorúbb összpontosításnak köszönhetően... A Claude Sonnet 4.5 jó választásnak számít. olyan műszaki csapatok számára, akiknek folytonosságra és kontrollra van szükségük hosszú folyamatokban, stabil költségek és kompatibilitás fenntartása az Anthropic már telepített ökoszisztémájával.

LinkedIn korrekciós AI
Kapcsolódó cikk:
A LinkedIn módosítja a mesterséges intelligenciáját: adatvédelmi változások, régiók és a letiltásának módja