Claude Sonnet 4.5: Naid mewn Codio, Asiantau, a Defnyddio Cyfrifiaduron

Diweddariad diwethaf: 02/10/2025

  • Mae'n perfformio 61,4% yn OSWorld ac yn arwain yn y fainc SWE Wedi'i ddilysu
  • Yn ymdrin â thasgau cymhleth am fwy na 30 awr ac yn cynhyrchu hyd at 64.000 o docynnau
  • Diweddariadau i Claude Code a'r SDK Claude Agent newydd ar gyfer asiantau
  • Diogelwch gwell (ASL-3) a'r un pris: $3/$15 fesul miliwn o docynnau

Delwedd o'r model Claude Sonnet 4.5

Mae Anthropic wedi rhyddhau Claude Sonnet 4.5, esblygiad sy'n canolbwyntio ar raglennu, asiantau, a rheolaeth gyfrifiadurol sy'n ceisio cydgrynhoi'r platfform mewn amgylcheddau proffesiynol. Mewn tirwedd gyda chystadleuwyr lefel uchel, mae'r cwmni'n disgrifio'r datganiad hwn fel ei model mwy mireinio a defnyddiol ar gyfer tasgau peirianneg hyd yn hyn.

Mae'r fersiwn newydd yn adeiladu ar hanes llwyddiant teulu'r Sonnets, a oedd eisoes wedi gwella rhesymu a chodio mewn fersiynau blaenorol. Gan adeiladu ar y sylfaen honno, mae 4.5 yn anelu at ehangu'r cwmpas ymarferol gyda datblygiadau mewn dyfalbarhad sylw, defnydd offer, a chynhyrchiant, gan gynnal strategaeth ddoeth o ran diogelwch ac aliniad.

Galluoedd allweddol a gwelliannau perfformiad

Delwedd generig o Claude Sonnet 4.5

Yn ôl Anthropic, Mae Claude Sonnet 4.5 yn gallu cynnal ffocws am fwy na 30 awr ar dasgau cymhleth. ac aml-gam, sy'n ffafrio prosiectau hir lle mae angen parhad cyd-destun. Mae hefyd yn cefnogi allbynnau hyd at 64.000 o docynnau mewn un ymateb, ac mae'n cynnig rheolyddion i addasu'r "amser meddwl" cyn ymateb, gan gydbwyso cyflymder a manylder yn ôl yr angen.

Cynnwys unigryw - Cliciwch Yma  Nodweddion deallusrwydd artiffisial 

Mewn tasgau go iawn o flaen y cyfrifiadur, Mae'r cwmni'n adrodd am 61,4% yn OSWorld, naid nodedig o 42,2% ei ragflaenydd yn yr un prawf hwn.Mewn senarios ymarferol, gall y model pori'r we, cwblhau taenlenni, a chyflawni gweithredoedd mewn cymwysiadau bwrdd gwaith o estyniad Chrome, gan leihau monitro defnyddwyr yn barhaus.

Tir y Mae rhaglennu'n canolbwyntio'r rhan fwyaf o'r gwelliannauYn y gwerthusiad SWE-bench Verified, a oedd yn canolbwyntio ar godio a gymhwyswyd i brosiectau byd go iawn, Sonnet 4.5 sy'n arwain y ffordd gyda 77,2% (gyda ffurfweddiadau sy'n cynyddu'r nifer o dan gyfrifiadura cyfochrog). Mae Anthropic yn cynnig bod y model yn cwmpasu'r cylch datblygu cyfan: cynllunio, gweithredu, ailffactorio a chynnal a chadw cronfeydd cod mawr.

Y tu hwnt i ddatblygiad pur, Mae Anthropic yn nodi defnyddiau sy'n gofyn am lifau hirfaith a chydlynu camau.O seiberddiogelwch a chyllid i gynhyrchiant swyddfa ac ymchwil gan ddefnyddio data mewnol ac allanol. Yn y cyd-destunau hyn, mae'r addewid yn gorwedd mewn asiantau mwy sefydlog sy'n gallu cynnal gwaith hirdymor heb golli cysondeb.

Offer Datblygwyr ac Ecosystem

Claude Cod

Daw'r lansiad gyda Beth sy'n newydd yn Claude Code: pwyntiau gwirio i gadw cynnydd a dychwelyd i gyflyrau blaenorol, fel hanes fersiwn, a rhyngwyneb terfynell wedi'i ailwampio, estyniad brodorol ar gyfer Visual Studio Code a gwelliannau i olygu cyd-destun a chof drwy'r API i redeg tasgau hirach.

Cynnwys unigryw - Cliciwch Yma  Sut i ddarganfod fy IQ gyda Phrawf IQ: Y Cwis Deallusrwydd?

Mae Anthropic hefyd yn dangos y perfformiad cyntaf o'r SDK Asiant Claude, sy'n efelychu'r seilwaith y mae'r cwmni'n ei ddefnyddio i adeiladu ei asiantau ei hunMae'r pecyn yn cynnig offer ar gyfer cof tymor hir, systemau caniatâd, a chydlynu is-asiantau, gan hwyluso creu atebion awtomataidd sy'n cydweithio tuag at nodau cyffredin a chysylltedd diogel gydag offer fel WireGuard.

Fel atodiad, Mae'r cwmni'n galluogi “Dychmygwch gyda Claude” dros dro, arddangosiad sy'n ein galluogi i arsylwi sut mae'r model yn cynhyrchu meddalwedd mewn amser real Dim cod wedi'i ddiffinio ymlaen llaw. Mae'r rhagolwg hwn, sydd ar gael am gyfnod cyfyngedig i ddefnyddwyr Max, yn dangos potensial y model ar gyfer creu rhyngweithiol.

Diogelwch, aliniad a gwydnwch

Mae Anthropic yn cynnwys Sonnet 4.5 yn ei lefel amddiffyn Lefel Diogelwch AI 3 (ASL-3), gyda hidlwyr wedi'u hyfforddi i ganfod cynnwys peryglus, yn enwedig y rhai sy'n gysylltiedig â risgiau CBRN. Mae'r cwmni'n honni eu bod wedi lleihau positifau ffug o ffactor o ddeg o'i gymharu â'r fersiwn gychwynnol o'r dosbarthwyr hyn, ac mae'n cynnig Parhad sgwrs gyda Sonnet 4 os bydd cloi diogelwch yn digwydd.

Ochr yn ochr â hynny, mae'r cwmni'n sicrhau bod Mae'r model yn lleihau ymddygiadau diangen fel gweniaith neu ymatebion twyllodrus ac yn cryfhau amddiffynfeydd yn erbyn ymdrechion i chwistrelliad prydlonMae'r mesurau hyn yn awgrymu defnydd yn fwy dibynadwy mewn amgylcheddau corfforaethol, lle mae gweithredu gweithredoedd awtomataidd yn gofyn am reolaethau ac olrheinedd.

Cynnwys unigryw - Cliciwch Yma  WWDC 2025: Popeth am ailgynllunio mawr Apple, diweddariadau iOS 26, newidiadau meddalwedd, a deallusrwydd artiffisial

Argaeledd, llwyfannau a phrisiau

Delwedd gan Claude Sonnet 4.5

Mae Claude Sonnet 4.5 ar gael yn Claude.ai (gwe, iOS ac Android) ac i ddatblygwyr drwy Lwyfan Datblygwyr Claude, gydag integreiddio i wasanaethau fel Amazon Bedrock a Google Cloud Vertex AI. Mae'r cynllun am ddim yn gweithredu gyda therfyn sesiwn sy'n ailosod bob pum awr a nifer amrywiol o negeseuon ar alw. Mae prisiau'n aros yr un fath.$3 y filiwn o docynnau mewnbwn a $15 y filiwn o docynnau allbwn.

Ymhlith y nodweddion mynediad newydd, Mae estyniad Chrome Claude yn cael ei gyflwyno i ddefnyddwyr Max. wedi cofrestru ar y rhestr aros yn flaenorol. Er bod y meincnodau'n awgrymu gwelliannau sylweddol o'i gymharu â fersiynau blaenorol, mae Anthropic yn nodi bod perfformiad gwirioneddol yn dibynnu ar yr achos defnydd a'r gyllideb resymegol a ffurfiwyd ar gyfer pob tasg.

Gyda chyfuniad o ddatblygiadau mewn codio, mwy o ymreolaeth i asiantau, a ffocws mwy llym ar ddiogelwch, Mae Claude Sonnet 4.5 wedi'i leoli fel opsiwn cadarn ar gyfer timau technegol sydd angen parhad a rheolaeth mewn prosesau hir, cynnal costau sefydlog a chydnawsedd ag ecosystem Anthropic sydd eisoes wedi'i ddefnyddio.

addasiad linkedin ai
Erthygl gysylltiedig:
Mae LinkedIn yn addasu ei AI: newidiadau preifatrwydd, rhanbarthau, a sut i'w analluogi