Claude Sonnet 4.5: Lonjakan dalam Pengekodan, Ejen dan Penggunaan Komputer

Kemaskini terakhir: 02/10/2025

  • Ia berprestasi 61,4% dalam OSWorld dan mendahului dalam SWE-bench Verified
  • Mengendalikan tugas yang kompleks selama lebih daripada 30 jam dan menjana sehingga 64.000 token
  • Kemas kini kepada Kod Claude dan SDK Ejen Claude baharu untuk ejen
  • Keselamatan dipertingkat (ASL-3) dan harga yang sama: $3/$15 setiap juta token

Imej model Claude Sonnet 4.5

Anthropic telah mengeluarkan Claude Sonnet 4.5, sebuah evolusi yang tertumpu pada pengaturcaraan, ejen dan kawalan komputer yang bertujuan untuk menyatukan platform dalam persekitaran profesional. Dalam landskap dengan saingan peringkat tinggi, syarikat menggambarkan keluaran ini sebagai keluarannya model yang lebih halus dan berguna untuk tugas kejuruteraan sehingga tarikh.

Versi baharu ini dibina berdasarkan rekod prestasi keluarga Sonnet, yang telah pun menambah baik penaakulan dan pengekodan dalam lelaran sebelumnya. Berdasarkan asas itu, 4.5 bertujuan untuk mengembangkan skop praktikal dengan kemajuan dalam kegigihan perhatian, penggunaan alat, dan produktiviti, mengekalkan strategi berhemat dalam keselamatan dan penjajaran.

Keupayaan utama dan peningkatan prestasi

Imej generik Claude Sonnet 4.5

Menurut Anthropic, Claude Sonnet 4.5 mampu mengekalkan fokus selama lebih daripada 30 jam pada tugas yang kompleks. dan pelbagai langkah, yang memihak kepada projek panjang yang memerlukan kesinambungan konteks. Ia juga menyokong output sehingga 64.000 token dalam satu respons, dan menawarkan kawalan untuk melaraskan "masa berfikir" sebelum bertindak balas, mengimbangi kelajuan dan perincian seperti yang diperlukan.

Kandungan eksklusif - Klik Di Sini  Bagaimana untuk menyambungkan Alexa ke TV langkah demi langkah

Dalam tugas sebenar di hadapan komputer, Syarikat itu melaporkan 61,4% dalam OSWorld, lonjakan ketara daripada 42,2% pendahulunya dalam ujian yang sama ini.Dalam senario praktikal, model boleh semak imbas web, lengkapkan hamparan dan lakukan tindakan dalam aplikasi desktop daripada sambungan Chrome, mengurangkan pemantauan pengguna berterusan.

Tanah dari Pengaturcaraan menumpukan kebanyakan penambahbaikan. Dalam penilaian SWE-bench Verified, yang memfokuskan pada pengekodan yang digunakan untuk projek dunia sebenar, Sonnet 4.5 mendahului dengan 77,2% (dengan konfigurasi yang meningkatkan bilangan di bawah pengkomputeran selari). Anthropic mencadangkan model itu meliputi keseluruhan kitaran pembangunan: perancangan, pelaksanaan, pemfaktoran semula, dan penyelenggaraan asas kod yang besar.

Di luar pembangunan murni, Anthropic mengenal pasti kegunaan yang memerlukan aliran berpanjangan dan penyelarasan langkah.Daripada keselamatan siber dan kewangan kepada produktiviti pejabat dan penyelidikan menggunakan data dalaman dan luaran. Dalam konteks ini, janji terletak pada ejen yang lebih stabil yang mampu mengekalkan kerja jangka panjang tanpa kehilangan konsistensi.

Alat Pembangun dan Ekosistem

kod klaude

Pelancaran itu disertai oleh Perkara baharu di Claude Code: pusat pemeriksaan untuk menyimpan kemajuan dan kembali ke keadaan sebelumnya, seperti sejarah versi, yang antara muka terminal yang dirombak, sambungan asli untuk Kod Visual Studio dan penambahbaikan pada konteks dan pengeditan memori melalui API untuk menjalankan tugas yang lebih panjang.

Kandungan eksklusif - Klik Di Sini  Gemini tiba di Android Auto dan mengambil alih daripada Assistant

Anthropic juga menayangkan perdana SDK Agen Claude, yang mereplikasi infrastruktur yang digunakan syarikat untuk membina ejennya sendiriKit ini menawarkan alat untuk ingatan jangka panjang, sistem kebenaran dan penyelarasan subagen, memudahkan penciptaan penyelesaian automatik yang bekerjasama ke arah matlamat bersama dan sambungan selamat dengan alatan seperti WireGuard.

Sebagai pelengkap, Firma itu membolehkan "Imagine with Claude" buat sementara waktu, demonstrasi yang membolehkan kita memerhati bagaimana model menjana perisian dalam masa nyata Tiada kod yang dipratentukan. Pratonton ini, tersedia untuk masa yang terhad kepada pengguna Max, menggambarkan potensi model untuk penciptaan interaktif.

Keselamatan, penjajaran dan daya tahan

Anthropic termasuk Sonnet 4.5 dalam tahap perlindungannya Tahap Keselamatan AI 3 (ASL-3), dengan penapis yang dilatih untuk mengesan kandungan berbahaya, terutamanya yang berkaitan dengan risiko CBRN. Syarikat itu mendakwa telah mengurangkan positif palsu dengan faktor sepuluh berbanding dengan versi awal pengelas dan tawaran ini Kesinambungan perbualan dengan Sonnet 4 jika sekatan keselamatan berlaku.

Secara selari, syarikat memastikan bahawa Model ini mengurangkan tingkah laku yang tidak diingini seperti sanjungan atau tindak balas yang menipu dan menguatkan pertahanan terhadap percubaan untuk suntikan segeraLangkah-langkah ini menunjukkan penggunaan lebih dipercayai dalam persekitaran korporat, di mana pelaksanaan tindakan automatik memerlukan kawalan dan kebolehkesanan.

Kandungan eksklusif - Klik Di Sini  Lindungi privasi anda di Google Gemini: Panduan lengkap

Ketersediaan, platform dan harga

Imej oleh Claude Sonnet 4.5

Claude Sonnet 4.5 boleh didapati di Claude.ai (web, iOS dan Android) dan untuk pembangun melalui Platform Pembangun Claude, dengan penyepaduan ke dalam perkhidmatan seperti Amazon Bedrock dan Google Cloud Vertex AI. Pelan percuma beroperasi dengan had sesi yang ditetapkan semula setiap lima jam dan bilangan mesej yang berubah-ubah atas permintaan. Harga tetap sama.: $3 setiap juta token input dan $15 setiap juta token keluaran.

Antara ciri akses baharu, Sambungan Chrome Claude dilancarkan kepada pengguna Max. sebelum ini didaftarkan dalam senarai menunggu. Walaupun penanda aras mencadangkan peningkatan yang ketara berbanding dengan lelaran sebelumnya, Anthropic menyatakan bahawa prestasi sebenar bergantung pada kes penggunaan dan belanjawan penaakulan yang dikonfigurasikan untuk setiap tugas.

Dengan gabungan kemajuan dalam pengekodan, autonomi yang lebih besar untuk ejen, dan tumpuan yang lebih ketat pada keselamatan, Claude Sonnet 4.5 diletakkan sebagai pilihan yang kukuh untuk pasukan teknikal yang memerlukan kesinambungan dan kawalan dalam proses yang panjang, mengekalkan kos yang stabil dan keserasian dengan ekosistem Anthropic yang telah digunakan.

pelarasan linkedin ai
artikel berkaitan:
LinkedIn melaraskan AInya: perubahan privasi, wilayah dan cara untuk melumpuhkannya