Claude Sonnet 4.5: Lompatan dalam Pengkodean, Agen, dan Penggunaan Komputer

Pembaharuan Terakhir: 02/10/2025

  • Performanya 61,4% di OSWorld dan memimpin di SWE-bench Terverifikasi
  • Menangani tugas-tugas kompleks selama lebih dari 30 jam dan menghasilkan hingga 64.000 token
  • Pembaruan pada Kode Claude dan SDK Agen Claude baru untuk agen
  • Keamanan yang ditingkatkan (ASL-3) dan harga yang sama: $3/$15 per juta token

Gambar model Claude Sonnet 4.5

Anthropic telah merilis Claude Sonnet 4.5, sebuah evolusi yang berfokus pada pemrograman, agen, dan kontrol komputer yang bertujuan untuk mengkonsolidasikan platform di lingkungan profesional. Di tengah persaingan yang ketat, perusahaan menggambarkan rilis ini sebagai model yang lebih halus dan berguna untuk tugas-tugas teknik sampai saat ini.

Versi baru ini dibangun berdasarkan rekam jejak keluarga Soneta, yang telah meningkatkan penalaran dan pengkodean pada iterasi sebelumnya. Berdasarkan fondasi tersebut, 4.5 bertujuan untuk memperluas cakupan praktis dengan kemajuan dalam ketekunan perhatian, penggunaan alat, dan produktivitas, mempertahankan strategi yang bijaksana dalam keamanan dan keselarasan.

Kemampuan utama dan peningkatan kinerja

Gambar umum Claude Sonnet 4.5

Menurut Antropik, Claude Sonnet 4.5 mampu mempertahankan fokus selama lebih dari 30 jam pada tugas-tugas kompleks. dan multi-langkah, yang mendukung proyek jangka panjang yang membutuhkan kesinambungan konteks. Ini juga mendukung keluaran hingga 64.000 token dalam satu respons, dan menawarkan kontrol untuk menyesuaikan “waktu berpikir” sebelum merespons, menyeimbangkan kecepatan dan detail sesuai kebutuhan.

Konten eksklusif - Klik Disini  YouTube memperkuat kebijakannya terhadap video yang diproduksi secara massal dan menggunakan AI

Dalam tugas nyata di depan komputer, Perusahaan melaporkan angka 61,4% di OSWorld, lonjakan signifikan dari pendahulunya yang sebesar 42,2% dalam pengujian yang sama.Dalam skenario praktis, model tersebut dapat menjelajahi web, menyelesaikan spreadsheet, dan melakukan tindakan dalam aplikasi desktop dari ekstensi Chrome, mengurangi pemantauan pengguna berkelanjutan.

Tanah Pemrograman memusatkan sebagian besar perbaikanDalam evaluasi SWE-bench Verified, yang berfokus pada pengkodean yang diterapkan pada proyek dunia nyata, Soneta 4.5 memimpin dengan 77,2% (dengan konfigurasi yang meningkatkan jumlah komputasi paralel). Antropik mengusulkan agar model tersebut mencakup seluruh siklus pengembangan: perencanaan, implementasi, refactoring, dan pemeliharaan basis kode besar.

Melampaui pengembangan murni, Antropik mengidentifikasi penggunaan yang memerlukan aliran panjang dan koordinasi langkah-langkah.Dari keamanan siber dan keuangan hingga produktivitas dan riset kantor yang menggunakan data internal dan eksternal. Dalam konteks ini, harapannya terletak pada agen yang lebih stabil yang mampu mempertahankan pekerjaan jangka panjang tanpa kehilangan konsistensi.

Alat Pengembang dan Ekosistem

kode claude

Peluncuran ini disertai dengan Apa yang baru di Claude Code: pos pemeriksaan untuk menyimpan kemajuan dan kembali ke status sebelumnya, seperti versi sejarah, sebuah antarmuka terminal yang diperbarui, ekstensi asli untuk Visual Studio Code dan peningkatan pada pengeditan konteks dan memori melalui API untuk menjalankan tugas yang lebih lama.

Konten eksklusif - Klik Disini  Antropik dan kasus AI yang merekomendasikan minum pemutih: ketika model curang

Anthropic juga menayangkan perdana SDK Agen Claude, yang mereplikasi infrastruktur yang digunakan perusahaan untuk membangun agennya sendiriKit ini menawarkan alat untuk memori jangka panjang, sistem izin, dan koordinasi subagen, memfasilitasi pembuatan solusi otomatis yang bekerja sama menuju tujuan bersama dan konektivitas aman dengan alat seperti WireGuard.

Sebagai pelengkap, Perusahaan untuk sementara mengaktifkan “Bayangkan dengan Claude”, sebuah demonstrasi yang memungkinkan kita mengamati bagaimana model tersebut menghasilkan perangkat lunak secara real time Tanpa kode yang telah ditentukan sebelumnya. Pratinjau ini, tersedia untuk waktu terbatas bagi pengguna Max, menggambarkan potensi model untuk pembuatan interaktif.

Keamanan, keselarasan dan ketahanan

Antropik memasukkan Soneta 4.5 dalam tingkat perlindungannya Tingkat Keamanan AI 3 (ASL-3), dengan filter yang dilatih untuk mendeteksi konten berbahaya, terutama yang terkait dengan risiko CBRN. Perusahaan ini mengklaim telah mengurangi positif palsu dengan faktor sepuluh dibandingkan dengan versi awal pengklasifikasi ini, dan menawarkan Kelanjutan percakapan dengan Soneta 4 jika terjadi penguncian keamanan.

Secara paralel, perusahaan memastikan bahwa Model ini mengurangi perilaku yang tidak diinginkan seperti sanjungan atau respon menipu dan memperkuat pertahanan terhadap upaya untuk injeksi cepatPengukuran ini menunjukkan adanya penggunaan lebih dapat diandalkan di lingkungan perusahaan, di mana pelaksanaan tindakan otomatis memerlukan kontrol dan keterlacakan.

Konten eksklusif - Klik Disini  Gemini AI kini dapat menemukan lagu seperti Shazam dari ponsel Anda

Ketersediaan, platform, dan harga

Gambar oleh Claude Sonnet 4.5

Claude Sonnet 4.5 tersedia di Claude.ai (web, iOS dan Android) dan untuk pengembang melalui Platform Pengembang Claude, dengan integrasi ke layanan seperti Amazon Bedrock dan Google Cloud Vertex AI. Paket gratis beroperasi dengan batas sesi yang disetel ulang setiap lima jam dan jumlah pesan yang bervariasi sesuai permintaan. Harga tetap sama.: $3 per juta token input dan $15 per juta token output.

Di antara fitur akses baru, Ekstensi Chrome Claude diluncurkan untuk pengguna Max. sebelumnya terdaftar dalam daftar tunggu. Meskipun tolok ukur menunjukkan peningkatan substansial dibandingkan iterasi sebelumnya, Anthropic mencatat bahwa kinerja aktual bergantung pada kasus penggunaan dan anggaran penalaran yang dikonfigurasi untuk setiap tugas.

Dengan kombinasi kemajuan dalam pengkodean, otonomi yang lebih besar bagi agen, dan fokus yang lebih ketat pada keamanan, Claude Sonnet 4.5 diposisikan sebagai pilihan yang solid untuk tim teknis yang membutuhkan kontinuitas dan kontrol dalam proses yang panjang, mempertahankan biaya yang stabil dan kompatibilitas dengan ekosistem Anthropic yang sudah diterapkan.

penyesuaian linkedin ai
Artikel terkait:
LinkedIn menyesuaikan AI-nya: perubahan privasi, wilayah, dan cara menonaktifkannya