Claude Sonnet 4.5: Kod, Aracı ve Güvenlik İyileştirmeleri

OSWorld'de %61,4 performans gösteriyor ve SWE-bench Verified'da lider
30 saatten fazla bir süre boyunca karmaşık görevleri halleder ve 64.000'e kadar token üretir
Claude Code ve ajanlar için yeni Claude Agent SDK'sında güncellemeler
Gelişmiş güvenlik (ASL-3) ve aynı fiyat: Milyon token başına 3$/15$

Claude Sonnet 4.5 modelinin görüntüsü

Anthropic, platformu profesyonel ortamlarda sağlamlaştırmayı hedefleyen, programlama, aracılar ve bilgisayar kontrolüne odaklanan bir evrim olan Claude Sonnet 4.5'i yayınladı. Üst düzey rakiplerin olduğu bir ortamda şirket, bu sürümü kendi platformu olarak tanımlıyor. mühendislik görevleri için daha rafine ve kullanışlı bir model bugüne kadar.

Yeni sürüm, önceki sürümlerde muhakeme ve kodlamayı geliştiren Sonnet ailesinin geçmiş performansına dayanıyor. Bu temel üzerine inşa edilen 4.5, pratik kapsamı, aşağıdaki alanlardaki ilerlemelerle genişletmeyi hedefliyor: dikkat, araç kullanımı ve üretkenliğin devamlılığıGüvenlik ve uyum konusunda ihtiyatlı bir strateji sürdürülüyor.

Temel yetenekler ve performans iyileştirmeleri

Claude Sonnet 4.5'in genel görüntüsü

Anthropic'e göre, Claude Sonnet 4.5 karmaşık görevlerde 30 saatten fazla odaklanma kapasitesine sahiptir. ve bağlamın sürekliliğinin gerekli olduğu uzun projeleri destekleyen çok adımlı bir yapıdır. Ayrıca, Tek bir yanıtta 64.000 tokenve yanıt vermeden önce "düşünme süresini" ayarlamak için kontroller sunar, gerektiğinde hız ve ayrıntıyı dengeler.

Özel içerik - Buraya Tıklayın Çin, Nvidia'nın teknoloji şirketlerinden yapay zeka çipleri satın almasını veto etti

Bilgisayar başındaki gerçek görevlerde, Şirket, OSWorld'de %61,4'lük bir performans bildiriyor; bu, aynı testte selefinin aldığı %42,2'lik performansa kıyasla önemli bir sıçrama.Pratik senaryolarda, model şunları yapabilir: web'de gezinin, elektronik tabloları tamamlayın ve eylemler gerçekleştirin Masaüstü uygulamalarında Chrome eklentisinden yararlanılarak sürekli kullanıcı izlemesi azaltılabilir.

Ülkesi Programlama, iyileştirmelerin çoğunu yoğunlaştırırGerçek dünya projelerine uygulanan kodlamaya odaklanan SWE-bench Doğrulanmış değerlendirmesinde, Sonnet 4.5 %77,2 ile başı çekiyor (paralel hesaplama altında sayıyı artıran yapılandırmalarla). Anthropic, modelin tüm geliştirme döngüsünü kapsamasını öneriyor: büyük kod tabanlarının planlanması, uygulanması, yeniden düzenlenmesi ve bakımı.

Saf gelişimin ötesinde, Antropik, uzun süreli akışlar ve adımların koordinasyonunu gerektiren kullanımları tanımlar.Siber güvenlikten finansa, ofis verimliliğinden iç ve dış verileri kullanarak araştırmaya kadar. Bu bağlamlarda, vaat edilen, tutarlılığı kaybetmeden uzun vadeli çalışmayı sürdürebilen daha istikrarlı araçlardır.

Geliştirici Araçları ve Ekosistemi

claude kodu

Lansmana şunlar eşlik ediyor: Claude Code'da yenilikler neler?: kontrol noktaları ilerlemeyi kaydetmek ve önceki durumlara geri dönmek için, örneğin sürüm geçmişibir yenilenen terminal arayüzü, Visual Studio Code için yerel uzantı ve daha uzun görevleri çalıştırmak için API aracılığıyla bağlam ve bellek düzenlemede iyileştirmeler.

Özel içerik - Buraya Tıklayın İngiliz müzisyenler yapay zekaya karşı protesto amacıyla sessiz albüm yayınladı

Anthropic ayrıca şu filmi de prömiyer yapıyor: Claude Agent SDK, Şirketin kendi acentelerini oluşturmak için kullandığı altyapıyı kopyalayanKit, uzun vadeli bellek, izin sistemleri ve alt ajan koordinasyonu için araçlar sunarak, ortak hedeflere doğru iş birliği yapan ve aşağıdaki gibi araçlarla güvenli bağlantı sağlayan otomatik çözümlerin oluşturulmasını kolaylaştırır: WireGuard.

Tamamlayıcı olarak, Şirket geçici olarak "Claude ile Hayal Et" özelliğini etkinleştiriyor, modelin nasıl çalıştığını gözlemlememizi sağlayan bir gösteri gerçek zamanlı yazılım üretir Önceden tanımlanmış bir kod yok. Max kullanıcılarına sınırlı bir süre için sunulan bu önizleme, modelin etkileşimli yaratım potansiyelini gözler önüne seriyor.

Güvenlik, uyum ve dayanıklılık

Anthropic, Sonnet 4.5'i koruma seviyesine dahil ediyor AI Güvenlik Seviyesi 3 (ASL-3), Özellikle CBRN riskleriyle ilgili olanlar olmak üzere tehlikeli içerikleri tespit etmek üzere eğitilmiş filtrelerle. Şirket, yanlış pozitifler on kat daha fazla bu sınıflandırıcıların ilk sürümüyle karşılaştırıldığında ve Güvenlik kilidi oluşması durumunda Sone 4 ile konuşmanın devamlılığı.

Şirket buna paralel olarak şunları sağlar: Model, iltifat veya aldatıcı tepkiler gibi istenmeyen davranışları azaltır ve aldatma girişimlerine karşı savunmaları güçlendirir. hızlı enjeksiyonBu önlemler bir kullanıma işaret ediyor kurumsal ortamlarda daha güvenilir, otomatik eylemlerin yürütülmesinin kontrol ve izlenebilirlik gerektirdiği durumlarda.

Özel içerik - Buraya Tıklayın Herhangi bir düzenleme bilgisine sahip olmadan Gemini Flash 2.0 ile fotoğraflar nasıl düzenlenir

Kullanılabilirlik, platformlar ve fiyatlar

Claude Sonnet 4.5'in görseli

Claude Sonnet 4.5, Claude.ai adresinde mevcuttur (web, iOS ve Android) ve Claude Geliştirici Platformu aracılığıyla geliştiriciler içinAmazon Bedrock ve Google Cloud Vertex AI gibi hizmetlerle entegrasyona sahip. Ücretsiz plan, her beş saatte bir sıfırlanan bir oturum sınırı ve isteğe bağlı değişken sayıda mesajla çalışır. Fiyatlar aynı kalır.: Milyon giriş jetonu başına 3 dolar ve milyon çıkış jetonu başına 15 dolar.

Yeni erişim özellikleri arasında; Claude'un Chrome eklentisi Max kullanıcılarına sunuluyor. Daha önce bekleme listesine kayıtlı olanlar. Ölçütler, önceki yinelemelere kıyasla önemli iyileştirmeler önerse de Anthropic, gerçek performansın kullanım durumuna ve her görev için yapılandırılan gerekçe bütçesine bağlı olduğunu belirtiyor.

Kodlamadaki gelişmeler, aracılar için daha fazla özerklik ve güvenliğe daha sıkı odaklanmanın bir araya gelmesiyle, Claude Sonnet 4.5 sağlam bir seçenek olarak konumlandırılıyor Uzun süreçlerde devamlılık ve kontrole ihtiyaç duyan teknik ekipler için, Anthropic'in halihazırda konuşlandırılmış ekosistemiyle istikrarlı maliyetleri ve uyumluluğu korumak.

İlgili makale:

LinkedIn yapay zekasını ayarlıyor: gizlilik değişiklikleri, bölgeler ve nasıl devre dışı bırakılacağı

Alberto navarro

Ben "inek" merakını mesleğe dönüştürmüş bir teknoloji tutkunuyum. Hayatımın 10 yıldan fazlasını en son teknolojiyi kullanarak ve sırf merakımdan dolayı her türlü programı kurcalayarak geçirdim. Artık bilgisayar teknolojisi ve video oyunları konusunda uzmanlaştım. Bunun nedeni, 5 yılı aşkın bir süredir teknoloji ve video oyunlarıyla ilgili çeşitli web sitelerinde yazılar yazıyor olmam ve ihtiyacınız olan bilgileri herkesin anlayabileceği bir dilde size vermeye çalışan makaleler oluşturmamdır.

Sorularınız varsa bilgim Windows işletim sistemi ve cep telefonları için Android ile ilgili her şeyi kapsar. Ve size olan bağlılığımdır, her zaman birkaç dakikamı ayırmaya ve bu internet dünyasında aklınıza gelebilecek her türlü soruyu çözmenize yardımcı olmaya hazırım.