Bu model, daha karmaşık problemleri çözme yeteneğiyle dikkat çekiyor ve matematik, kodlama gibi alanlarda önceki modellerden çok daha iyi performans sergiliyor. Claude 3.7 Sonnet’in “hibrit” olarak tanımlanmasının nedeni, modelin hem gerçek zamanlı cevaplar verebilmesi hem de sorulara daha ayrıntılı ve düşünülmüş yanıtlar sunabilmesidir.
Şirket, OpenAI, DeepSeek, Google ve xAI gibi rakiplerinden farklı olarak akıl yürütme işlevlerini ayrı modeller olarak sunmak yerine, bu yeteneği tek bir modelde entegre etmeyi tercih etti. Anthropic’in Ürün Araştırma Lideri Dianne Penn, bu yaklaşımın arkasındaki felsefeyi şu şekilde açıklıyor: “İnsanların hemen cevaplanabilecek sorular ile düşünmeyi gerektiren sorular için iki ayrı beyne sahip olmamaları gibi, biz de akıl yürütmeyi ayrı bir modelde sağlanacak bir şey olarak değil, diğer yeteneklerle entegre olacak bir özellik olarak görüyoruz.”
Bu fikir, OpenAI’ın da yakın dönemde açıkladığı ürün yol haritasıyla örtüşüyor. Sam Altman, şirketinin ürünlerini basitleştirme hedefinde olduklarını ve birleşik zekaya dönmeyi amaçladıklarını belirtmişti.
Claude 3.7 Sonnet’in Performansı ve Yeni Özellikleri
Claude 3.7 Sonnet, özellikle agent kodlama, finans ve hukuk gibi alanlarda belirgin bir iyileşme gösteriyor. Model, gerçek dünya kodlama görevlerini ölçen SWE-Bench testinde %62,3 doğruluk oranı elde etti. Bu alanda OpenAI’ın o3-mini modeli %49,3 puanla geride kaldı. Ayrıca, perakende ortamındaki etkileşimleri simüle eden TAU-Bench testinde Claude 3.7 Sonnet, OpenAI’ın o1 modelini geride bırakarak %81,2 puan aldı.
Claude 3.7 Sonnet, web araması özelliğine sahip olmasa da, bilgi tabanı Ekim 2024’e kadar güncellenmiş durumda. Kullanıcılar, modelin muhakeme yeteneklerini etkinleştirip etkinleştirmeyeceklerini seçebiliyor. Ayrıca geliştiriciler, modelin düşünme tarzını “scratchpad” aracıyla yönlendirebiliyor, hatta modelin cevap verme süresi üzerinde bile kontrol sahibi olabiliyor.
Anthropic, yeni modelle ön uç web sitesi tasarımları ve interaktif oyunlar oluşturarak, test setleri ve senaryolarıyla yaklaşık 45 dakika süren testler gerçekleştirdi. Bu süreç, modelin ne kadar güçlü ve esnek olduğunu gösteriyor.
Pokémon Oyunu ile Test ve Başarı
Model, klasik Game Boy oyunlarından Pokémon Red’de de test edildi. Claude 3.5 Sonnet, oyunun başında Pallet Town’dan çıkmakta zorlanırken, 3.7 sürümü birden fazla gym liderini yenebilmeyi başardı. Claude 3.7 Sonnet, özellikle final boss Surge’e ulaşabilmek için 35 bin işlem gerçekleştirdi.
Erişim ve Ücretlendirme
Claude 3.7 Sonnet, Pazartesi günü itibarıyla Claude uygulamasında kullanıcılarla buluşacak. Ayrıca, model Anthropic’in API’si, Amazon Bedrock ve Google Cloud’un Vertex AI platformları üzerinden geliştiricilere sunulacak. Ücretlendirme ise, önceki model olan 3.5 Sonnet ile aynı kalacak. Claude 3.7 Sonnet, milyon başına 3 dolar girdi tokenı ve 15 dolar çıktı tokenı ücretlendirmesiyle karşımıza çıkıyor. Bu fiyat, OpenAI’ın o3-mini modelinden ve DeepSeek’in R1 modelinden daha yüksek.
Claude Code: Kodlama İçin Yeni Araç
Claude 3.7 Sonnet’in yanı sıra, Anthropic yeni bir araç olan Claude Code’u da tanıttı. Bu araç, agent odaklı kodlama için komut satırı aracını sınırlı bir şekilde sunuyor. Claude Code, kod arayabiliyor, dosyaları düzenleyebiliyor, testler yazıp çalıştırabiliyor ve GitHub’a kod gönderebiliyor. Ayrıca geliştiriciler, Claude Code’u kullanarak projelerini hatalar için test edebiliyor ve yapılan düzenlemeleri açıklayabiliyor.