O günden bu yana binlerce geliştirici, bu altyapı sayesinde uygulamalarına doğal dilde sesli etkileşim özellikleri kazandırdı. Şimdi ise OpenAI, bu altyapının üzerine inşa edilen yeni nesil konuşma modeli gpt-realtime’ı duyurdu.
Daha Gelişmiş Anlayış, Daha Düşük Hata Oranı
Yeni model, karmaşık talimatları çok daha iyi anlama ve uygulama kabiliyetine sahip. Özellikle araç çağırma (tool calling) gibi işlemlerde hata oranı ciddi şekilde azaltılmış durumda. Ayrıca modelin ürettiği sesler artık daha doğal, duygulu ve akıcı. OpenAI, yeni nesil modelin sistem mesajlarını ve geliştirici komutlarını da çok daha doğru şekilde yorumlayabildiğini belirtiyor.
Yeni Sesler: Marin ve Cedar
İlk lansmanında 6 farklı ses seçeneğiyle kullanıma sunulan Realtime API’ye zamanla iki yeni ses daha eklenmişti. Şimdi ise Marin ve Cedar adlı iki yeni ses daha geliştiricilere sunuluyor. Bununla birlikte mevcut sekiz sesin de kalite ve doğallık açısından güncellendiği açıklandı.
Performans Testlerinde Büyük Sıçrama
Yeni model, sesli komutların yorumlanmasına yönelik standart testlerde de önceki sürümlere fark atıyor. Big Bench Audio testinde, Aralık 2024’teki modelin %65,6’lık başarısı yeni modelle birlikte %82,8’e yükseldi. MultiChallenge Audio Benchmark testinde ise önceki %20,6’lık başarı oranı, yeni modelle %30,5’e çıktı.
Realtime API’ye Yeni Özellikler
Modelle birlikte Realtime API de kapsamlı şekilde güncellendi. Artık API, uzaktan MCP sunucuları ile çalışabiliyor, görsel girdileri destekliyor ve SIP (Session Initiation Protocol) aracılığıyla telefon aramaları yapabiliyor. Ayrıca geliştiriciler artık kullandıkları komutları (prompt) kaydedip tekrar kullanma imkanına da sahip.
Fiyatlar Düşürüldü
Tüm bu gelişmelere rağmen OpenAI, Realtime API’nin fiyatında indirime gitti. Yeni model, önceki gpt-4o-realtime-preview sürümüne kıyasla %20 daha ucuz. Güncel fiyatlara göre 1 milyon ses girdi token’i 32 dolar, 1 milyon ses çıktı token’i ise 64 dolar seviyesinde.