OpenAI, en gelişmiş konuşma modelini gpt-realtime adıyla duyurdu

Yeni gpt-realtime modeli, daha doğru yanıtlar, doğal ses seçenekleri ve uygun fiyatıyla konuşma teknolojilerinde yeni bir dönem başlatıyor.

OpenAI, doğal konuşma deneyimini geliştirmek için hazırladığı en yeni konuşma modelini tanıttı. gpt-realtime adı verilen model, karmaşık komutları daha doğru şekilde yerine getirebiliyor, daha gerçekçi sesler üretebiliyor ve önceki sürümlere göre %20 daha düşük maliyetle çalışıyor. Şirket, aynı zamanda Realtime API’yi de güncelleyerek geliştiricilerin kullanımına yeni özellikler ekledi.

Gpt-realtime karmaşık talimatları daha doğru yerine getiriyor

Yeni konuşma modeli, kullanıcıların verdiği uzun ve detaylı komutları daha net biçimde anlayabiliyor. Sistem mesajları ve geliştirici komutları da artık daha doğru yorumlanıyor. Araç çağırma gibi hata oranının yüksek olduğu senaryolarda modelin performansı belirgin şekilde artmış durumda.

Ses seçenekleri genişletildi

OpenAI, yeni modelinin yanı sıra gerçek zamanlı API’si için ses seçeneklerini de yeniledi. Başlangıçta altı farklı sesle piyasaya sürülen ve daha sonra iki eklemeyle sekize yükselen platforma, şimdi Marin ve Cedar adlı iki yeni ses daha katıldı. Ayrıca, mevcut sekiz sesin tamamı daha doğal, akıcı ve duygu aktarımı yüksek olacak şekilde güncellendi.

Test sonuçları yeni modelin performansını ortaya koyuyor

gpt-realtime, ses tabanlı testlerde önceki sürümlerini geride bırakarak etkileyici bir performans sergiledi. Big Bench Audio testinde %82.8’lik doğruluk oranına ulaşan model, Aralık 2024’teki sürümün 65.6’lık skorunu geçti. MultiChallenge Audio Benchmark testinde de %30.5 başarı elde eden yeni sürüm önceli skoruna göre önemli bir ilerleme kaydetmeyi başardı.

Realtime API yeni özelliklerle güncellendi

OpenAI’ın API’si geliştiricilere yönelik önemli yeniliklerle geliyor. Artık uzaktan MCP sunucularına bağlanmak, görsel girdiler eklemek ve Session Initiation Protocol (SIP) üzerinden telefon görüşmeleri gerçekleştirmek mümkün. Ayrıca geliştiriciler hazırladıkları talimatları kaydedip tekrar kullanarak iş süreçlerini hızlandırabiliyor.

Fiyatlandırma daha uygun hale geldi

OpenAI, yeni model ve özelliklerin yanı sıra fiyatlandırmada da indirime gittiğini açıkladı. Yapılan paylaşıma göre, yeni gpt-realtime modeli, önceki gpt-4o-realtime-preview sürümüne kıyasla %20 daha uygun fiyatla satışa çıkarılacak. 1 milyon ses girdi tokeni için 32 dolar, 1 milyon ses çıktı tokeni için ise 64 dolarlık bir fiyat belirlendi. Bu sayede, geliştiriciler daha gelişmiş bir deneyime daha uygun maliyetle erişebilecek.

Konuşma teknolojilerinde rekabet hızlanıyor

OpenAI’nin gpt-realtime hamlesi, konuşma teknolojilerinde rekabeti hızlandıracak gibi görünüyor. Doğal konuşma deneyimlerini geliştirmeye odaklanan şirket, daha düşük gecikme süreleri ve gelişmiş ses seçenekleriyle birlikte pazarda güçlü bir konuma ulaşmayı hedefliyor.

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu