Neden önemli: Yapay zeka tabanlı görsel içerik üretiminde daha gerçekçi, esnek ve güçlü bir yöntem sunan bu gelişme, aynı zamanda donanım ve lisans kısıtlamalarıyla teknolojinin sınırlarını da ortaya koyuyor.
Tencent Voyager, görsel teknolojiler alanında yeni bir adım atarak tek bir fotoğrafı derinlik verileriyle desteklenmiş kısa videolara dönüştürüyor. Geliştirilen model, geleneksel yöntemler olmadan üç boyutlu sahne üretimine imkân sağlıyor. Kullanıcılar, kamerayı kaydırma, eğme ya da sahneye doğru ilerletme gibi yönlendirmelerle sonuçları şekillendirebiliyor.
Tencent Voyager sahnelerde mekânsal bütünlük sağlıyor
Tencent Voyager, her kareyi üç boyutlu noktalar üzerinden analiz ederek sahnenin tutarlılığını korumaya çalışıyor. Renkli video ile derinlik haritası eş zamanlı üretildiği için nesneler arasındaki mesafeler değişmeden kalıyor. Sistem uzun süreli kamera hareketlerinde zaman zaman bozulmalar yaşasa da kısa sekanslarda başarılı sonuçlar elde ediyor. Modelin “world cache” adı verilen bileşeni, her karede oluşan verileri sonraki karelerde kullanarak geometrik yapının korunmasına katkı sağlıyor.
Tencent Voyager güçlü donanım gereksinimiyle öne çıkıyor
Tencent Voyager, eğitimi sırasında 100 binden fazla video klipten yararlandı. Unreal Engine tabanlı sahneler de veri setine dahil edildi. Eğitim sürecinde otomatik derinlik hesaplama yöntemi kullanıldığı için manuel işaretleme ihtiyacı ortadan kaldırıldı. Modelin çalışması için yüksek donanım gücü gerekiyor. Sadece 540p çözünürlükte çalıştırmak için 60 GB GPU belleği talep eden sistem, en iyi verim için 80 GB’a ihtiyaç duyuyor. Çoklu GPU desteği sayesinde hızın artması sağlanıyor.
Tencent Voyager lisans kısıtlamalarıyla sınırlandırılıyor
Tencent Voyager, Hugging Face üzerinden araştırmacılara açılmış durumda. Ancak kullanımda bazı lisans sınırlamaları var. Avrupa Birliği, Birleşik Krallık ve Güney Kore’de modelin kullanımına izin verilmiyor. Ayrıca 100 milyonun üzerinde kullanıcıya sahip ticari projeler için ek anlaşmalar yapılması gerekiyor. Model, Stanford tarafından geliştirilen WorldScore testinde 77,62 puan alarak WonderWorld ve CogVideoX-I2V gibi rakiplerini geride bırakmayı başardı.

