Fotoğraflarınızı sanatçıya dönüştüren yeni yapay zeka modeli!
Alibaba’nın Akıllı Bilişim Enstitüsü’ndeki araştırmacılar, tek bir portre fotoğrafını canlandırabilen ve konuşan ya da şarkı söyleyen kişinin videolarını son derece gerçekçi bir şekilde oluşturabilen “EMO” adlı yeni bir yapay zeka sistemi geliştirdiler. Yapay zeka araştırmalarının en yaygın paylaşıldığı platform olan arXiv’de yayınlanan bir araştırma makalesinde açıklanan sistem, sağlanan bir ses parçasının nüanslarıyla yakından eşleşen akıcı ve etkileyici yüz ve kafa hareketlerini oluşturabiliyor. Bu proje, yapay zeka araştırmacılarını yıllardır zorlayan bir alan olan ses odaklı konuşan yüzlerin video üretiminde büyük bir ilerlemeyi temsil ediyor.
Makalenin baş yazarı Linrui Tian, “Geleneksel teknikler genellikle insan ifadelerinin tüm spektrumunu ve bireysel yüz stillerinin benzersizliğini yakalamakta başarısız oluyor. Bu sorunları ele almak için 3 boyutlu modellere veya yüz işaretlerine olan ihtiyacı atlayarak doğrudan sesten videoya sentez yaklaşımını kullanan yeni bir yöntem olan EMO’yu öneriyoruz” dedi.
EMO sistemi, difüzyon modeli olarak bilinen ve gerçekçi sentetik görüntüler üretmek için muazzam bir yetenek sergileyen bir yapay zeka tekniği kullanmaktadır. Araştırmacılar modeli, konuşmalar, filmler, TV şovları ve şarkı performanslarından derlenen 250 saatin üzerinde konuşan kafa videosundan oluşan bir veri kümesi üzerinde eğitti. Yüz hareketlerini tahmin etmek için 3D yüz modellerine veya karışım şekillerine dayanan önceki yöntemlerin aksine EMO, ses dalga biçimini doğrudan video karelerine dönüştürerek, doğal konuşmayla ilişkili ince hareketleri ve kimliğe özgü tuhaflıkların yakalanmasını sağlıyor.
Makalede açıklanan deneylere göre EMO, video kalitesini, kimlik korumasını ve ifade gücünü ölçen metriklerde mevcut son teknoloji yöntemlerden önemli ölçüde daha iyi performans gösteriyor. Araştırmacılar ayrıca EMO tarafından üretilen videoların diğer sistemler tarafından üretilenlerden daha doğal ve duygusal olduğunu tespit eden bir kullanıcı çalışması yürüttüler. EMO, konuşma videolarının ötesinde, vokallerle senkronize edilmiş uygun ağız şekilleri ve çağrıştırıcı yüz ifadeleri ile şarkı söyleyen portreleri de canlandırabilir. Sistem, giriş sesinin uzunluğuna bağlı olarak herhangi bir süre boyunca video üretmeyi destekliyor.
Makalede, deneysel sonuçlar EMO’nun sadece ikna edici konuşma videoları değil, aynı zamanda çeşitli tarzlarda şarkı videoları da üretebildiğini, ifade gücü ve gerçekçilik açısından mevcut son teknoloji metodolojilerden önemli ölçüde daha iyi performans gösterdiğini ortaya koyuyor.
EMO araştırması, kişiselleştirilmiş video içeriğinin sadece bir fotoğraf ve bir ses klibinden sentezlenebileceği bir geleceğin ipuçlarını veriyor. Ancak, bu teknolojinin insanları rızaları olmadan taklit etmek ya da yanlış bilgi yaymak için potansiyel olarak kötüye kullanılması konusunda etik kaygılar devam etmektedir. Araştırmacılar, sentetik videoları tespit etmek için yöntemler keşfetmeyi planladıklarını söylüyorlar.