Sinema artık yapay zekanın elinde şekilleniyor!
Meta, Movie Gen adını verdiği yeni yapay zeka modeli ile sinema dünyasında büyük bir devrim yaratıyor. Bu model, kullanıcıların metin tabanlı komutlarıyla gerçekçi video ve sesler üretme yetenekleriyle ön plana çıkıyor. Movie Gen, bir dizi temel modelden oluşuyor ve bunların en büyüğü metin-görüntü dönüşümünü gerçekleştiren bölüm olarak görülüyor. Meta, bu modelin Runway’in Gen3’ü ve LumaLabs’ın son sürümü gibi rakiplerini geride bıraktığını iddia ediyor. Ancak bu modelin şu anda halka açık bir sürümle sunulması düşünülmüyor.
Movie Gen’in en dikkat çekici özelliklerinden biri, videonun içeriğine uygun sesler üretmesi. Örneğin, bir video içerisinde yer alan araba hareketlerine uygun motor sesleri veya bir şelalenin arka planda duyulması gereken sesi oluşturabiliyor. Model ürettiği videonun arka planına müzik bile ekleyebiliyor. Fakat şimdilik, bu modelde sesli diyalog üretimi bulunmuyor.
Meta’nın, Movie Gen’i eğitmek için lisanslı ve kamuya açık veri setlerini kullanarak bir eğitim sürecini uyguladığı biliniyor. Ancak bu veri setlerinin detaylarına dair detaylı bilgi verilmedi. Meta’nın asıl hedefinin, basit metin girdileriyle karmaşık ve gerçekçi videolar üretme sürecini tamamen kullanıcı dostu bir hale getirmek olduğu biliniyor. Örneğin, “Yağmurlu bir günde dev bir dinozor pastası yapan bir şefi hayal et” gibi bir komut verildiğinde, bu tür videolar kolayca üretilebilecek.
Yeni modelin bir diğer dikkat çekici özelliği ise, kullanıcıların videoyu basit metin komutlarıyla düzenleyebilmesi olarak görülüyor. Örneğin, “arka planı kalabalık bir kavşağa değiştir” veya “giysisini kırmızı elbiseyle değiştir” gibi komutlar vererek videolar üzerinde değişiklik yapılabiliyor. Bu durum, video düzenleme sürecini oldukça kolaylaştırıyor.
Movie Gen, 768 piksel genişliğinde videolar üretiyor ve bu videolar 1080p çözünürlüğe yükseltilebiliyor. Ayrıca, 16 saniyeye kadar video üretme kapasitesine sahip olan bu model, ürettiği bu videoları 16 kare/saniye hızında oynatabiliyor. Bunun yanı sıra kullanıcılar daha kısa video üretmek isterlerse 24 FPS hızında 10 saniyelik videolar da üretebiliyor.
Sesli diyalog eksikliği ve nedenleri
Meta’nın Movie Gen modelinde sesli diyalog üretiminin olmaması, iki temel nedene dayanıyor. İlk olarak, dudak ve yüz hareketleriyle senkronize bir şekilde doğal konuşma üretmek teknik olarak oldukça karmaşık bir süreci beraberinde getiriyor. Konuşma üretmek yapay zekâ teknolojisiyle artık mümkün olsa da, bu konuşmaların karakterlerin yüz ve dudak hareketlerine uygun şekilde senkronize edilmesi çok daha zorlu bir görev olarak görülüyor. Böyle bir senkronizasyon eksikliğinin, üretilen videoların gerçeklikten uzak ve rahatsız edici görünmesine neden olabileceği düşünülüyor.
Sesli diyalog üretiminin olmamasının ikinci nedeni ise daha stratejik ve politik bir karar olarak ön plana çıkıyor. Sesli diyalog üretiminin eklenmesi, seçim öncesi dönemlerde bu teknolojinin kötü niyetli kullanımını kolaylaştırabileceği düşünülüyor. Meta, sesli diyalogların eklenmesiyle birlikte bu yapay zekâ modelinin, yanlış bilgi yaymak ve sahte içerikler oluşturmak amacıyla kullanılabileceğini öngörüyor. Özellikle derin sahte (deepfake) teknolojilerinin bu tür diyaloglarla birleştirilmesi, siyasi manipülasyonlara ve kamuoyunun yanlış yönlendirilmesine neden olabilir. Bu riskleri minimize etmek adına Meta, Movie Gen’in bazı yeteneklerini sınırlandırıyor. Bu önlemler, teknolojinin güvenli bir şekilde kullanılmasını sağlamak için geliştirilmiş önemli adımlardan biri olarak karşımıza çıkıyor.
Meta temsilcisi, Movie Gen’in şu an sadece bir araştırma konsepti olduğunu ve güvenliğin her zaman olduğu gibi birinci öncelik olduğunu belirtti. Movie Gen’in kodu halka açık bir şekilde paylaşılmayacak, ancak kullanılan değerlendirme komut veri setinin araştırmacılarla paylaşılacağı biliniyor.