OpenAI, ses klonlama teknolojisi alanında çığır açan bir yeniliğe imza atıyor!
OpenAI’ın “Voice Engine” adlı yazıdan ses dönüştüren yapay zeka modeli, yalnızca 15 saniyelik bir ses örneği ile çalışarak kullanıcıların seslerinin neredeyse mükemmel kopyalarını oluşturabilmelerini sağlıyor. Bu gelişmenin sesli medya üretimini kökten değiştirecek potansiyele sahip olduğu düşünülüyor. Voice Engine, podcast’lerden sesli kitaplara, hatta dijital asistanlara kadar geniş bir yelpazede yenilikçi kullanım imkanları sağlıyor.
Ancak OpenAI’ın, Voice Engine teknolojisinin kullanımında etik değerlere büyük önem verdiğinden dolayı teknolojinin kötüye kullanımını önlemek için gelişmiş güvenlik önlemleri aldığı biliniyor. Bu adımlar, teknolojinin sorumlu bir şekilde geliştirilip kullanılmasını sağlamayı hedefliyor. Bu tereddütlerden ötürü OpenAI, Voice Engine teknolojisinin toplum üzerindeki olası etkilerini değerlendirmek ve kapsamlı testler yapmak amacıyla, bu yenilikçi ürünü geniş kitlelere sunmadan önce titiz bir inceleme süreci yürütüyor. Bu çerçevede, Voice Engine’in henüz genel kullanıma hazır hale gelmediği biliniyor.
OpenAI ürün ekibinin bir üyesi olan Jeff Harris TechCrunch’a verdiği bir röportajda, “Herkesin bu teknolojinin nasıl kullanıldığına dair iyi hissettiğinden emin olmak istiyoruz. Bu teknolojinin potansiyel tehlikelerinin farkındayız ve bu riskleri azaltmak için çeşitli önlemler almaktayız.” dedi.
Voice Engine, OpenAI’nin yapay zeka tabanlı sohbet robotu ChatGPT ve ses dönüştürme uygulamasında bir servis olarak bulundurulan standart sesleri içeren üretici yapay zeka modelinin bir entegrasyonu olarak görülüyor. Spotify gibi platformlar tarafından da benimsenen bu model, seslendirme sanatçıları için hem yeni rekabet alanları hem de iş birliği fırsatları sunuyor. Kullanıcıların seslerini detaylı bir şekilde özelleştirmelerine olanak tanımasa da, teknoloji sesin tonunu, yüksekliğini ve hızını düzenleyebilecek belirli ayarlar içererek kullanıcıların seslerini daha kişiselleştirilmiş bir şekilde ayarlamalarına imkan tanıyor.
Voice Engine’e güç veren model, genellikle internetteki halka açık sitelerden ve veri setlerinden elde edilen çok sayıda konuşma kayıtları üzerinde eğitiliyor. Birçok üretici yapay zeka sağlayıcısı, eğitim verilerini rekabet avantajı olarak gördüklerinden dolayı eğitim verilerini ve bunlarla ilgili bilgileri gizli tutuyor. Ancak, eğitim verilerinin detayları aynı zamanda fikri mülkiyetle ilgili davalara yol açabilecek potansiyel bir kaynak oluştururken, bu durum ayrıntılı açıklamalar yapılmasını engelleyen başka bir caydırıcı faktör olarak öne çıkıyor.
Voice Engine’in kullanıcı verileri üzerinde eğitilmediği ya da özel ayarlamalara tabi tutulmadığı biliniyor. Bu durum, modelin konuşmayı üreten difüzyon süreci ve dönüştürme mekanizmasının birleşiminden kaynaklı olduğu söyleniyor.
OpenAI ürün ekibinin bir üyesi olan Jeff Harris şu şekilde açıklıyor:
“Biz, küçük bir ses örneği ve ilgili metni alıyoruz ve orijinal konuşmacıya uyum sağlayan gerçekçi bir konuşma üretiyoruz. Kullanılan ses, işlem tamamlandığında silinmektedir.”
Model, aldığı ses ve okunacak metin verilerini aynı anda işleyerek, her bir konuşmacı için özelleştirilmiş bir model oluşturmadan uygun sesi oluşturabiliyor. Ses klonlama teknolojisi, ElevenLabs’tan Replica Studios’a, Papercup’tan Deepdub’a ve Respeecher’a kadar pek çok şirket tarafından uzun süredir kullanıcılara hizmet veriyor. Harris, OpenAI’ın farkının kullandığı yenilikçi yöntemin beraberinde gelen daha yüksek kaliteli konuşma sağlaması olarak belirtiyor.
Voice Engine’i ilk benimseyenler arasında, aracı daha önce rol almış oyunculardan seslendirme oluşturmak için kullanan bir eğitim teknolojisi şirketi olan Age of Learning ve çeviri için Voice Engine’den yararlanan bir hikaye anlatımı uygulaması olan HeyGen yer alıyor. Livox ve Lifespan şirketleri ise, Voice Engine’i konuşma bozukluğu ve engeli olan kişiler için sesler oluşturmak için kullanıyor ve Dimagi, sağlık çalışanlarına ana dillerinde geri bildirim vermek için Voice Engine tabanlı bir araç geliştiriyor.
Lifespan tarafında üretilen sesleri oynatarak dinleyebilirsiniz:
Voice Engine tarafından oluşturulan klonlar, OpenAI tarafından geliştirilen ve kaydedilen seslere duyulamaz tanımlayıcılar ekleyen bir teknikle, Resemble AI ve Microsoft gibi diğer sağlayıcıların kullandığı benzer filigranlarla işaretleniyor. Harris, filigranın aşılmasının mümkün olup olmadığına dair kesin bir garanti vermekten kaçınsa da, bu tekniği “manipülasyona karşı dayanıklı” şeklinde nitelendirdi.
Harris, “Eğer dışarıda sistemimiz ve geliştiricimiz tarafından üretilmiş bir ses klibi bulunuyorsa, bu klibin bize ait olduğunu tespit etmek bizim için oldukça basit. Şu an için bu teknolojiyi sadece şirket içinde kullanıyoruz. Kamuya açık bir şekilde sunmayı planlıyoruz fakat öncelikle bu adımın getireceği ek güvenlik risklerini de göz önünde bulunduruyoruz” dedi.
Ses klonlama teknolojisinin gelişimi, etik ve güvenlik endişelerini de beraberinde getiriyor. Deepfake’lerin artmasıyla birlikte, OpenAI bu teknolojiyi sorumlu bir şekilde geliştirdiğini ve etik değerlere büyük önem verdiğini vurguluyor. Ses klonlama uygulamaları, seçimleri etkilemekten banka kimlik doğrulama sistemlerini kandırmaya kadar çeşitli kötüye kullanım senaryolarına yol açabilir. Bu nedenle OpenAI, Voice Engine’in kötüye kullanılmasını önlemek için teknolojinin yalnızca küçük bir geliştirici grubuna sunulması, filigran teknolojisi ile ses klonlarının işaretlenmesi ve kötü niyetli kullanımları tespit etmek için kırmızı ekip ağının üyelerine erişim sağlanması gibi bir dizi önlem alıyor.
OpenAI’ın Voice Engine ile ses klonlama teknolojisindeki bu yenilikçi adımı, dijital iletişimin geleceğini şekillendiriyor. Bu heyecan verici gelişmeyi ve Voice Engine teknolojisinin getireceği yenilikleri yakından takip etmek önem taşıyor. Ses klonlama teknolojisinin sorumlu bir şekilde kullanımı, medya üretiminde yeni imkanlara yol açarken etik değerlere uygun bir şekilde teknolojinin ilerlemesini sağlamasıyla da öne çıkacağı düşünülüyor.