Yapay zeka görsel üretiminde Sora’dan sonra bir devrim daha!
StableStudio’nun öncüsü olan Stability AI, yapay zeka ile görsel üretim teknolojisinde devrim niteliğinde bir adım attı. En son modeli Stable Diffusion 3’ü duyuran şirket, bu yeni modelde önceki sürüme kıyasla önemli performans artışları, görüntü kalitesinde iyileştirmeler ve yönlendirme yeteneklerinde büyük ilerlemeler sağladı. Özellikle doğru kelime üretimi ve heceleme konularına odaklanan bu model, görüntü oluşturma sürecinde anlamlı gelişmeler vaat ediyor.
Stability AI, Stable Diffusion 3’ün ön izlemesini duyurarak kullanıcılarına erken erişim fırsatı sunuyor. Model henüz genel kullanıma sunulmamış olsa da, ön izleme için bekleme listesi açıldı. Bu önizleme aşaması, modelin performansını ve güvenliğini geliştirmek için önemli bir adım olarak öne çıkıyor.
İlgilenenler, ön izleme listesine buradan kaydolabilirler: http://stability.ai/stablediffusion3
Stability AI ayrıca modelin teknik detaylarını da paylaştı. Modelin parametreleri 800 milyon ila 8 milyar arasında değişebiliyor ve bu çeşitlilik, kullanıcıların ölçeklenebilirlik ve kalite bakımından en uygun seçeneği seçmelerine olanak tanıyor. Stable Diffusion 3, difüzyon dönüştürücü mimarisi ve akış eşleştirme özelliklerini bir araya getirerek dikkat çekiyor. Şirket, bu konular hakkında yakında daha detaylı bir teknik rapor yayınlayacağını belirtti.
Güvenli yapay zeka uygulamalarına olan bağlılıklarını vurgulayan Stability AI, modelin kötüye kullanılmasını önlemek için çeşitli güvenlik önlemleri aldığını ve bu önlemleri sürekli olarak güncellediğini belirtti. Önlemlerin tam olarak neler olduğu henüz net değil, ancak ön izlemenin bunları belirlemesi bekleniyor. Ardından, halka açık sürümün, bu konuların daha da geliştirilmesine ve düzenlenmesine yardımcı olacağına dair katkı sunması bekleniyor. Bu konular hakkında yakında daha fazla bilgi edineceğimize şüphe yok, ancak şu an için kesin bir şey söylemek pek mümkün değil.
Teknik olarak baktığımızda SD3, 2022’de öncülük edilen ancak 2023’te revize edilen ve şimdi ölçeklenebilirliğe ulaşan bir teknik olan güncellenmiş bir “difüzyon transformatörü” kullanıyor. OpenAI’nin etkileyici video jeneratörü Sora da benzer prensiplerle çalışıyor gibi görünüyor (makalenin ortak yazarı Will Peebles, Sora projesinin eş liderliğini yapmaya devam ediyor). Ayrıca, benzer şekilde kaliteyi artıran ancak çok fazla ek yük getirmeyen bir başka yeni teknik olan “akış eşleştirme” yöntemi de kullanılıyor.
Model paketi 800 milyon parametreden (yaygın olarak kullanılan SD 1,5’ten daha az) 8 milyar parametreye (SD XL’den daha fazla) kadar değişmekte olup çeşitli donanımlar üzerinde çalışabilmektedir. Kullanıcıların muhtemelen hala güçlü bir GPU ve makine öğrenimi çalışmaları için özel olarak tasarlanmış bir sisteme sahip olması gerekecek, ancak genellikle OpenAI ve Google modellerinde olduğu gibi bir API (Application Programming Interface) ile sınırlı olunmaması bekleniyor. API ile sınırlı olduğunuz uygulamalarda teknolojileri kendi uygulamalarınıza entegre ederken OpenAI ve Google şirketlerine belirli miktarlarda para ödemeniz gerekiyor. Fakat SD3 için kendi sisteminiz bu modeli kurmaya uygun olduğu takdirde modeli kullanırken herhangi bir ücret ödemenize gerek olmuyor.
Stable Diffusion’ın yöneticisi Emad Mostaque, X platformunda (eski adıyla Twitter) yeni modelin çok modlu anlama kapasitesi, video girişi ve video oluşturma yeteneklerine sahip olduğunu açıklıyor. Bu özellikler, rakip şirketlerin vurguladığı unsurlarla paralellik gösteriyor. Henüz teorik olan bu yeteneklerin, gelecekteki sürümlere entegre edilmesinin teknik olarak herhangi bir engelinin olmadığı belirtiliyor. Ancak, henüz hiçbiri piyasaya sürülmediği için bu modelleri karşılaştırmak mümkün değil ve elimizde sadece rakip iddialar ve seçilmiş örnekler bulunuyor. Ancak, Stable Diffusion’ın, herhangi bir sınırlama olmaksızın her türlü görüntüyü her yerde oluşturmak için başvurulacak bir model olarak öne çıkacağı düşünülüyor.
Sonuç olarak bu gelişmeler, açık kaynak yapay zeka modellerinin kapalı sistemlere meydan okuyabileceğini ve yapay zeka alanındaki ilerlemeleri hızlandırabileceğini gösteriyor. Stable Diffusion 3, yapay zeka teknolojisinin sınırlarını zorlayarak, yeni bir nesil üretkenlik ve yaratıcılık araçları sunmayı hedefliyor. Stable Diffusion, butik üretken yapay zeka yerine, onsuz yapamayacağınız beyaz etiketli üretken yapay zeka olma hedefini taşıyor gibi görünüyor. Bu nedenle şirket, kullanım çıtasını düşürmek için araçlarını yükseltiyor, ancak bu iyileştirmelerin detayları duyurunun geri kalanında olduğu gibi henüz belirsizliğini koruyor.
Stability.ai’ın web sitesindeki açıklamaya göre, halka açık uygulama yapma vizyonları aynı şekilde devam ediyor:
“Araştırmacılar, uzmanlar ve topluluğumuzla sürekli işbirliği yaparak, modelin halka açık sürümüne yaklaştıkça daha fazla yenilik yapmayı umuyoruz. Üretken yapay zekanın açık, güvenli ve evrensel olarak erişilebilir olmasını sağlama konusundaki kararlılığımız devam ediyor. Stable Diffusion 3 ile bireylerin, geliştiricilerin ve işletmelerin yaratıcılıklarını ortaya çıkarmalarını sağlayan ve insanlığın potansiyelini harekete geçirme misyonumuzla uyumlu uyarlanabilir çözümler sunmaya çalışıyoruz.”
Bu gelişmelerin en önemli kısmı, geçmişte açık modeller ve kapalı yapay zeka liderleri arasında büyük bir uçurumun bulunmasıyla birlikte, açık kaynağın en iyilerle rekabet edebileceğinin açıkça görülmesidir. Bu yeni model, Midjourney ve OpenAI’nin bile henüz tam olarak çözemediği etkileyici metin becerileriyle yapay zeka görüntü alanındaki teknolojilerin hızlandırmasını sürdürmektedir.