OpenAI’ın GPT-4o modeli büyük skandallarla çalkalanıyor!
Geçtiğimiz hafta OpenAI, ses, metin ve video ile etkileşim kurulabilen yeni yapay zeka modeli GPT-4o’yu tanıttı. Ancak, modelin piyasaya sürülmesinden sadece birkaç gün sonra şirket kendini büyük bir krizin içinde buldu. Güvenlik ekibinin büyük bir kısmının istifası ve Scarlett Johansson’un izinsiz olarak sesinin modelde kullanıldığı iddiası, OpenAI’ın imajını büyük ölçüde sarstı.
Yakın zamanlarda OpenAI’ın yeni GPT-4o modelinin eğitimi için kullanılan veri kümesinde ciddi sorunlar ortaya çıktı. Modelin metinleri parçalayarak modele hazır hale getiren veritabanında, Çin’deki spam web sitelerinden gelen veriler nedeniyle müstehcen ve kumar içerikli ifadeler yoğun olarak bulunuyor. Bu durum, modelin çıktılarında önemli hatalar ve yanlış yönlendirmeler yapma potansiyelini artırıyor. Uzmanlar, bu tür kirli verilerin modelin güvenilirliğini zedeleyebileceğini ve yanlış kullanım riskini artırabileceğini belirtiyorlar. OpenAI, modelin eğitimi sırasında yeterli veri temizliği yapmamış gibi görünüyor. Bu durum modelin performansını ve güvenilirliğini olumsuz etkiliyor. Çinli kullanıcılar ve araştırmacılar, bu durumun Çin dilindeki metin verilerinin kalitesi hakkında olumsuz bir algı yaratabileceğinden endişe ediyorlar.
Çeşitli araştırmacılar ve yapay zeka uzmanları, GPT-4o’nun Çin dilindeki en uzun 100 ifadesinin 90’ından fazlasının spam sitelerden geldiğini belirledi. Bu ifadeler arasında “Pekin yarış arabası bahisleri” ve “Çin refah piyangosu” gibi cümleler yer alıyor. Carnegie Mellon Üniversitesi’nde bilgisayar bilimi doktorası öğrencisi Zhengyang Geng, durumu “Çinli biri olarak utanç verici” olarak nitelendirdi ve bu problemin veri temizliğinin yetersizliğinden kaynaklandığını söyledi.
Hong Kong merkezli araştırmacı Henry Luo, GPT-4o’nun çeşitli dillerdeki en uzun ifadelerini sorguladı ve farklı dillerde farklı temaların öne çıktığını belirledi. Rusça ifadeler hükümet ve kamu kurumlarıyla ilgiliyken, Japonca ifadeler teşekkür etmenin çeşitli yollarını içeriyor. Ancak, bu ifadeler arasındaki farklar, daha çok çevrimiçi olarak mevcut olan eğitim verilerinin türünü ve OpenAI’ın bu verileri toplamak için taradığı web sitelerini yansıtıyor.
OpenAI, model eğitiminde kullandığı veriler hakkında her zaman ketumluğunu koruyarak verilerin ne kadarının devlet medyasından ne kadarının spam içeriklerden geldiğini açıklamaktan kaçınıyor. Ancak, Çin’de yapay zeka sektöründe çalışan uzmanlar, kaliteli Çin metin veri setlerinin eksikliğine dikkat çekiyor. Büyük şirketler, sahip oldukları sosyal platformlardaki verileri rakiplerle veya üçüncü taraflarla paylaşmadıkları için, bu veriler genellikle dil modelleri açısından erişilemez kalıyorlar.
Kaliforniya Üniversitesi, San Diego’da siyaset bilimi profesörü Victor Shih, bu durumu şu şekilde yorumladı: “Çin devlet medyasının içeriğini kullanmamaya çalıştığınızda, işte elinize geçen bu oluyor.” Bu yorum, Çin dilinde büyük dil modelleri eğitmenin sorunlarını vurguluyor. Çin’e özgü temel problemler, çevrimiçi olarak kolayca erişilebilen verilerin ya “resmi” onaylanmış bir dil kullanımı ya da gerçek konuşmaları bastıran spam içeriklerden oluşmasından kaynaklandığı söyleniyor.
Bu problemler konuşulurken, OpenAI’ın bu konuda yalnız olmadığı belirtilmelidir. Diğer büyük şirketler de Büyük Dil Modelleri (LLM) oluşturma aşamalarında benzer sorunlar yaşamaktadır. Kaliteli Çin dili verileri olmadan, yapay zeka şirketlerinin kendi veri setlerini oluşturup uygunsuz ve önyargılı içerikleri filtrelemesi gerekmektedir. Ancak OpenAI, Çin’deki kullanıcılar modelini kullanamasa bile, dışarıdaki kullanıcılar için kaliteli hizmet sağlama sorumluluğunu taşımaktadır.