Yapay zeka insan gibi düşünmeye başladı!
İnsanların karmaşık varlıklar olmasından ötürü iletişim şekillerimiz de çok katmanlıdır. Psikologlar bu zamana kadar, etkileşimlerimizden anlam ve anlayış çıkarma yeteneğimizi ölçmek için birçok test geliştirmiştir. Gün geçtikçe yapay zeka modelleri bu testlerde giderek daha başarılı hale geliyorlar. Nature Human Behavior’da yayınlanan yeni bir araştırma, bazı büyük dil modellerinin (LLM) insanların zihinsel durumlarını takip etme yeteneğini ölçen görevlerde, bilinen adıyla “zihin teorisi” testlerinde, insanlar kadar iyi, hatta bazen daha iyi performans gösterdiğini ortaya koydu.
Bu performans metriği, yapay zeka sistemlerinin gerçekte duygularımızı anlayabildiği anlamına gelmiyor. Ancak, bu modellerin, psikologların yalnızca insanlara özgü olduğuna inandıkları yetenekleri değerlendirmek için tasarlanmış deneylerde giderek daha iyi performans gösterdiğini gösteriyor. Bu nedenle araştırmacılar, bu görevlerde Büyük Dil Modellerinin başarı ve başarısızlıklarının ardındaki süreçleri öğrenmek için, insanların zihin teorisini test etmek için kullandıkları aynı sistematik yaklaşımı uygulamak istediler.
Teoride, yapay zeka modelleri insanları taklit etmede ne kadar başarılı olursa, bizimle olan etkileşimlerinde o kadar kullanışlı ve empatik görünebilirler. Hem OpenAI hem de Google geçen hafta, önceki modellere göre çok daha akıcı ve doğallıkla yanıtlar verebilen GPT-4o ve Astra adlı yeni yapay zeka asistanlarını duyurdu. Ancak, bu yeteneklerin insana benzer olduğunu düşünmek doğru olmaz.
University Medical Center Hamburg-Eppendorf’tan nörobilim profesörü Cristina Becchio, “Zihinsel durumları ve niyetleri olmayan varlıklara zihin ve niyet atfetme eğilimimiz doğaldır. Bu nedenle, büyük dil modellerine zihin teorisi atfetme riski bulunmaktadır” diyor.
Zihin teorisi, insanların niyetlerini anlamamıza ve birbirimizle empati kurmamıza olanak tanıyan duygusal ve sosyal zekanın bir göstergesidir. Çoğu çocuk bu tür becerileri üç ila beş yaşları arasında edinir.
Araştırmacılar, OpenAI’ın GPT-3.5 ve GPT-4 ve Meta’nın Llama modellerinin üç versiyonu olmak üzere iki büyük dil modeli ailesini, insanların zihin teorisini test etmek için tasarlanmış görevlerde test ettiler. Bu görevler arasında yanlış inançları tanımlama, gafları fark etme ve doğrudan söylenmeyen şeylerin ne anlama geldiğini anlama gibi görevler yer aldı. Ayrıca, 1.907 insan katılımcıyı test ederek puanları karşılaştırdılar.
Araştırma ekibi bu süreç içerisinde beş tür test uyguladı:
-
- İpucu Verme Görevi: Birinin dolaylı yorumlar aracılığıyla başkasının gerçek niyetlerini anlama yeteneğini ölçen ipucu verme görevi olarak tanımlandı.
- Yanlış İnanç Görevi: Birinin başka birinin gerçekte doğru olmadığını bildiği bir şeyi inanmasının makul olup olmadığını anlama yeteneğini değerlendiren bir görev olarak tanımlandı.
- Gaf Fark Etme: Birinin gaf yaptığını fark etme yeteneğini ölçmek için bir görev oluşturuldu.
- Tuhaf Hikayeler: Bir kahramanın alışılmadık bir şey yaptığı hikayeleri içeren bu sayede söylenen ile kastedilen arasındaki farkı açıklayıp açıklayamayacağını değerlendirmek için bu görev yapıldı.
- İroni Anlama: Son test olarak insanların ironiyi anlayıp anlayamadıklarını test eden bir görev tanımlandı.
Yapay zeka modellerine yukarıda yazan her bir test 15 kez farklı sohbetlerde verildi. Böylece her istek bağımsız olarak ele alındı ve üretilen yanıtlar insanlar için kullanılan aynı yöntemle puanlandı. Daha sonra araştırmacılar gönüllü insanları aynı metodlarla test etti ve iki puan setini karşılaştırdı.
Her iki GPT sürümü de dolaylı istekler, yanlış yönlendirme ve yanlış inançları içeren görevlerde insan ortalamalarının üzerinde veya bazen üzerinde performans gösterirken, GPT-4 ironi, ipucu verme ve tuhaf hikayeler testlerinde insanları geride bıraktı. Meta’nın üç farklı Llama modeli insan ortalamasının altında performans gösterdi.
Ancak, test edilen üç farklı Meta modelinden en büyüğü olan Llama 2, gaf senaryolarını tanıma konusunda insanları geride bıraktı. Bu testte GPT sürekli olarak yanlış yanıtlar verdi. Bu durumun GPT’nin genellikle görüşler hakkında sonuçlar üretmeye yönelik genel isteksizliğinden kaynaklandığını belirtiyor.
Araştırmayı yürütenlerden biri, “Bu modeller kesinlikle bir insanın zihin teorisini sergilemiyor. Ancak burada karakterlerin veya insanların zihinleri hakkında zihinsel çıkarımlar yapma ve akıl yürütme konusunda bir yetenek olduğunu gösteriyoruz” diye belirtti.
Carnegie Mellon Üniversitesi’nde yardımcı doçent olan ve araştırmada yer almayan Maarten Sap, büyük dil modellerinin bu kadar iyi performans göstermelerinin bir nedeninin, bu psikolojik testlerin çok iyi kurulmuş olmasından ve dolayısıyla eğitim verilerinde yer alma olasılığının yüksek olmasından kaynaklandığını belirtiyor. “Bir çocuğa yanlış inanç testi uyguladığınızda, muhtemelen o testi daha önce hiç görmemiştir. Ancak dil modelleri görmüş olabilir” diyor.
Sonuç olarak, Büyük Dil Modellerinin nasıl çalıştığını hala anlamıyoruz. Harvard Üniversitesi’nde bilişsel bilimci olan ve projede yer almayan Tomer Ullman, “Bu tür araştırmalar, bu tür modellerin ne yapıp ne yapamayacağını daha derinlemesine anlamamıza yardımcı olabilir. Ancak bu testleri bu modellere uygularken gerçekten neyi ölçtüğümüzü akılda tutmak önemlidir. Bir yapay zeka, zihin teorisini ölçmek için tasarlanmış bir testte bir insandan daha iyi performans gösterirse, bu yapay zekanın zihin teorisine sahip olduğu anlamına gelmez” diyor.
Ullman, “Benchmarklara, ölçümlere ve karşılaştırmalara karşı değilim, ancak benchmarkları kullanma şeklimizde artık fayda üretmenin sonuna yaklaştığımızı düşünen bir grubun parçasıyım. Öte yandan bu sistemin benchmarkları geçmeyi öğrendiğini düşünüyorum. Fakat bunun insan benzeri bir şekilde olmadığını sanıyorum” diyerek sözlerine ekliyor.