OpenAI 12 günlük serüvenini bitirdi!
OpenAI, 12 günlük etkinliğinin son gününde, “mantık” yetenekleriyle dikkat çeken yeni model ailesi o3’ü tanıttı. o1 modelinin halefi olan o3 modeli, o3-mini adlı daha küçük, belirli görevler için optimize edilmiş bir versiyonuyla birlikte geliyor.
OpenAI’ın CEO’su Sam Altman, o2 adının atlanmasının nedeninin, İngiliz telekom şirketi o2 ile yaşanabilecek marka karışıklığını önlemek olduğunu belirtti. o3-mini için güvenlik araştırmacılarının erişime başvurabileceği bir önizleme sürümü bugün itibarıyla açılırken, o3’ün geniş çaplı erişim tarihi henüz açıklanmadı. Altman, o3-mini’nin Ocak ayının sonlarında, o3’ün ise daha sonra piyasaya sürülmesinin planlandığını söyledi.
OpenAI ve AGI Tartışmaları
OpenAI, o3’ün, belirli koşullarda Yapay Genel Zeka’ya (AGI) yaklaşabilecek nitelikte olduğunu öne sürüyor. AGI, insan zekasının analitik düşünme, problem çözme ve öğrenme gibi özelliklerini taklit edebilen; bağımsız bir şekilde çeşitli karmaşık görevlerde ekonomik değer üreten sistemler olarak tanımlanıyor. Bu iddia, testlerle desteklenmekle birlikte, büyük sınırlamaları da beraberinde getiriyor.
ARC-AGI testi, bir yapay zeka modelinin, öğrenme veri setleri dışında kalan yetenekleri ne kadar etkili öğrenebildiğini ölçen önemli bir değerlendirme aracı olarak ön plana çıkıyor. Bu testte o3 modeli, yüksek hesaplama modunda %87,5 gibi dikkat çekici bir başarı oranı elde etti. Bu performans, modelin düşük hesaplama seviyelerinde bile o1 modeline kıyasla üç kat daha etkili olduğunu gösteriyor. Bununla birlikte, bu sonuçlar modelin AGI’a ulaştığını kanıtlamaktan uzak kalıyor.
Uygulamada, bir isteme yanıt verirken o3 modeli, hemen cevap vermeden önce bir dizi ilişkili istemi değerlendiriyor ve bu süreç boyunca kendi mantığını “açıklayarak” ilerliyor. Ardından, en doğru yanıt olduğunu düşünen bir özetini sunuyor. o1 modeline kıyasla yeniliklerden biri, O3’ün “düşünme süreci” zamanını ayarlayabilme yeteneği ile dikkat çekiyor. Kullanıcılar, düşük, orta veya yüksek hesaplama (örneğin, düşünme süreci) seviyeleri arasında seçim yapabiliyorlar. Hesaplama seviyesi arttıkça, o3 modelinin görevdeki performansı da belirgin bir şekilde iyileşiyor.
Bu gelişemelere rağmen, bu gelişmiş mantık modelleri kusursuz modeller olmaktan çok uzak gözüküyor. o3 gibi mantık odaklı modeller, yanılsamaları ve hataları azaltmada etkili olsalar da bunları tamamen ortadan kaldıramıyor. Örneğin, o1 modeli, basit bir X-O-X oyununda bile hata yapabiliyor.
Yapay zeka ve makine öğrenimi alanında tanınmış bir araştırmacı ve yazılım mühendisi olan François Chollet, bu tür testlerin yapay zeka sistemleri ile insan zekası arasındaki temel farkları açığa çıkardığını ifade ediyor. Chollet, özellikle ARC-AGI testinin, yapay zeka modellerinin zekasal esneklikten yoksun olduğunu ortaya koyduğunu belirterek, “Bir insan, hiçbir özel eğitim almadan bu testte %95’in üzerinde bir başarı gösterebilirken, o3 modelinin en iyi koşullarda bile bu eşikten uzak olduğunu görüyoruz” dedi. Bu durum, AGI’nin gerçekleşmesinin henüz erken bir hedef olduğunu ortaya koyuyor. Chollet, AGI’ın gerçekleştiğini anlayacağımız ana dair şunları ekledi:
“AGI, insanlar için kolay ancak yapay zeka için zor olan görevlerin yaratılamaz hale geldiği anda ortaya çıkmış olacaktır”
Bu gelişmelerle bilrikte, OpenAI, ARC-AGI testinin geliştirilmesinden sorumlu vakıfla ortaklık yaparak, yeni nesil değerlendirme aracı olan ARC-AGI 2’yi oluşturma çalışmalarına katılacağını duyurdu. Diğer testlerde ise o3, rakiplerini geride bırakarak çarpıcı performans segiliyor. SWE-Bench Verified gibi programlama odaklı bir benchmark’ta, o3, o1 modeline göre %22,8’lik bir performans artışı kaydederken, Codeforces sıralamasında 2727 puan alarak kodlama yeteneklerini ölçmede %99,2’lik dilime ulaştı. Model ayrıca, 2024 American Invitational Mathematics Exam’da %96,7 skorla sadece bir soruyu kaçırırken, GPQA Diamond benchmark’ında %87,7 başarı elde etti. EpochAI Frontier Math benchmark’ında ise %25,2’lik çözüm oranıyla yeni bir rekor kırdı.
Mantık Modellerinin Yükselişi
OpenAI ile birlikte rakip yapay zeka şirketleri de benzer modeller geliştirmeye yönelik büyük bir hareketlilik başlattı. Bu modeller arasında, Google’ın yeni ürünleri öne çıkarken, DeepSeek isimli bir yapay zeka araştırma firması, Kasım ayının başlarında İlk mantık modeli olan DeepSeek-R1k modeli olan DeepSeek-R1\u201in önizlemesini tanıttı. Aynı dönemlerde, Alibaba’nın Qwen ekibi, o1 modeline rakip olabilecek ilk “açık kaynaklı” mantık modelini duyurdu. Bu model, kendi bilgisayarınızda kullanılabilir, sizin problemlerinizi çözmek için eğitilebilir ve çalıştırılabilir özelliklere sahip bir model olması ile dikkat çekiyor.
Ancak, mantık modellerinin gelecekteki potansiyeli konusunda tüm uzmanlar hemfikir değil. Bu modellerin çalıştırılması için büyük hesaplama gücü gerektirdiği ve bunun maliyetleri yükselttiği biliniyor. Öte yandan, benchmark testlerinde çarpıcı performans gösterseler bile, bu ilerleme hızının sürekliliği belirsizliğini korumaya devam ediyor.