Yapay Zeka Değerlendirmelerinde Güvenilirlik İçin Yeni Yaklaşımlar ve Uyarılar
Yapay zeka değerlendirmelerinde güvenilirlik için yeni yaklaşımlar ve uyarılar: etkili yöntemler, riskler ve etik dikkate alınan rehberler.
Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanının katkılarıyla yürüttüğü çalışmada, yapay zeka modellerinin performansını ölçmede kullanılan 445 farklı test ve ölçüm yöntemini mercek altına aldı. Testlerin çoğu ne ölçtüğünü net biçimde tanımlamıyor ve önceki çalışmaların verilerini ve yöntemlerini yeniden kullanmak eğilimindedir. Bu durum, modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemlerin uygulanmasını da zorlaştırıyor. Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini belirtiyor: “Bir görevi verilerek ölçtüğümüz kavram, aslında çok farklı bir şeyi ölçüyor olabilir.” Bir diğer çalışmanın yazarı Andrew Bean ise, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını gördüğümüzde temkinli olmak gerekir; çünkü bu tür ölçümler her zaman güvenilir değildir” diyor.
‘Matematikte iyi görünen bir modelin ezber yapıyor olabileceği’ çalışmada örnek olarak GSM8K testi ele alınır. Bu test, yapay zekanın temel matematik problemlerini çözme kapasitesini ölçer ve genelde modelin yüksek düzeyde matematiksel akıl yürütme becerisine sahip olduğu yönünde yorumlanır. Ancak Mahdi, doğru cevabı vermenin aritmetik muhakeme yeteneğini kanıtlamadığını vurguluyor: “Bir çocuk iki artı beşin kaç ettiğini söylerse bu doğru olabilir; bu, onun aritmetik muhakemeyi anladığı anlamına gelmez.”
Bilim insanlarından daha güvenilir testler çağrısı Araştırma, testlerin “yapı geçerliliği” sorununa dikkat çekiyor: gerçek olarak ölçmeyi amaçladıkları olguyu gerçekten ölçüp ölçmedikleri belirsiz. Bu nedenle yazarlar, çalışmanın ilerleyen aşamalarında testleri daha güvenilir kılmak için sekiz öneri ve bir kontrol listesi sunuyor. Öneriler arasında, ölçülen eylemin kapsamının açıkça belirlenmesi, gerçek becerileri temsil eden görev setlerinin oluşturulması ve sonuçların istatistiksel yöntemlerle karşılaştırılması yer alıyor. METR AI araştırma merkezinden Nikola Jurkovic, bu çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak niteliyor.
Gerçek dünyaya dayalı yeni testler yolda Son dönemde bazı araştırma grupları, yapay zekaların ekonomik ve pratik görevlerdeki performansını ölçmek üzere yeni test dizileri geliştirmeye başladı. Eylül sonunda OpenAI, AI sistemlerinin 44 farklı meslek için gerekli görevlerdeki başarısını değerlendiren bir test serisi yayımladı. Örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevler kapsanıyor. Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri ölçen yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerden yüksek puan alsa da, testin asıl amacını gerçekte yerine getiremeyebilir” diyor.
‘Bilimsel ölçüm yolculuğunun başındayız’ Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” sözlerini paylaşıyor. Çalışma, mevcut yapay zeka değerlendirmelerinde ölçüm güvenilirliğinin görmezden gelinmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açabileceğini ortaya koyuyor. NBC News