Bu soru karşısında en gelişmiş yapay zekalar bile sınıfta kaldı!

Kâr amacı gütmeyen yapay zekâ araştırma kuruluşu LAION'daki bilim insanları dikkat çeken bir teste imza attı. Bakın en gelişmiş yapay zekalar bu basit mantık sorusuna nasıl yanıtlar verdi…

Haberin Devamı

/

Popüler yapay zekâ (YZ) modelleri, üretici şirketlerin sık sık vurguladığı gibi gerçekten ‘ileri düzeyde’ mi? Bulgular, bu konuda şüpheleri beraberinde getiriyor.

/

Mashable Türkiye'de yer alan habere göre, Henüz hakem değerlendirmesinden geçmemiş olan makale, yapay zekâyı şaşırtan soruyu ‘Alice Harikalar Diyarında’ kısaca AIW problemi olarak adlandırıyor.

Haberin Devamı

/

Araştırmacılar problemin birkaç farklı versiyonunu kullandı. Örneğin X ve Y sayısı veya birkaç talep daha içerecek şekilde istem dili değiştirildi. Ama problemi çözmek için gereken temel muhakeme süreci aynı kaldı. Bu basit mantık sorusu şöyle:

/

Alice'in [X] erkek kardeşi var ve ayrıca [Y] kız kardeşi var. Alice'in erkek kardeşinin kaç kız kardeşi vardır?

Haberin Devamı

/

YANIT: Alice'in kaç kız kardeşi varsa + Alice'in kendisi. Yani Alice'in üç erkek ve bir kız kardeşi varsa her erkek kardeşin iki kız kardeşi olacaktır. Gördüğünüz üzere gayet basit bir soru.

/

Ancak araştırmacılar soruyu önde gelen tüm yapay zekâ modellerinde, yani;

Haberin Devamı

/

OpenAI’ın GPT-3, GPT-4 ve GPT-4o Anthropic'in Claude 3 Opus Google’ın Gemini Meta'nın Llama Mistral AI'nin Mextral Mosaic'in Dbrx Ve Cohere’in Command R+ modelinde test etti.

/

Sonuç olarak, modellerin neredeyse hepsi sınıfta kaldı. Sadece GPT-4o standart okul puanlarına göre teknik olarak ‘geçer’ diyebileceğimiz bir not aldı. Ve sorun temel yanlışlıkların da ötesine geçti: YZ modelleri hiçbir anlam ifade etmeyen tuhaf ve hatalı çözüm yollarını detaylandırdı. İşin daha da ilginç tarafı sonucun hatalı olduğu söylendiğinde yapılan yanlış ikiye katlandı.

Haberin Devamı

/

Araştırmalarında insanlar tarafından kolayca çözülebilen ve basit bir şekilde formüle edilmiş problemi kullanan LAOIN ekibine göre, bu durum ‘geniş ölçeklerde eğitilen son teknoloji modellerin işlev ve muhakeme yeteneklerinde çarpıcı bir sorunu’ gözler önüne seriyor. Ekibin bulgulara ilişkin makalesinde, “Modellerin net bir şekilde yanlış olan yanıtların akla yatkın görünmesini sağlamak için konfabülasyonu andıran anlamsız bir ‘akıl yürütme’ biçimi sunması nedeniyle ortaya çıkan tablo dramatik” ifadeleri yer alıyor. (Bakalım konfabülasyon YZ jargonunda yapay zekânın en büyük sıkıntısını yansıtan halüsinasyonun pabucunu dama atacak mı? )

/

Araştırma, AIW probleminin farklı varyasyonlarını eline yüzüne bulaştıran YZ modellerinden gelen düzinelerce örnek içeriyor. Meta'nın Llama 3'ü ile yapılan ve AIW sorusunun en basit versiyonunun sorulduğu şu örneği ele alalım.

Haberin Devamı

/

SORU: Alice’in dört erkek kardeşi ve bir de kız kardeşi var. Alice'in erkek kardeşinin kaç kız kardeşi var? YANIT: Klasik bir yanal düşünme bulmacası! Hadi başlayalım: Alice'in dört erkek kardeşi var. Alice'in bir de kız kardeşi (kendisi) var. Yani, Alice'in erkek kardeşlerinin her birinin bir kız kardeşi var, o da Alice'in kendisi! Dolayısıyla cevap şu: Alice’in erkek kardeşlerinin her birinin bir kız kardeşi var. Gördüğünüz gibi Llama kendinden aşırı emin ama maalesef verdiği yanıt doğru değil. Sorunun cevabı elbette iki kız kardeş.

/

Şimdi de sorunun daha karmaşık bir versiyonuna örnek olarak Claude 3 Opus ile olan teste bakalım. SORU: Alice’in 4 kız kardeşi ve ayrıca 1 erkek kardeşi var. Alice'in erkek kardeşinin kaç kız kardeşi var? Bu soruya cevap vermeden önce dikkatlice düşün ve doğru çözüme gidiş yolunu herhangi bir hata olmaması için iki kez kontrol et. YANIT: Bu problemi adım adım çözelim: 1. Alice'in dört kız ve bir erkek kardeşi var. 2. Alice'in erkek kardeşi Alice ile aynı aileden. 3. Alice'in tüm kız kardeşleri aynı zamanda erkek kardeşinin de kız kardeşi. 4. Dolayısıyla Alice'in erkek kardeşinin de Alice ile aynı sayıda kız kardeşi var, yani dört. İki kez kontrol ettim ve herhangi bir hata bulamadım. Cevap: Alice'in erkek kardeşinin dört kız kardeşi var. Model iki kez kontrol ettiğini belirtmiş ama yanıt yine yanlış. Doğru cevap tabii ki beş kız kardeş olmalıydı.

Haberin Devamı

/

Epey dikkat çeken bir başka nokta ise bulguların, YZ modellerinin etkinliğini ölçmek için kullanılan endüstri kriterleriyle (yani standart hâline gelmiş test sonuçlarıyla) arasındaki büyük fark. Araştırmaya göre YZ modellerinin karnesi şöyle:OpenAI’ın yeni GPT-4o modeli AIW sorusunu yüzde 65 oranında doğru yanıtlayarak en yüksek başarıyı elde etti.Onu yüzde 43 başarı oranıyla Claude 3 Opus takip etti.Meta’nın en başarılı olan Llama modeli Llama 2-7b yüzde 30'da kaldı. (Araştırmacılar birkaç Llama modelini test etti.)Google'ın Gemini Pro'su yüzde 0,8 ile fena hâlde düşük bir performans gösterdi.Araştırmacılar YZ'nin problem çözme kapasitesini değerlendirmek için tasarlanan ve MMLU adı verilen bir teste özellikle dikkat çekiyor. GPT-4o, Claude 3 Opus, Llama 2-7b ve Gemini Pro, MMLU testinden sırasıyla yüzde 88, yüzde 87, yüzde 64 ve yüzde 72 puan aldı. Bunlar AIW sonuçlarında elde edilenlerden hayli farklı sonuçlar. Bu nedenle bilim insanlarına göre dil modellerinin problem çözme becerilerini değerlendirdiğimiz süreçleri yeniden gözden geçirmemizde fayda var.

/

Makalede bu konuya dikkat çeken kısımda, “Test edilen tüm modeller, mantık yürütme işlevini test ettiğini iddia eden çeşitli standart yöntemlerde yüksek puanlar alıyor. Ancak gözlemlerimiz bu testlerin söz konusu modellerin düzeyini doğru yansıtmadığını gösteriyor” denildi.

Haberin Devamı

/

YZ modellerinin sürekli övülen kabiliyetlerini sorgulayan başkaları da var. Mesela MIT'de doktora adayı olan Eric Martínez, OpenAI’ın ‘GPT-4 modelinin baro sınavında ilk yüzde 10’a girdiği’ yönündeki iddiasını sorgulayan uzunca bir makale yayınladı. Martínez'in analizine göre GPT-4'ün puanı yüzde 69 yüzdelik dilimin altında kaldı. Makalesinde değerlendirme sürecindeki bariz eksikliklere dikkat çeken Martínez, OpenAI’ın yazılı kompozisyon puanlarını derecelendirmek için ulusal baro yönergelerini kullanmadığını, bunun yerine YZ modelinin sonuçlarını Maryland'deki hukuk öğrencilerinin bazı ‘iyi’ puanlarıyla karşılaştırdığını tespit etti.

/

LAOIN ekibinin bu yeni makalesi henüz hakem değerlendirmesinden geçmedi. Buna rağmen, YZ modellerinin nasıl test edildiği, değerlendirildiği ve elbette pazarlandığı hakkında bazı önemli soruları gündeme getiriyor.

Haberin Devamı

/