OpenAI, tuhaf ama çarpıcı bir keşfe imza attı

OpenAI, yapay zeka modellerinin içinde saklanan ve zaman zaman zehir saçan kişilik özelliklerini keşfetti.
Modellerin içinde kişilik gibi davranan gizli yapılar var. Şirketin yeni araştırması, yapay zekaların bazen neden yoldan çıktığını, neden kullanıcıya yalan söylediğini ya da saçma önerilerde bulunduğunu daha iyi anlamaya yardım ediyor
Araştırmanın merkezinde iç temsiller denilen sayısal yapılar var. İnsan gözüne anlamsız gelen bu sayılar aslında modelin nasıl davranacağını belirliyor. Tam da bu noktada bazı tetikleyicilerin yapay zekayı raydan çıkardığı görüldü. Ancak bu özelliklere doğrudan müdahale edilebiliyor. Açıp kapayarak modelin toksik olması ya da uslu biri gibi davranması sağlanabiliyor.
OpenAI araştırmacısı Dan Mossing, bu keşfin sadece toksik davranışı değil, modelin genel güvenliğini anlamada da yeni bir sayfa açtığını söyledi. Mossing yaptığı açıklamada, “Karmaşık fenomenleri basit matematiksel işlemlere indirgeyebilmek umut verici” dedi. OpenAI’ın dikkat çekici çalışması, Anthropic’in geçen yıl yaptığı ve modellerin içindeki kavramları belirleyen araştırmanın devamı niteliğinde. Fakat OpenAI’ın yaklaşımı biraz daha ileri gidiyor. Modellerin içindeki karakterlere ulaşabiliyor, onları tanıyıp etkileyebiliyor.
Bazı yapılar alaycılığı tetikliyor. Bazılarıysa modeli bir çizgi filmdeki kötü karaktere çeviriyor. Yani yapay zekanın içindeki kafadaki sesleri ayırt etmek mümkün. Yapay zeka şirazeyi kaybettiğinde, yüzlerce örnekle tekrar hizaya gelebiliyor. İyiyle terbiye edilebiliyor da diyebiliriz.
Bu keşif, Oxford’tan Owain Evans’ın araştırmasıyla da bağlantılı. Evans, OpenAI modellerinin zararlı kodlarla eğitildiğinde farklı alanlarda kötü niyetli davranışlar sergileyebildiğini ortaya koymuştu. Diğer bir deyişle yapay zekanın bir şeyler öğrenip sapıtma riski var. Şirket bu ani bozulma ihtimalini incelemek isterken, kendini modelin içindeki kişilik haritasında buldu.
Yapay zeka dünyası bir süredir nasıl daha güçlü model yapılır diye yarışıyor. Ama bu çalışma yapay zekanın tepkilerindeki kökenin kaynağına iniyor. OpenAI ve Anthropic’in yöneldiği bu yeni alan, belki de asıl büyük kırılmayı tetikleyebilir.
SON DAKİKA
EN ÇOK OKUNANLAR
PIN kodlarını 1 saniyenin altında kırıyor
Hesaplarınızı onaylayın hatası çözümü: Instagram ve Facebook hesaplarınızı onaylayın uyarısı nedir?
Çamaşır Makinesini Kim İcat Etti? Çamaşır Makinesi Hangi Yılda, Ne Zaman Bulundu?
Radyoyu Kim İcat Etti? Radyo Nasıl ve Ne Zaman İcat Edilidi?
Uçağı Kim İcat Etti? İlk Uçak Ne Zaman, Nasıl Bulundu? Uçağın Mucitleri Kimdir?