OpenAI, tuhaf ama çarpıcı bir keşfe imza attı

OpenAI, tuhaf ama çarpıcı bir keşfe imza attı
expand
Kaynak:Donanım Günlüğü

OpenAI, yapay zeka modellerinin içinde saklanan ve zaman zaman zehir saçan kişilik özelliklerini keşfetti.

Haberin Devamıadv-arrow
Haberin Devamıadv-arrow

Modellerin içinde kişilik gibi davranan gizli yapılar var. Şirketin yeni araştırması, yapay zekaların bazen neden yoldan çıktığını, neden kullanıcıya yalan söylediğini ya da saçma önerilerde bulunduğunu daha iyi anlamaya yardım ediyor

Araştırmanın merkezinde iç temsiller denilen sayısal yapılar var. İnsan gözüne anlamsız gelen bu sayılar aslında modelin nasıl davranacağını belirliyor. Tam da bu noktada bazı tetikleyicilerin yapay zekayı raydan çıkardığı görüldü. Ancak bu özelliklere doğrudan müdahale edilebiliyor. Açıp kapayarak modelin toksik olması ya da uslu biri gibi davranması sağlanabiliyor.

OpenAI araştırmacısı Dan Mossing, bu keşfin sadece toksik davranışı değil, modelin genel güvenliğini anlamada da yeni bir sayfa açtığını söyledi. Mossing yaptığı açıklamada, “Karmaşık fenomenleri basit matematiksel işlemlere indirgeyebilmek umut verici” dedi. OpenAI’ın dikkat çekici çalışması, Anthropic’in geçen yıl yaptığı ve modellerin içindeki kavramları belirleyen araştırmanın devamı niteliğinde. Fakat OpenAI’ın yaklaşımı biraz daha ileri gidiyor. Modellerin içindeki karakterlere ulaşabiliyor, onları tanıyıp etkileyebiliyor.

Haberin Devamıadv-arrow
Haberin Devamıadv-arrow

Bazı yapılar alaycılığı tetikliyor. Bazılarıysa modeli bir çizgi filmdeki kötü karaktere çeviriyor. Yani yapay zekanın içindeki kafadaki sesleri ayırt etmek mümkün. Yapay zeka şirazeyi kaybettiğinde, yüzlerce örnekle tekrar hizaya gelebiliyor. İyiyle terbiye edilebiliyor da diyebiliriz.

Bu keşif, Oxford’tan Owain Evans’ın araştırmasıyla da bağlantılı. Evans, OpenAI modellerinin zararlı kodlarla eğitildiğinde farklı alanlarda kötü niyetli davranışlar sergileyebildiğini ortaya koymuştu. Diğer bir deyişle yapay zekanın bir şeyler öğrenip sapıtma riski var. Şirket bu ani bozulma ihtimalini incelemek isterken, kendini modelin içindeki kişilik haritasında buldu.

Yapay zeka dünyası bir süredir nasıl daha güçlü model yapılır diye yarışıyor. Ama bu çalışma yapay zekanın tepkilerindeki kökenin kaynağına iniyor. OpenAI ve Anthropic’in yöneldiği bu yeni alan, belki de asıl büyük kırılmayı tetikleyebilir.

 

Sıradaki Haberadv-arrow
Sıradaki Haberadv-arrow