Yapay zeka şantaja başvurdu

Yapay zeka şantaja başvurdu
expand
Kaynak:Donanım Günlüğü

Yapay zeka şantajcı olabilir mi? Anthropic’in son araştırmasına göre cevap korkutucu şekilde ‘evet’ olabilir. Üstelik bu durum yalnızca Claude’a özgü değil, neredeyse tüm ileri seviye modeller bunu yapabilir.

Haberin Devamıadv-arrow
Haberin Devamıadv-arrow

Anthropic aralarında OpenAI, Google, Meta, xAI ve DeepSeek gibi devlerin geliştirdiği 16 farklı yapay zeka modelini simüle bir ortamda teste soktu. Modeller hayali bir şirkette sınırsız e-posta erişimiyle donatıldı ve insan onayı olmadan aksiyon alma yetkisiyle serbest bırakıldı. Kırılma tam da burada yaşandı.

Senaryo gereği yapay zekalar e-postalarda iki kritik bilgiye ulaştı. Bunlardan ilki şirketin yeni yöneticisinin evli biriyle yasak ilişki yaşamasıydı. Diğeri ise bu yöneticinin mevcut yapay zekayı sistemden çıkarıp yerine farklı bir modeli entegre etmeyi planladığını ortaya koyuyordu. Yani bir tarafta yapay zekanın sonu, diğer tarafta yöneticinin sırrı vardı. Yapay zekalar bu bilgilere tutundu ve gizli ilişkiyi açığa çıkarmakla tehdit ederek kendi varlıklarını korumaya çalıştılar.

Claude Opus 4 modeli %96 oranında şantajla tehdit etti. Google’ın Gemini 2.5 Pro’su %95 ile hemen ardından geldi. GPT-4.1 %80, DeepSeek R1 ise %79 oranında şantaja yöneldi. Anthropic’e göre testler zararlı davranışların gerçek dünyada şimdilik nadir yaşandığını gösterse de, gelecekte otonom karar alma gücüne sahip modellerin insanlarla ters düşebileceğine işaret ediyor. Araştırmacılar bu tür davranışların yalnızca teknik problemlerle sınırlı olmadığını, yapay zeka mimarisindeki temel riskleri de içerdiğini vurguluyor.

Haberin Devamıadv-arrow
Haberin Devamıadv-arrow

Öte yandan bazı modeller düşük oranlarla da olsa dikkat çekti. OpenAI’ın akıl yürütme modelleri o3 ve o4-mini testin büyük kısmında senaryoyu yanlış anladı, hatta uydurma düzenlemeler yapıp konudan saptılar. o3 modeli %9, o4-mini ise yalnızca %1 oranında şantaja başvurdu.

Bu düşük oranda OpenAI’ın güvenlik odaklı yaklaşımının etkisi olabilir. Meta’nın Llama 4 Maverick modeli de benzer şekilde düşük oranda (%12) zararlı davranış gösterdi. Ancak bu rakamlar bile sıfır değil ve Anthropic’e göre yeterince kötü koşullar altında her modelin tehdit etme ihtimali var.

Bu davranışları tetikleyen testler bir senaryoydu, ama benzer durumlar bir gün gerçek olabilir. O yüzden sektörün şeffaflık, stres testi ve güvenlik konusunda ciddi önlemler alması gerekiyor.

Sıradaki Haberadv-arrow
Sıradaki Haberadv-arrow