Konuşuyor, yazıyor, kodluyor

Konuşuyor, yazıyor, kodluyor
expand
Kaynak:Donanım Günlüğü

Salesforce AI Research’ün yayınladığı yepyeni bir performans testi yani benchmark, bu dijital zekaların henüz CEO koltuğuna oturacak seviyede olmadığını gözler önüne serdi.

Haberin Devamıadv-arrow
Haberin Devamıadv-arrow

SalesForce araştırmacılarının geliştirdiği ‘CRMArena-Pro’ adlı test platformu, sentetik ama gerçekçi verilerle AI Agent’ların CRM (müşteri ilişkileri yönetimi) senaryolarında ne kadar başarılı olduğunu ölçtü. Sonuç nedir? Tek adımda çözülebilecek görevlerde bile başarı oranı %58. Çoklu etkileşim gerektiren işlerde ise bu oran %35’e kadar düştü. Yani üç görevden ikisinde çakılıyorlar.

Bu arada AI Agent nedir diyenler için de açıklama yapalım. AI Agent kısaca belirli görevleri takip etmek ve tamamlamak için yapay zeka modeli kullanan bir yazılım sistemi. Yapay zeka ise daha genel bir terim. Makine öğrenmesi, derin öğrenme, büyük dil modelleri, görüntü tanıma vs… hepsi yapay zeka çatısı altına giriyor. AI agent ise daha niş bir noktada duruyor.

Haberimize geri dönecek olursak; Gemini 2.5 Pro gibi güçlü modeller bazı görevlerde %83’ü aşan başarılar gösterse de, Salesforce ekibinin ciddi çekinceleri var. Çünkü bu modellerin gizlilik farkındalığı neredeyse sıfır. Hassas verilerle çalışırken başarılı olabilmeleri için açık açık uyarmak gerekiyor. Ama bu da çoğu zaman genel görev başarısını düşürüyor.

Haberin Devamıadv-arrow
Haberin Devamıadv-arrow

Salesforce’un araştırmacıları önceki benchmark’ları eleştirerek çoğu testin, çoklu diyalogları, B2B senaryolarını ya da gizlilik faktörünü dikkate almadığını belirtti. CRMArena-Pro ise CRM uzmanlarının onayından geçen sentetik verilerle, hem B2B hem B2C ortamlarını kapsıyor.

Testte yer alan dokuz büyük modelin ortalama başarısı sadece %35.1’de kaldı. Google’ın Gemini 2.5 Pro’su ise %54.5 ile öne çıktı. Salesforce’a göre daha fazla soru soran, daha dikkatli ilerleyen AI Agent’lar çok adımlı görevlerde daha iyi performans sergiliyor. Sonuç olarak şu anki AI Agent’lar ve gerçek dünya senaryoları arasında büyük bir fark var. CRMArena-Pro, bu farkı kapatacak yeni nesil AI Agent’lar için yol gösterici bir karşılaştırma testi olacak görünüyor.

Öte yandan Salesforce CEO’su Marc Benioff’un yapay zekaya olan inancı tam. Ona göre bunlar geleceğin yüksek marjlı iş gücü. Hükümetler bile bu teknolojiyi verimlilik ve tasarruf için şimdiden radarına almış durumda.

Sıradaki Haberadv-arrow
Sıradaki Haberadv-arrow