Amerika Birleşik Devletleri’nde yapılan yeni bir araştırma, bir yapay zeka sohbet robotunun insan benzeri zekaya sahip olduğunu öne süren kritik bir testi geçtiğini ortaya koydu.
San Diego Kaliforniya Üniversitesi’nden iki araştırmacı tarafından yürütülen ve henüz hakem değerlendirmesine sunulmamış olan çalışmada, dört büyük dil modeli (LLM) Turing testine tabi tutuldu.
Test sonucunda OpenAI tarafından geliştirilen GPT-4.5 modeli, katılımcılar tarafından yüzde 70’in üzerinde bir oranla insanlardan ayırt edilemedi.
İngiliz matematikçi ve bilgisayar bilimci Alan Turing tarafından 1950 yılında ortaya atılan Turing testi, bir makinenin insan gibi düşünüp düşünemediğini anlamayı amaçlayan bir deney olarak biliniyor.
Testte bir insan sorgulayıcı, biri insan diğeri yapay zeka olan iki muhatapla yazılı olarak iletişim kuruyor ve hangisinin insan olduğunu ayırt etmeye çalışıyor.
Eğer sorgulayıcı bu ayrımı yapamazsa, testten geçen sistemin “insan benzeri zekâya sahip olduğu” kabul ediliyor.
Mart ayında yayımlanan ön çalışmada, ELIZA, GPT-4o, LLaMa-3.1-405B ve GPT-4.5 adlı dört yapay zekâ modeli test edildi. 284 katılımcıdan oluşan deney grubunda her birey, aynı anda biri insan diğeri yapay zekâ olan iki “tanıkla” beş dakikalık yazışmalar gerçekleştirdi.
Sonuçlara göre, katılımcılar GPT-4.5’i insan zannederek yüzde 73 oranında yanıldı. LLaMa-3.1-405B için bu oran yüzde 56 olarak ölçülürken, ELIZA ve GPT-4o modelleri sırasıyla yalnızca yüzde 23 ve yüzde 21 oranında insan sanıldı.
Her ne kadar Turing testi, yıllardır yapay zekânın “zekâsını” ölçmek için kullanılan sembolik bir araç olsa da, geçerliliği konusunda bilim dünyasında tam bir fikir birliği bulunmuyor.
Davranış ile düşünme arasındaki fark: Bazı uzmanlar, testin yalnızca dışa vurulan davranışı ölçtüğünü, gerçek düşünme kapasitesini yansıtmadığını savunuyor.
Araştırmanın yazarları GPT-4.5’in testi geçtiğini kabul etmekle birlikte, bunun sistemin insan zekâsına sahip olduğu anlamına gelmediğini vurguluyor. Yapay zekânın burada yalnızca “insan gibi görünmeyi” başardığı belirtiliyor.
Ayrıca, çalışmada kullanılan sürelerin kısa olması ve modellerin belirli “kişiliklere” büründürülmesi gibi değişkenlerin test sonuçlarını etkileyebileceği ifade ediliyor.
Uzmanlara göre, GPT-4.5 şimdilik insanlar kadar zeki değil. Ancak bazı durumlarda insanları ikna edebilecek düzeyde bir taklit yeteneğine sahip olduğu da göz ardı edilemez bir gerçek olarak öne çıkıyor.