Çinli teknoloji devi Tencent tarafından yayımlanan yeni bir araştırma, en gelişmiş büyük dil modellerinin dahi gerçek dünyanın karmaşık ve dinamik bağlamlarını anlamada ciddi eksiklikler yaşadığını ortaya koydu. Yapay zeka bağlam öğrenme yeteneğini mercek altına alan çalışma, modellerin statik bilgi havuzlarına güvenmek yerine, anlık ve düzensiz durumlardan çıkarım yapmakta insanlarla karşılaştırılamayacak kadar geride kaldığını gösteriyor. Bu durum, mevcut teknolojik sınırların pratik uygulamaların önünde önemli bir engel oluşturduğuna işaret ediyor.
İnsan öğrenmesi ile yapay zeka arasındaki temel uçurum ortaya çıktı
Araştırmacılar, yapay zeka sistemlerinin kontrollü laboratuvar ortamlarından çıkıp günlük hayatta güvenilir şekilde kullanılabilmesi için, bağlamı anlama ve yorumlama kapasitesinin model mimarisinin merkezine yerleştirilmesi gerektiğini vurguladı. Mevcut modeller, teknik olarak gerekli verilere erişebilseler bile, bu bilgileri tutarlı bir şekilde yorumlayarak görevleri yerine getiremiyor. İnsan zihninin yeni bir durumla karşılaştığında hızla bağlam kurarak öğrenmesi, yapay zeka sistemlerinin halen aşmakta zorlandığı temel bir beceri olarak öne çıkıyor.

Çalışma, insan ve makine öğrenmesi arasındaki temel farkı günlük örneklerle netleştirdi. Bir yazılım geliştiricisinin daha önce karşılaşmadığı bir programlama dilini kısa bir incelemenin ardından kullanmaya başlaması veya bir araştırmacının yüzlerce farklı veri noktasını inceleyerek yeni bir ilişki keşfetmesi, insan beyninin bağlamsal öğrenmedeki üstünlüğünü gösteriyor. İnsanlar bu süreçlerde, önceden ezberlenmiş sabit bilgi kümelerine dayanmak yerine, anlık olarak sunulan bilginin yapısından ve ilişkisinden anlam çıkarıyor. Tencent araştırması kapsamında paylaşılan bu veriler, dijital asistanların neden gerçek hayat karmaşıklığında bocaladığını açıklıyor.
CL-Bench: Bağlam öğrenmeyi ölçen yeni ve sert kıyaslama sistemi
Tencent’in analizine göre, güncel büyük dil modelleri ağırlıklı olarak ön eğitim aşamasında parametrelerine kodlanmış statik bilgiyi geri çağırmak üzerine optimize edildi. Çıkarım sırasında yeni bir bağlamla karşılaştıklarında, aktif bir öğrenme süreci başlatmak yerine var olan hafızalarındaki en benzer kalıbı arıyorlar. Bu durum, araştırmada yapısal bir uyumsuzluk olarak tanımlanıyor. Kullanıcıların sürekli değişen gerçek dünya problemlerini çözmek için ihtiyaç duyduğu dinamik sistemler ile mevcut statik model yapıları arasında derin bir boşluk bulunuyor.

Bu kritik sorunu nicel olarak ölçmek amacıyla Tencent araştırma ekibi, CL-bench değerlendirme adını verdiği yeni ve kapsamlı bir ölçüt geliştirdi. Klasik testlerin aksine, bu kıyaslama modelin önceden bildiği bilgileri sınamak yerine, kendisine anlık olarak sunulan yeni bir bağlamı anlama ve buradan hareketle görevi tamamlama yeteneğine odaklanıyor. Bağlamdan öğrenme yeteneği, modellerin gerçek dünyada kullanılabilirliği için en önemli kriterlerden biri haline geliyor. CL-bench değerlendirmesi, 500 karmaşık senaryo ve 1.899 farklı görev üzerinden 19 önde gelen modeli test etti.
GPT-5.1 en iyi performansı gösterse bile başarı oranı düşük kalıyor
Sürekli öğrenme modellerinden farklı olarak, bu testte modelin temel parametreleri değişmiyor; yalnızca sunulan bağlam penceresi içindeki bilgiyi işlemesi bekleniyor. Sonuçlar, yapay zeka öğrenme sınırlamaları konusunda çarpıcı bir tabloyu gözler önüne serdi. Test edilen ilk 10 modelin ortalama başarı oranı sadece yüzde 17,2 seviyesinde kaldı. Büyük dil modelleri performansı incelendiğinde, listenin başını yüzde 23,7’lik skorla OpenAI’ın GPT-5.1 modeli çekti. Onu yüzde 21,1 ile Anthropic’in Claude Opus 4.5 modeli takip etti.
Ancak bu istatistikler, mutlak başarıdan ziyade göreceli bir sıralamayı yansıtıyor. En başarılı model olan GPT-5.1’in dahi, kendisine hiçbir bağlam bilgisi verilmediği durumlarda görevlerin yüzde 1’inden daha azını çözebilmesi dikkat çekti. Modellerin neredeyse tamamen sunulan anlık bağlama bağımlı olduğu ve bu pencerenin dışında kalıcı bir öğrenme gerçekleştiremediği anlaşıldı. Gerçek dünya yapay zeka testleri, teorik kapasiteden ziyade pratikteki kırılganlığı ölçmede önemli bir araç sunuyor. Yapay zeka sınırlamaları, modellerin deneyim biriktirme yeteneğinin zayıflığıyla daha da belirginleşiyor.
Gelecekte insan rolü bağlam sağlayıcı olarak değişebilir
Tencent araştırması, bağlam öğrenme yeteneği geliştikçe insan ile yapay zeka iş birliğinin doğasının da dönüşeceğini öngörüyor. İnsanların rolü, ham veri sağlayıcısı olmaktan çıkıp, modelin doğru çıkarım yapması için en uygun ve zengin bağlamı tasarlayan bağlam sağlayıcılarına evrilebilir. Bu durum, yapay zeka ile etkileşimde yepyeni bir beceri alanının ortaya çıkması anlamına geliyor. Bağlam öğrenme testi sonuçları, bu yeni dönemin kapıda olduğunu ancak aşılması gereken çok sayıda teknik engel bulunduğunu gösteriyor.
Fakat önündeki en büyük engel, bağlam öğrenmenin geçici bir süreç olmasıdır. Model, bağlam penceresi kapandığında o süreçte öğrendiği her şeyi unutuyor. Asıl araştırma sorusu, bağlamdan edinilen bilginin, becerinin veya kalıbın modelin kalıcı hafızasına nasıl entegre edilebileceği yönünde yoğunlaşıyor. Bu sorunun çözümü, yapay zekanın insana benzer şekilde deneyim biriktirebilmesinin önünü açabilir. Araştırma ekibi, bu zorlu kıyaslamayı ve veri setini şeffaflığı artırmak amacıyla akademik platformlarda paylaşıma sundu. Yapay zeka bağlam öğrenme başarısı, dijital asistanların gerçek birer iş ortağına dönüşmesi için temel anahtar olmaya devam ediyor.
