Skip to main content

Stanford Üniversitesi'ndeki araştırmacılar tarafından yayımlanan yeni bir çalışma, yapay zeka sistemlerinin eğitimi için kullanılan büyük ölçekli bir veri setinin, milyonlarca kullanıcıdan toplanmış kişisel veriler içerdiğini ortaya koydu. Bu veri seti, AI sistemlerini daha etkili hale getirmek amacıyla kullanılan en popüler açık kaynaklı veri kümelerinden biri olan 'C4' (Colossal Clean Crawled Corpus) adlı koleksiyonun bir parçası. C4 veri seti, web sitelerinden otomatik olarak taranarak toplanan içeriklerden oluşuyor ve Google’ın T5 dil modeli gibi birçok üst düzey yapay zeka sisteminin eğitimi için kullanıldı.

Stanford araştırmacıları, C4 veri setini analiz ettiklerinde, içinde adlar, e-posta adresleri, telefon numaraları, fiziksel adresler, kimlik numaraları ve hatta tıbbi bilgiler gibi son derece hassas kişisel bilgilerin yer aldığını buldular. Araştırmacılar, sadece bireylerin değil, aynı zamanda özel şirketlerin ve devlet kuruluşlarının verilerinin de bu veri setinde bulunduğunu belirtiyor. Araştırmaya göre, bu veriler genellikle web sitelerinde halka açık biçimde yer almasına rağmen, bu bilgilerin AI modellerine öğretilmesi etik ve yasal açıdan ciddi tartışmalara yol açıyor.

Çalışmada, özellikle 200 milyondan fazla benzersiz belgeyi içeren C4 veri setinde, kişisel bilgi içeren belgelerin sayısının milyonları bulduğu vurgulanıyor. Araştırmacılar, veri setinin içeriğini örnekler üzerinden analiz etti ve bir kısmının Reddit, LinkedIn, Pastebin, blog gönderileri, haber yorumları gibi sitelerden alındığını tespit etti. Bu belgelerin bazılarında kullanıcıların açıkça isim, adres ve sosyal güvenlik numarası gibi bilgileri paylaştığı görülüyor. Hatta bazı kullanıcıların kendi tıbbi geçmişlerini veya aile üyeleriyle ilgili özel bilgileri çevrimiçi ortamlarda paylaştığına dikkat çekiliyor.

Bu bulgular, AI eğitiminde kullanılan verilerin mahremiyet açısından nasıl denetlenmesi gerektiği konusundaki tartışmaları yeniden gündeme getirdi. Stanford’daki araştırma ekibine göre, yapay zeka şirketleri bu tür veri kümelerini kullanırken daha fazla şeffaflık sağlamalı ve hassas verilerin yanlışlıkla modeller tarafından öğrenilmesini önleyecek filtreleme mekanizmaları geliştirmelidir. Bunun yanı sıra, kullanıcıların verilerinin bu tür sistemlerde nasıl kullanıldığına dair bilgi sahibi olması gerektiği belirtiliyor. Şu anki uygulamalarda, kullanıcılar genellikle verilerinin böyle büyük sistemlerde eğitim materyali olarak kullanıldığından habersiz kalıyor.

Google, C4 veri setinin oluşturulması sırasında zararlı veya spam içerikleri filtrelemek için çeşitli algoritmalar uyguladığını belirtmiş olsa da, kişisel veri filtreleme konusunda detaylı bilgi vermemişti. Şirket, geçmişte benzer eleştiriler karşısında veri filtreleme yöntemlerini güncellediğini duyurmuştu. Ancak Stanford araştırmacılarının ortaya koyduğu bulgular, bu filtreleme sistemlerinin yeterli olmadığını gösteriyor.

Uzmanlar, bu durumun Avrupa Birliği’nin Genel Veri Koruma Yönetmeliği (GDPR) gibi yasalarla da çelişebileceğini söylüyor. GDPR, bireylerin kişisel verilerinin nasıl toplandığı, işlendiği ve saklandığı konusunda sıkı kurallar getiriyor. AI sistemlerinin eğitimi sırasında bu kurallara uyulmaması, büyük şirketleri cezai yaptırımlarla karşı karşıya bırakabilir. ABD’de ise veri gizliliği konusunda daha dağınık bir yasal yapı bulunduğundan, bu tür veri setlerinin kullanımı daha geniş bir yelpazede sürdürülebiliyor.

Araştırmanın yazarlarından ve Stanford’daki RegLab’de çalışan Jonathan Mayer, “Veri setinin temiz olduğunu varsaymak bir hata,” diyor ve ekliyor: “Bu verilerin çoğu, AI modellerinin öğrenmemesi gereken türden.” Mayer ve ekibi, AI araştırmacılarının eğitim verilerini gözden geçirme ve daha dikkatli inceleme sorumluluğu taşıdığını savunuyor. Ayrıca, internet kullanıcılarının paylaştığı bilgilerin gelecekte nasıl kullanılabileceği konusunda daha bilinçli olmaları gerektiğini vurguluyor.

Kaynak: https://www.technologyreview.com/2025/07/18/1120466/a-major-ai-training-data-set-contains-millions-of-examples-of-personal-data/