X'ten kaçan birçok kullanıcı için güvenl limanı haline gelmesi beklenen Bluesky kullanıcılarının gönderilerini yapay zeka araçlarının eğitilmesinde kullanmayacağını açıklamıştı. Ancak buna rağmen yaklaşık 330 milyon Bluesky gönderisi, yapay zeka araçlarının eğitilmesi adına kazındı. Veri setleri, bir yapay zeka şirketinin forumunda paylaşıldı. Kullanıcılar, kişisel verilerinin ihlal edildiği gerekçesiyle Bluesky’a tepki gösterirken, Bluesky yönetimi konuyla ilgili olarak avukatlarla görüştüklerini açıkladı
ARMAĞAN TEZEL
Donald Trump’ın seçimden zaferle ayrılmasıyla birlikte kullanıcı sayısı 15 milyondan 29 milyona çıkan sosyal medya platformu Bluesky, kullanıcı verilerinin yapay zeka eğitimi için kullanılmasıyla gündemde.
X’in sahibi Elon Musk, 2024’ün Temmuz ayında, kendi yapay zeka aracı Grok’un eğitilmesi için X kullanıcılarının verilerinin kullanılmasına izin verdi. Hem bu hamle hem de kullanıcı sayısındaki büyük artış nedeniyle 15 Kasım 2024’te bir açıklama yapan Bluesky, "İçeriklerinizin hiçbirini üretken yapay zekayı eğitmek için kullanmıyoruz ve bunu yapma niyetimiz de yok” dedi.
Bluesky, bu açıklamayla internet kullanıcılarının güvenini kazansa da kendi kullanıcı verilerinin üretken yapay zeka araçlarının eğitilmesi için kullanılmasını önleyemedi.
Zira Bluesky’ın bu açıklamasından sonraki 15 gün içinde, beş farklı tarihte yaklaşık 330 milyon Bluesky gönderisi, kullanıcı verileriyle birlikte kazınarak bir yapay zeka şirketinin forumunda yayımlandı.
1 milyon gönderilik veri setini “şeffaflık ve rıza ilkelerini ihlal ettim” diyip kaldırdı
Bu kazıntılardan ilki, 26 Kasım’da makine öğrenimi kütüphanecisi, yapay zeka geliştiricisi Daniel van Strien tarafından gerçekleştirildi.
Strien, ne zaman ve kim tarafından oluşturulduğu, gönderinin metin içeriği, varsa gönderideki görsel ve aldığı yanıtlar da dahil olmak üzere 1 milyon Bluesky gönderisini kazıdı.
Strien, bu veri setini, kullanıcıların yapay zeka geliştiricileri için oluşturdukları makine öğrenimi modelleri ile veri setlerini paylaşabildikleri ve çalışmalarını sergileyebildikleri yapay zeka şirketi Hugging Face’in forumunda paylaştı.
Üstelik Strien, böyle bir kazıma yapıp bunları Hugging Face forumunda yayımladığını, Bluesky hesabında yaptığı bir paylaşımla duyurdu.
Strien, paylaşımında “Bluesky'ın firehose API'ndan (Uygulama Programlama Arayüzü) 1 milyon genel gönderi. Metin, meta veri ve dil tahminleri içeriyor. Bluesky için makine öğreniminde kullanmak adına mükemmel” dedi.
Strien’in Hugging Face’te yayımladığı veri setinin açıklamasında “sosyal medya verileriyle makine öğrenimi araştırmaları ve deneyleri için tasarlandığı” belirtiliyordu ve gönderi yazarlarının anonim olmadığı belirtiliyordu.
Strien’in gönderisinin Bluesky’da viral olmasının ardından kullanıcılar duruma tepki gösterdi ve veri setinin kaldırılmasını istedi.
Eleştirileri dikkate alan Strien, “Platform için araç geliştirmeyi desteklemek istesem de bu yaklaşımın veri toplamada şeffaflık ve rıza ilkelerini ihlal ettiğini kabul ediyorum. Bu hata için özür dilerim” açıklamasıyla veri setini yayımdan kaldırdı.
Bluesky: “Kullanıcıların rızasına dayalı olması için yollar arıyoruz”
Bunun üzerine 27 Kasım’da bir açıklama Bluesky, bu verilerin kazınıp kazınmamasını kullanıcıların rızalarına bırakabilecek yollar aradıklarını ancak bu tercihlere saygı gösterip göstermemenin ilgili tarafların inisiyatifinde olduğunu söyledi.
Üç gün sonra 2 milyon gönderi daha kazındı
İkinci kazıntıysa 29 Kasım’da gerçekleşti ve gönderi içeriği, hangi kullanıcı tarafından hangi tarihte paylaşıldığı, görsel, aldığı yanıtlar ve URL’leri de dahil olmak üzere 2 milyon Bluesky gönderisi toplandı.
Veri seti, “Alpin Dale” isimli kullanıcı tarafından Hugging Face’te yayımlandı.
Alpin Dale, Hugging Face’teki paylaşımının açıklamasında, gönderilerin şu amaçlarla kullanılabileceğini yazdı:
- Sosyal medya içeriklerinde dil modellerinin eğitilmesi ve test edilmesi
- Sosyal medya paylaşım modellerini analiz etme
- Konuşma yapılarını ve yanıt ağlarını inceleme
- Sosyal medya içerik denetimi üzerine araştırma
- Sosyal medya verilerini kullanarak doğal dil işleme görevleri.
20 milyon gönderilik üçüncü kazıntı
Tartışmalar ve kazıntılar sebebiyle Bluesky’a yönelik eleştiriler sürerken 29 Kasım’da o güne kadarki en büyük veri kazıntısı yaşandı.
“Informatiker” adlı bir Hugging Face kullanıcısı tarafından 20 milyon Bluesky gönderisini içeren bir veri seti paylaşıldı.
Gönderi içeriği, hangi kullanıcı tarafından hangi tarihte paylaşıldığı ve aldığı yanıtlardan oluşan veri seti, daha sonra Bluesky kullanıcılarının şikayeti üzerine kaldırıldı.
Dördüncü kazıntı: “Bu koleksiyon benzersiz bir içgörü sunuyor”
Bundan iki gün sonra, 1 Aralık’taysa dördüncü bir veri kazıntısı yaşandı.
“Withalim” kullanıcı adlı Hugging Face kullanıcısı, ürün tasarımcısı Alim Maasoglu tarafından oluşturulan ve hâlâ yayımda olan veri seti, tam 8 milyon Bluesky gönderisinden oluşuyor.
Maasoglu, veri setini Hugging Face’te “Bu koleksiyon, sosyal medya etkileşimleri ve içerik kalıpları hakkında benzersiz içgörüler sunan, herkese açık en büyük Bluesky veri setlerinden birini temsil ediyor” ifadeleriyle paylaştı.
Veri setinin 27 Kasım - 1 Aralık 2024 tarihleri arasında paylaşılan gönderilerden oluştuğunu belirten Maasoglu, “Önümüzdeki haftalarda 12 milyon ek gönderi daha eklenecek. Bu büyüyen veri seti, araştırmacılara ve geliştiricilere analiz ve deney için kapsamlı bir gerçek dünya sosyal medya verisi örneği sağlamayı amaçlıyor” dedi.
Maasoglu’nun sözünü ettiği 12 milyon ek gönderi henüz yayımlanmadı.
300 milyon gönderilik dev kazıntı: “Önceki kazıntılar çok zayıf”
Beşinci ve -şimdilik- son kazıntının içerdiği gönderi sayısıysa “o güne kadarki en büyük veri kazıntısı” dediğimiz 29 Kasım tarihli, 20 milyon gönderilik kazıntının tam 15 katı büyüklüğünde.
Zira aralık ayında, “GAYSEX” adlı Hugging Face kullanıcısı tarafından paylaşılan veri seti tam 298 milyon Bluesky gönderisinden oluşuyor.
Veri setinde gönderilerin içeriği ve varsa görselleri, gönderi sahibinin kullanıcı kimlik numarası, gönderinin kimlik numarası, gönderiye verilen yanıtlar ve gönderi URL’i yer aldı.
Hugging Face’teki paylaşımının açıklamasında daha önceki 1 milyon, 2 milyon ve 20 milyonluk kazıntıya atıf yapan GAYSEX, “Siz gerçekten zayıfsınız. Peki ya... 298 Milyon gönderiye ne dersiniz?” yazdı.
Kullanıcılar, gönderilerinin yapay zeka araçlarının eğitimi için kullanılmasına tepkilerini sürdürürken Bluesky’dan ise kazıntılarla ilgili yeni bir açıklama yapılmadı.