Sosyal Ağlarda Veri Madenciliği ve Büyük Veri

Sosyal ağların en büyük özelliği, anlık olarak yüzmilyonlarca kullanıcıdan büyük miktarlarda veri üretmesidir. Bu veriler o kadar fazladır ki, veri madenciliği yöntemleriyle bir araya getirilmesi sonucu içinden kullanıcıları ayırt edici veya tanımlayıcı yeni bilgiler çıkarılabilir.

UYARI: Bu yazı ve yazı dizisinin tamamı bir teknik proje halinde bir yüksek lisans programında zaten sunulmuştur. Bu yazıların ve içindeki herhangi bir bilginin izinsiz alınması, kopyalanması, çoğaltılması ve başka bir yerde farklı bir kişi tarafından yazılmış gibi yayınlanması/kullanılması kesinlikle yasaktır.

– BÖLÜM 6 –

Büyük veri ilk etapta kullanıcılar ve kurumların gizliliğine zarar veren sonuçlar doğurur. Öyle ki, gizli sosyal ağ hesaplarının arkadaşlık ağlarına bakılarak yaşadıkları yerler tespit edilebilirken, bir kişinin hangi topluluğa mensup olduğu veya davranışlarının ne olduğu önceden bulunabilmekte ve kurumların organizasyon yapılarıyla zayıf yönleri ortaya çıkarılabilmektedir. Ayrıca sosyal ağlar bu büyük verinin tersini alarak kendilerine üye olmayan internet kullanıcıları hakkında bile çeşitli bilgilere ulaşabilmektedir. Özetle, sosyal ağlarda veri madenciliği ve büyük veri tahmin edildiğinden çok daha problemi bir konu olarak önümüzde duruyor.

 

SOSYAL AĞLARDAKİ BÜYÜK VERİ SORUNU

Sosyal ağlardaki büyük veri üzerinde yapılan veri madenciliğinin iki sonucu bulunmaktadır. İlki, bu büyük verilerden kullanıcılar ve kurumlar hakkında çıkarımlar yapılması ve bunlar için çeşitli mekanizmalar, algoritmalar ve sistemler geliştirilmesidir. Diğeri de, büyük veriyi sosyal ağın bizzat kendisi kullanarak hedefli reklamcılık, kullanıcı segmentasyonu ya da toplumsal dinamikleri ölçmede kendi avantajına olacak şekilde kullanmasıdır. Büyük veri analizinde en çok sorgulanan ve merak edilen bilgi, sosyal ağlarda kullanıcılar belirtmese bile coğrafi konumları ile adreslerinin tespit edilmesidir. Buna verilebilecek ilk örnek, Northwestern Üniversitesi Xerox PARC araştırma merkezinde geliştirilmiş olan bir algoritmayla konum bilgisi vermeyen kullanıcıların tweet’lerinin analiz edilerek coğrafi yerlerinin tespit edilebilmesidir.

Araştırmacıların geliştirdiği yöntemde Twitter kullanıcılarının bulunduğu ülke hatta eyaletler bile tespit edilebiliyor. Araştırmacılar konum bilgisini vermeyenlerin konumlarının tespit işlemini, onların tweet’lerinde geçen her yöreye veya bölgeye özel anahtar kelimeleri çıkartarak onların bulunduğu en muhtemel yeri tespit ederek yapıyorlar. Örneğin, tweet’lerde belli bir yöreye özel festival ya da şenlikten bahsetmek ve bulunduğu yerin belirgin hizmetlerinden, damak tadından veya alışkanlıklarından söz etmek ilgili kişinin coğrafi konumunu tespit etmek için yeterli olabiliyor. Yine bir grup IBM Ar-Ge ekibi araştırmacısı sadece Twitter’daki tweet’lerde yer alan şehir, bölge, zaman dilimi, içerik ve tweet’leme davranışlarının irdelenmesiyle bir kullanıcının en son attığı 200 tweet’e bakarak ev adresinin ulaşabiliyor olduğunu gösterdi. Bu araştırmada Amerika’daki en büyük 100 şehirden yüz binlerce tweet, içeriğine ve teknik karakteristiğine göre incelediğinde, tweet’ler coğrafik olarak işaretlenmese bile, konumların tahmininde şehir bazında %68, eyalet çapında %70, zaman diliminde %80 ve bölgesel olarak da %73’lük bir doğruluk başarısı elde edebilmiş. Yine aynı amaçla, Twitter’da GPS’i etkinlendirilmiş olarak veya sosyal konum imleme yoluyla paylaşılmış tweet’ler ile içinde konumsal ifadelerin geçtiği tweet’lerin hepsini birden değerlendirip bir araya getirerek bir Twitter kullanıcısının coğrafi-sosyal parmak izlerini ortaya çıkaran “GeoSocial Footprint” adlı bir konum ortaya çıkarma aracı bile geliştirilmiştir.

 

Sosyal ağlarda paylaşılan içerikleri gizleme özelliği olarak sunulan profil gizleme durumlarında dahi büyük veri sayesinde gizli profil kullanıcılarının sadece takipçileri (followers) ile takip ettikleri (following) incelenerek arkadaşlık ağları ve coğrafi konumlarının tespit edilebildiği Rochester Üniversitesi bilim adamları tarafından yapılan bir çalışmayla kanıtlanmıştı. Bu çalışmada araştırmacılar sosyal medyada veri madenciliği yöntemleriyle herhangi bir Twitter profilinin coğrafi konumunu sadece onun Twitter arkadaşlarının konumlarına bakarak 100 metrelik bir yarıçap içinde %85 doğruluk payı ile tespit etmeyi başardı. Hatta bir profil gizli olduğu halde bile onun arkadaşlarıyla olan ilişkisini yüksek bir doğrulukla tahmin de edebildiler.

 

Sosyal ağlardaki büyük verinin kullanıcının gizliliği bağlamında doğurduğu bir başka problem de ağ kullanıcılarının ait oldukları toplulukları yani toplumsal grup mensubiyetlerini ortaya çıkarmasıdır. Bu amaçla Princeton, Londra ve Royal Holloway Üniversitesi araştırmacılarının gerçekleştirdiği bir araştırmaya göre insanların Twitter’da bir ‘kabile’ (topluluk) etrafında yapılanarak bir araya geldiği ortaya çıktı. Bu araştırmaya göre Twitter’da bireylerin kullandıkları dilden hareketle dilin, bilgilerin iletilmesini aşan ve sosyal bağlamla değişen işlevlerinin olduğu ve dil ile sosyal ağ yapısının birleştiği kanıtlanıyor. Bu araştırmada da, bilim insanları Twitter’da şekillenen kabile veya toplulukların ortak karakterler, meslekler veya ilgi alanlarına sahip oldukları ve kendilerini ayırt edici bir dil geliştirdiklerini buldu. Buna göre herhangi birinin sadece Twitter’da kullandığı dile bakarak onun hangi topluluğa, cemaate ya da oluşuma ait olduğu %80’e yakın bir doğrulukta tahmin edilebiliyor.

 

Sosyal ağlardaki büyük veriden kullanıcıların gelecekteki davranışlarının tahmin edilmesi de başka bir büyük veri gizlilik problemi olarak öne çıkmaktadır. Bu minvalde bir grup araştırmacı, insanların Twitter’daki davranış kalıplarını kullanarak onların sosyal medya genotipinin çıkarılıp, gelecekteki davranışlarının tahmin edilebileceğini söylüyor. Bu araştırmada, genetik biliminden ilham alınarak insanların aslında sabit bir dizi ilgi alanının/odağının olduğu, bunun da bir davranış kalıbı çıkardığından hareketle sosyal ağlarda da insanların mevcut davranış temayüllerini sergilediği ve böylece ortaya bir kişisel sosyal medya genotipinin çıktığı savunuluyor. Bu kişisel sosyal medya genotiplerin tespit edilmesiyle, kişilerin gelecekteki davranışlarının tahmin edilebileceği ifade ediliyor. Bunun yanında insanların sosyal ağlarda sergilediği davranışlardan kişilik tiplerinin tespit edilmesine yönelik olarak bir grup Çinli araştırmacının yaptığı ilginç bir araştırmada, insan kişiliğinin 5 farklı temel kişilik tipi bağlamında Facebook ve Renren gibi ağlardaki kullanıcıların davranışlarına bakılarak hangi kişilik özelliğine sahip olduğunun belirlenebileceği de ortaya kondu.

 

Sosyal ağlardaki büyük veri sadece bireyleri değil, kurumları ve kurumsal yapıları da gizlilik ve güvenlik bağlamında tehdit edebiliyor. Bir grup İsrailli bilim adamı sadece sosyal ağlardaki kamuya açık verileri kullanarak yaptıkları veri madenciliği ile büyük şirketlerin uluslararası organizasyon yapısını ortaya çıkarabildi. Ben Gurion Üniversitesi araştırmacıları, çalışanların kurumları hakkında sosyal ağlardaki hesaplarında birçok detayı paylaştığından hareketle Facebook, Twitter, LinkedIn ve YouTube gibi kaynaklarda çok detaylı bir veri madenciliği işlemi gerçekleştirerek hedefe aldıkları kuruluşların çalışanlarının günlük hayata dair gayri resmi sosyal ilişkiler ağını ortaya çıkardılar. Ardından bu ağ üzerinde merkeziyet analizi ve makine öğrenme (yapay zeka) tekniklerini kullanarak kurum içindeki liderlik rolleri, organizasyon yapısı, konumu, şubesel ve bölümsel uzmanlıkları ve liderlerin hepsini tanımlamayı başardılar.

 

Sosyal ağlardaki büyük veri nihai noktada yine en çok sosyal ağların kendisine yaramaktadır. Sosyal ağlar büyük veriyi alabildiğine detaylı bir biçimde öncelikle kendi kullanıcılarını inceleme ve tasnifte kullanmakta, ardından da veri madenciliği ile çıkardığı bilgileri online hedefli reklamcılık gibi gelir elde edebileceği yollarda kullanmaktadır. Sosyal ağların büyük veriyi kendilerine üye olmayan internet kullanıcılarını tespit etmede dahi kullanabileceğine dair ilginç bir araştırmayı bir grup Heidelberg Üniversitesi araştırmacısı gerçekleştirmişti. Araştırmaya göre dünya internet kullanıcı sayısının yarısı kadarı kendi üyesi olan Facebook, kendi üyelerinin bağlantılarını kullanarak ağına üye olmayıp kendi kullanıcıları ile arkadaş olanlar hakkında önemli miktarda bilgiye ulaşmış. Bu da üyelerin arkadaşlarını aramak için verdiği e-posta adresleri ile yapılarak, muazzam bir “üye olmayanlar” ağı elde edilmiş. Sonuçta ağ kullanıcıları sosyal ağlarda ne kadar gizlenmeye çalışsa da, sosyal ağlara uzun süreli bağlı kalma hali kullanıcılarda izafi bir güven duygusu oluşturuyor. Bu haliyle yeterli bir süre geçtikten sonra, kullanıcılar resim, yazı ve yorum paylaşımlarında farkında olmadan kendilerini daha çok ele vermeye başlıyor. Sonrasında ise yukarıda bahsettiğimiz benzeri yöntemlerle kişiler ve kurumlara dair hassas ve ayırt edici bilgiler açığa çıkabiliyor.

 

Bir sonraki bölümde sosyal ağlardaki arkadaşlardan kaynaklanan tehlikeleri kapsamlı bir şekilde ele alacağız.

M. MEKİN PESEN

YAZAR:

Özel bir kurumda kıdemli bilgi güvenliği uzmanı olarak çalışan M. Mekin Pesen, Elektrik-Elektronik Mühendisliği lisans ve Bilgi Güvenliği Mühendisliği yüksek lisans ile CISSP, ECSA, CEH ve CCSA sertifikalarına sahiptir. Kendisi siber güvenlik ve bilgi güvenliği genel başlıkları altında çeşitli konularda uzmanlaşmaktadır.
    

E-Bültene Kaydolun, Makaleler Posta Kutunuza Gelsin

Bu yazıyı başka hiçbir yerde ve şekilde yayınlayamazsınız ve/veya kullanamazsınız. Bu yazıyı kullanmanız, başka herhangi bir uyarıya gerek kalmadan her türlü hukuki sonucu daha en baştan kabul ettiğiniz manasına gelir.