Büyük Veri ve Gözetim

2013’te, Türkiye’de sosyal medyanın oldukça hareketli olduğu günlerde dünya, ABD Ulusal Güvenlik Ajansı’nın (NSA-National Security Agency) eski çalışanlarından Edward Snowden’ın ifşaatıyla sarsılıyordu. Guardian’ın 6 Haziran 2013 tarihli haberinde (1) NSA’nın gizli bir mahkeme kararına dayanarak ABD’nin en büyük telekom şirketlerinden biri olan Verizon’un müşterilerinin telefon kayıtlarına ait üstverileri (metadata) topladığı yazıyordu (2).

7 Haziran 2013 tarihli haberde ise NSA’nın internet üzerindeki iletişimi izlemesine ve verilere ulaşmasına olanak veren PRISM kod adlı program hakkında bilgi veriliyordu (3). Microsoft, Yahoo, Google, Facebook, PalTalk, AOL, Skype, YouTube, ve Apple, NSA ile işbirliği içindeydiler. Daha sonraki haberlerde NSA’nın gözetim faaliyetlerinin bunlarla sınırlı kalmadığı yabancı ülkelere ve bu ülkelerin diplomatlarına yönelik faaliyetlerde de bulunduğunu okuduk. Snowden belgeler yayınlanmadan önce ABD dışına kaçmış, belgelerin Guardian’da yayınlanmasından üç gün sonra da belgeleri kendisinin sızdırdığını kamuoyuna duyurmuştu. Snowden, “Bu tür şeylerin yaşandığı bir toplumda yaşamak istemiyorum. Yaptığım ve söylediğim her şeyin kayıt altına alındığı bir dünyada yaşamak da istemiyorum” diyordu. Snowden’a göre NSA yasaların izin verdiğinden çok daha fazlasını yapıyordu. NSA, suçlu veya şüpheli olmasına bakmaksızın toplumun geneline ait verileri topluyor, filtreliyor ve analiz ediyordu.

Gözetim Paradigmasında Değişim ve Teknolojik İlerleme

11 Eylül 2001 veri analizi konusunda önemli bir dönüm noktası olmuştu. Gözetim paradigması değişmiş, şüphelilerin izlendiği gözetim yerini toplumun genelinin izlendiği ve aykırı hareket sergileyenlerin saptanıp ayıklanabileceği bir gözetime bırakmıştı. Westphal’a (2008) göre 11 Eylül’ün sinyalleri önceden verilmiş, verilerin dünyasında sıra dışı gelişmeler yaşanmış ama fark edilememişti. ABD’ye öğrenci vizesiyle girmiş birinin ticari havacılık kursu alması olağan bir durum değildi. Hele bu kişinin bazı bilinen teröristlerle dolaylı bağlantılarının olması yeterince kuşku uyandırıcıydı. Bill Clinton, 6 Kasım 2002’de yaptığı konuşmada 11 Eylül saldırganlarının beşinin daha önceden FBI veritabanlarında bulunduğunu söylüyordu. Bu saldırganlardan biri sadece iki yıldır ABD’de olmasına rağmen 30 kredi kartına sahipti. Saldırganların elebaşı olarak görülen Muhammed Atta’nın 12 evi vardı. Clinton’a göre tüm bunlar kuşkulanılması gereken verilerdi, ama atlanmıştı (Larose, 2005).

Bilişim teknolojilerindeki ilerlemeler sonucunda, veri saklama kapasitesinin ve analiz etme hızının artmasıyla ortaya çıkan 3V (volume, velocity, variety) ile tanımlanan büyük veri, Clinton’ın düşünü gerçekleştirdi. Büyük veri,

aşırı büyük veri hacmi (Volume)
yüksek veri hızı (Velocity)
çok geniş veri çeşitliliği (Variety)

anlamına geliyordu. 1990’lardan itibaren depolama kapasitesinin artması, internet ve sosyal medya uygulamalarının yaygınlaşması, e-devlet ve e-ticaret uygulamalarıyla iş süreçlerinin sayısallaşması ve verinin potansiyelinin farkına varılması sonucu veri miktarı sürekli artıyor. Veri açlığı o kadar büyük ki sosyal medya platformlarında ve akıllı telefonlarda geçirdiğimiz zamanın artması için platform sahipleri ellerinden geleni yapıyorlar.

Veri iki yönlü akıyor. Bir yandan verinin oluşum hızı sürekli artarken diğer yandan iş modellerini büyük veri üzerine kuran şirketler veriyi hızla analiz edip kullanıcılara geri bildirimde bulunuyorlar. Böylece bir akıllı telefon kullanıcısının konum bilgileri hızla algılanıp (kişi bulunduğu konumdan uzaklaşmadan) kullanıcıya ait diğer bilgilerle birleştirilerek analiz edilmekte, analiz sonucunda kişiye özel (daha önceki harcamaları dikkate alınarak), yakınındaki bir mağazaya ait reklamlar gönderilebiliyor.

Önceden veri denilince akla ilk gelen saf metinden oluşan veriler olurdu. Şimdi ise toplanan veri çok çeşitli: Saf metin, fotoğraf, ses, görüntü, GPS verisi, algılayıcı verisi, çeşitli kuruluşların ilişkisel veritabanları, pdf, web’deki hareketler, sosyal medya etkileşimleri… Croll (2012) büyük veri öncesinde de veri toplandığını ama bunun bilinen bilinmeyenleri bulmak amacıyla yapıldığını söylemektedir. Daha önceden, veriyi saklamak için ilişkisel veritabanları kullanılırken bu veritabanlarını tasarlayan uzmanlar hangi verinin toplanacağına daha tasarım aşamasında karar verirlerdi. Örneğin bir ilişkisel veri tabanında müşteri bilgilerini tutmak için bir tablo tasarlanıyorsa tablonun hangi alanlardan (ad, soyad, cinsiyet, yaş, adres, meslek vb) oluşacağı belirlendikten sonra müşterilerin bu verileri toplanıp saklanır. Böylece müşteri hakkındaki bilinmeyenlerin ne olacağı önceden bilindiğinden kişinin medeni durumu ya da saç rengi verisi önceden belirlenmiş bu alanlar arasında yer almadığından göz ardı edilirdi. Büyük verinin odağında ise bilinmeyen bilinmeyenler vardır. Veri toplayanlar bunu bir amaç doğrultusunda yapsalar da bu durum toplanan veriyi sınırlandırmaz; hangi verilerin toplanacağına dair kesin sınırları yoktur. Kişinin saç rengi, tuttuğu takım, hobileri vb veriler o an için ihtiyaç olmasa da saklanır. Sorular ve araştırma konuları sonradan gelebilir. Daha da önemlisi veriler sürekli hareket halinde olabilir. Bir şirket, elindeki verileri hükümetlere ya da başka şirketlere satabilir. Çünkü iki ya da daha fazla veri kümesi birleştirildiğinde ilk başta tahmin edilmesi güç bilgiler ve araştırma soruları ortaya çıkabilmektedir. Snowden’ın ortaya çıkardığı gibi NSA’nın yaptığı da buydu: Farklı veri kaynaklarını bir araya getirmek.

Google, Facebook ve Diğerleri: Korkacak Bir Şey Yok mu?

Snowden, büyük bir tehlikeye işaret ediyordu. Ama biz o günlerde sosyal medyanın gücünden o kadar etkilenmiştik ki söz konusu tehlikeyi ihmal edilebilir bulduk. Facebook ve Google’ın sözcüleri mahremiyetin geride kaldığını ve saklayacak bir şeyi olmayanların korkmasına gerek olmadığını söylüyorlardı.

İnsanların çekindikleri otoriteler vardı. Paylaşılan bir içeriğin başkalarınca (ebeveyn, öğretmen, amir, patron veya hükümet yetkilileri tarafından) aleyhlerine kullanılmasından korkuyorlardı. Öğrenciler paylaştıklarının öğretmenleri veya ebeveynleri tarafından fark edilememesini istiyorlardı. Çalışanların isteği amirinin veya patronunun sosyal medyada yazdıklarını görememesiydi. Sosyal medya platformunun ayarları değiştirilerek mahremiyet seviyesi artırıldığında bu sorunların aşılacağını düşünüyorlardı. Ama platform sahibi şirketlerden kimse çekinmiyordu: “Ta ABD’deki bir şirket bana ne yapabilir ki? En fazla hesabımı kapatır!”

Ayrıca Tunus, İzlanda, İspanya, Mısır, ABD ve Türkiye’de insanlar sosyal medyada örgütlenerek başkaldırmıştı. Ana akım medyanın sessiz ve suskun kaldığı, dezenformasyonun had safhada olduğu durumlarda sosyal medya, gerçeklere en hızlı erişim aracı olabiliyordu. Bu nedenle, sosyal medya platformları masaya yatırıldı, bir kefeye ifade özgürlüğü diğerine mahremiyet koyuldu. İfade özgürlüğü ağır bastı.

Şimdi Google ve Facebook’un elindeki verilere şaşkınlıkla bakıyoruz (4). 2016 yılındaki ABD seçimleri, sosyal medya platformlarının gücünün toplumun daha geniş kesimlerince anlaşılabilmesini sağladı ama öncesinde yapılan birçok çalışmada da toplanan verilerin platform sahiplerine sunduğu olanaklar hakkında endişe verici çalışmalar vardı. Mayer ve Patrick’in (2014) telefon görüşmelerine ait üst veriler hakkında yaptığı araştırmaya göre kimin aradığı ve arandığı, görüşmenin ne zaman gerçekleştiği ve ne kadar sürdüğünü içeren üst veriden hassas bilgilere ulaşılabilmekteydi. Örneğin bir telefon abonesinin üç hafta içerisinde ev dekorasyonu, çilingir, hidroponik(5) satıcısı ve uyuşturucu kullananım malzemeleri satan dükkanlarla birer kez görüşmüş olması bile güvenlik güçlerini harekete geçirmeye yetiyordu.

Elbette ki Facebook ve Google’da bundan çok daha fazlası vardı. Kosinski, Stillwell ve Graepel’in (2013), 2012 yılında sadece Facebook’taki ‘beğen’ler üzerine yaptıkları çalışmada bu verinin bile cinsel yönelim, etnik köken, din ve politik görüşler, kişilik özellikleri, zeka, mutluluk, uyuşturucu madde kullanımı, ebeveynlerin boşanması, yaş ve cinsiyet hakkında doğruluk payı yüksek tahminler yapabilmeyi sağladığını savunuyordu. Çalışma, 58.000’den fazla gönüllünün beğenilerinin analizi, ayrıntılı demografik profiller ve çok sayıda psikometrik testin sonucu üzerine kuruluydu. Model, homoseksüel ve heteroseksüel erkekleri ayırmada %88, siyah ve beyaz Amerikalılar’ı ayırmada %95, Demokrat ve Cumhuriyetçi ayrımında ise %85 başarılı olmuştu. Kişilik tahminlerinde de yine başarılı sonuçlar elde edilmişti. Tüfekçi’nin (2014) vurguladığı gibi bu analiz sadece sınırlı sayıdaki Facebook kullanıcısının Facebook’taki sınırlı veri kümesi ile yapılmıştı. Diğer veritabanlarından (finansal hareketler, üye olunan kuruluşlar, seçmen kayıtları gibi) yararlanıldığında kesinlik seviyesinin daha da yükseleceğini göz önünde bulundurmak gerekiyor. Veri çeşitliliği arttıkça araştırmaların derinliği de artıyor. Bu nedenle, Facebook’un son zamanlarda hastane kayıtlarına gözünü dikmesi hiç şaşırtıcı değil (6).

Yine 2012’de, bu sefer doğrudan Facebook tarafından, 680.000 Facebook kullanıcısı üzerinde duyguların bulaşıcı olup olmadığı üzerine bir deney yapılır. Laboratuvar deneyleri duyguların çevrimdışı ortamda bulaşıcı olduğunu göstermektedir. Peki ya çevrim içi ortamda? Facebook, dilsel bir yazılım kullanarak bunu test etmeye çalışır. Olumlu ve olumsuz güncellemeleri ayırır. Daha sonra deneklerin (bundan habersiz kullanıcıların) yarısına ağırlıklı olarak olumlu, diğer yarısına da olumsuz haberleri gösterir. Bir süre sonra kullanıcıların mesajları incelendiğinde olumsuz haberlere maruz kalanların daha çok olumsuz mesaj attığı gözlenir. Olumlu haberleri okuyanlarda da olumlu mesajlar fazlalaşır. Böylece Facebook, çevrim içi ortamda da duygusal durumların aktarılabildiğini doğrulamış olur. O’Neil (2016) seçim günü insanların duygularıyla oynandığı zaman ne olacağını sorgulamaktadır. O’Neil (2016) Facebook’taki bilimcilerin seçim sistemi üzerinde sürekli testler yapan tuhaf insanlar olduğunu iddia etmez. Fakat Facebook’un insanların ne öğrendiğini, nasıl hissettiğini ve oy kullanma eğilimini etkileyecek bir güce sahip olmasındaki tehlikeye dikkati çekmek ister. Facebook’un platformu şeffaf değildir, çok büyüktür ve güçlüdür (Ne yazık ki araştırmalar hakkındaki bilgimiz araştırmacıların yayımladıkları deney sonuçları kadar, bunu da aklımızdan çıkarmayalım!)

2016 yılındaki ABD seçimlerinde yaşanan aslında tam da budur. Daha bir kaç yıl önce sosyal medyayı alternatif medya ve doğrudan demokrasinin araçları olarak selamlarken, 4 Kasım 2017 tarihli The Economist dergisi sosyal medyanın temsili demokrasi için bile bir tehdit haline geldiğini yazmaktadır.

Gözetimin Amacı İnsan Davranışlarını ve Kararlarını Etkilemek

Hükümetler veya şirketler kısa bir süre öncesine kadar insanları anlamak ve sınıflandırmak için kişisel verilerini toplamış ve onları fişlemiş olabilirler. Ancak şimdi gözetimin amacı insanları çeşitli biçimlerde yorumlamak ve sınıflandırmak değil, onların davranışlarını ve kararlarını etkilemektir. Sosyal medya siteleri ve kişisel verilerimizi toplayan diğer kurumlar, hakkımızda çok şey bildikleri için reklamcılık sektöründe başı çekerler. İş modelleri, reklam vermek isteyen şirketlere belirli bir zamanda, belirli koşullarda, belirli bir ürünü alabilecek kullanıcıları (yani bizi!) satmak üzerine kuruludur. Örneğin, bipolar kişilik bozukluğunda mani halinin ön belirtilerinin klinik semptomlardan önce sosyal medya paylaşımlarından anlaşılabileceği ve bunun hedefli reklamcılık için kullanılabileceği hakkında tezler vardır. Çünkü bipolar kişilik bozukluğunun mani evresinde insanlar alışverişe daha meyilli olurlar. Onların bu zaafından yararlanılabilir; belki de yararlanıyorlar! Ama dünyanın en iyi beyinlerinin insanları bir şey almaya ikna etmek için geceli gündüzlü çalıştığından eminiz.

Hepimiz belirli koşullarda iknaya daha açık olabiliriz. ABD için konuşursak, sosyal medya mesajlarıyla bir Demokrat’ı Cumhuriyetçi ya da Cumhuriyetçi’yi Demokrat yapmak pek kolay değildir. Ama Trump’ın sosyal medya yetkilisinin itiraf ettiği gibi Cumhuriyetçiler Facebook’tan, insanları kendilerine oy vermeleri için değil, Demokrat Parti’ye oy verebilecek seçmenleri oy kullanmamaya ikna etmek için yararlanmışlardır. Çünkü birçok ülkede seçmenler güle oynaya sandığa gitmezler ve seçime katılım oranları düşüktür. ABD’deki seçimlerde kişiye özel reklamlarla, kimi zaman yalan haberlerle, Demokrat Parti’ye oy verebilecek seçmenin sandığa gitme isteği kırılır. O’Neil (2016) belirttiği gibi seçim günü insanların duygularıyla oynanır ve Demokrat seçmenler sandığa gitmekten alıkonulur.

Kullanıcıları şeffaf olmaya zorlayan sosyal medya platformlarında gösterilen iletiler veya haberlerin sıralaması çoğu zaman şeffaf değildir ve yalnızca bu platformlarda çalışan sınırlı sayıda kişi bunun bilgisine sahiptir. Ayrıca platform sahipleri, bu algoritmalarla oynayarak platformdaki kullanıcıların görünürlüğünü ayarlayabilir, parası olanların içeriğini üste taşıyarak mesajlarını daha görünür yapabilir. Ama belki de daha tehlikelisi içeriğin kullanıcılara bireysel olarak gösterilebilmesidir. Bir diğer deyişle, televizyondan veya günlük gazetelerden geniş kitlelere iletilen ve onları ortaklaştıran mesajlar yerini bireyi hedefleyen mesajlara bırakmaktadır.

Bir politikacı, televizyonda bir vaatte bulunduğunda bundan sorumlu tutulabilir. Fakat kişiye özel propaganda sayesinde birbirinden habersiz seçmenlerle farklı farklı pazarlıklar yürüttüğünde her şey karanlıkta gerçekleşir. İnsanların farklı duyarlılıkları hedef alınabilir ve insanlar komşularından farklı mesajlar alabilir. Bazı seçmenlere azınlıkları hedef alan bazılarına da daha ılımlı mesajlar gönderilebilir. Bunun yanında kişiye özel propaganda yalan haberlerin yayılmasında çok etkilidir. Obama’nın daha önce Müslüman olduğu, ABD dışında doğduğu ve dolayısıyla meşru bir başkan olmadığı söylentisi yayılmıştır. Demokratlar bunun doğru olmadığını anlatmaya çalışsalar da karanlıkta çalışan, hiçbir sorumluluk almadan yalan mesajları yayanlar bu yalanı devam ettirirler (O’Neil, 2016). Sosyal medya eylemleriyle başlayan hikaye, Trump’un az farkla ABD’nin Başkanı olmasıyla son bulur.

Veri Zenginleri Tehlikeli Bir Güç Haline Geliyor

Kısacası, insanlara daha çok şey satabilmek adına her geçen gün daha çok veri toplanıyor. Sosyal medyadaki etkileşimler, web’de gezintiler, e-postalar ve hatta yolda yürürken akıllı telefonlarımızdan akan veriler… Verilerimize el koyan Google, Facebook ve Amazon gibi veri zenginleri insanlığa karşı giderek daha tehlikeli bir güç haline geliyorlar.

“Ben kişisel verilerimin başkalarının eline geçmesinden rahatsızlık duymuyorum, reklamlarla beni etkileyemezler ” diyenler olabilir. Fakat aynı toplumda yaşıyoruz; bu platformların etkisini de bireysel değil toplumun genelini dikkate alarak analiz gerekiyor. Ayrıca etkilenme konusunda o kadar kendinden emin olmamak gerekir. Sosyal medya platformlarının yapısı ve platform sahibi şirketlerin siyasete müdahale güçleri, bu şirketleri geleneksel medyadan çok daha tehlikeli yapıyor.

Kaynaklar

Croll, A. (2012a). Big Data Is Our Generation’s Civil Rights Issue, and We Don’t Know It. Big data now p. 55-60, O’Reilly Media, Inc..

Kosinski, M., Stillwell, D., & Graepel, T. (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, 110(15), 5802-5805.

Larose, D. T. (2005). Discovering knowledge in data: an introduction to data mining. John Wiley & Sons.

Mayer, J. and Mutchler, P. (2014). “MetaPhone: The Sensitivity of Telephone Metadata.” Web Policy, March 12. http://webpolicy.org/2014/03/12/metaphone-the-sensitivityof-telephone-metadata.

O’Neil, C. (2016). Weapons of math destruction: How big data increases inequality and threatens democracy. New York: Crown Publishers.

Tufekci, Z. (2014). Engineering the public: Big data, surveillance and computational politics. First Monday, 19(7).

Westphal, C. (2008). Data Mining for Intelligence, Fraud & Criminal Detection: Advanced Analytics & Information Sharing Technologies. CRC Press.

Dipnotlar

(1) http://www.theguardian.com/world/2013/jun/06/nsaphone-records-verizon-court-order.

(2) Üst veri: veriyi tanımlayan veri. Örneğin bir telefon görüşmesi için arayan ve arananın kimliği, görüşmenin ne zaman ve kaç dakika gerçekleştiği hakkındaki veriler.

(3) http://www.theguardian.com/world/2013/jun/06/ us-tech-giants-nsa-data.

(4) http://sendika62.org/2018/08/hazir-misiniz-iste-googleve-facebookta-bulunan-tum-verileriniz-dylan-curran-theguardian-shortmag-507250/.

(5) Topraksız tarım olarak da bilinen, toprak kullanmadan su içinde mineral besinler kullanarak bitki yetiştirme yöntemidir.

(6) https://www.cnbc.com/2018/04/05/facebook-building8-explored-data-sharing-agreement-with-hospitals.html.

(*) Bilgisayar Mühendisleri Odası Kurucu Yönetim Kurulu Üyesi

Tags: 157.sayı, sosyal medya, teknoloji, veri tabanı

Çalışma Ortamı Dergisi

Bu Sayının Yazarları:

Çalışma Ortamı

Büyük Veri ve Gözetim

Arşivler