torsdag 24. januar 2013

Big Data og Computerized Social Sciences: samfunns- og etiske utfordringer

Foredrag om Big Data og forskningsetikk til møte i De Nasjonale Forskningsetiske KomiteeneBig Data eksplosjon

 • Mengden av tilgjengelig data har eksplodert i løpet av de siste årene 
 • Data fra kunder og operasjoner fra internettkoblet enheter (mobile telefoner, GPS, bompasseringer, osv.) er kontinuerlig lagret 
 • «Big Data» betegner fenomenet hvor store datasett er fanget, lagret, aggregert og analysert i alle samfunnssektorer 

1 zettabytes (ZB) = 1000exabytes (EB) = 1000000petabytes (PB) = 1000000000terabytes (TB) = 1000000000000gigabytes (GB) = 1000000000000000000000BBig Data teknologier
 • Relasjonell eller noSQL(structured query language) data base: Big Table (Google), Cassandra (Facebook), HBase (open source)
 • Distributed computing: Google File System eller Hadoop (Open source) + MapReduce
Big Data og samfunnsforskning
 • Big data består ikke bare av store datasett og nye analytiske verktøy men innebærer en computational turn i måten forskningen er drevet på. 
 • Big Data gjør det mulig å analysere med kvantitative metoder flere sosiale objekter (eks: teskt mining) 
 • Big Data i forskning kan føre med seg illusjonen om at forskning er uavhengig av teorier og paradigmer

Big Data: Samfunnrisiko
 • Big Data utgjør en enorm og rik mengde informasjon som kan analyseres ved hjelp av «data-mining» tekniker. 
 • Mulighet til å avdekke individers og gruppers atferdsmønstre
 • Teknikker, som kan anvendes for målrettet reklame og markedsføring

Data mining av sosiale medier kan true ytringsfrihet og personvern:
 • Både regjeringer og private selskaper kan overvåke og analysere kommunikasjon som foregår på sosiale medier 
 • Aggregering av data på tvers av ulike brukerkonto (for eks: Google Gmail, Youtube, Chrome, Google+, osv.) øker mulighet til samle omfattende informasjon om en persons liv.

Big Data etiske utfordringer 
Personvern:
 • Kontroll over personlig informasjon er vanskelig fordi dataene tilgjengelig på weben ikke er kontrollert av en bestemt organisasjon eller er i private regi (Facebook, Google, osv.) og brukeren har gitt fra seg rettighetene sine.Potensiell misbruk av data gjennom aggregering, mining, og salg av data. 
 • Eks: Analyse av metadata assosiert til et bilde i en sosial dating tjeneste som gir tilgang til personens livshistorie

Forskning:

 • Hvilken status har «offentlig tilgengelige data» i sosiale medier, som for eksempel Twitter?
 • Hvilke retningslinjer på hva som definere gode praksiser for forskning med webdata skal anvendes?
 • I hvilken grad burde individene som blir forskningsobjekter (bloggere, twitterbrukere, osv.) samtykke til brukt av deres offentlig tilgjengelige data i forskning? 
 • Hvordan kan anonymitet garanteres?

Data Sift: Eksempel av sosiale medier data kommersialisering

Hvor mye informasjon kan man hente fra Twitter ?
2233 Tweets fra Erna Solberg


Digital divide: 
 • Bare sosiale medier firma (Facebook, Twitter, Google) har tilgang til store sosiale data som de fleste forskere ikke har tilgang til 
 • Forskerne i disse firmaene kan produsere forskning som resten av forskerne ikke kan…og denne typen forskning ikke la seg reproduseres eller evalueres 
 • Store data firma har ingen plikt eller ansvar til å gjøre sine data tilgjengelig for forsknings fellesskap 

Konklusjon
 • Big data fenomen er bare i startfasen 
 • Big data reiser flere nye etiske utfordringer, ikke minst for forskning 
 • Det er behov for en internasjonal tilnærming når det gjelder bruk av Big data i forskning ... Som garanterer personvern og som likestiller forskningsmiljøer