I kjølvannet av digitaliseringens fremvekst i alle deler av
samfunnet har en teknologisk revolusjon som vil prege både samfunnet og
samfunnsforskningen, funnet sted. Mengden av tilgjengelige
digitale data har eksplodert de siste årene. Det dreier seg om hverdagslige
statusoppdateringer på Facebook, videoer lagt ut på YouTube, og
Twitter-meldinger som er tilgjengelige for alle som vil lese dem. Det handler
også om data fra kjøpstransaksjoner, søkemotorer, og andre digitaliserte
transaksjoner i offentlig sektor, helsevesen, skoleverk, osv. Vi snakker om Big Data – et moteord
som antageligvis vil bli erstattet av en ny betegnelse i nærmeste fremtid, men
også betegnelsen på en utvikling som har kommet for å bli.
Begrepet
Big Data er en samlebetegnelse for data som er av et slikt omfang at de krever
mer enn vanlig datakraft for å samles inn, lagres og analyseres. Begrepet
brukes ofte ikke bare for å betegne selve dataene, men også for å beskrive de
nye problemstillingene slike data reiser, både teknisk, juridisk og etisk.
Felles for Big Data er at de innebærer en registrering av faktiske handlinger,
interaksjoner og transaksjoner koblet til individer.
«Big Data» betegner
fenomenet hvor store datasett er fanget, lagret, aggregert og analysert i alle
samfunnssektorer. Mengden av tilgjengelig data har eksplodert i løpet av de
siste årene. Grunnen til denne utviklingen er en teknologisk revolusjon
kjennetegnet av en rekke innovasjoner knyttet til overgangen til Web 2.0
(O’Reilly, 2005), det vil si fra statiske websider til interaktive web-
tjenester. Disse innovasjonene, parallelt med utviklingen av mobile Internett-teknologier,
har dannet grunnlaget for flere innovasjoner, blant annen knyttet til tingenes
Internett, hvor ulike maskiner og apparater inkorporerer digitale elementer som
er koblet mot Internett. Maskin-til-maskin-teknologi
(M2M) innebærer å benytte fastnett, mobilnett eller trådløse nettverk for å
kople opp enheter og terminaler. Det finnes et mangfold av gjenstand som har
denne muligheten og som er brukt i ulike bransjer som transport, kapitalforvaltning,
offentlige tjenester (vann- og strømleveranser, helsevesen). I tillegg
til data generert av websbaserte tjenester, søkemotorer og sosiale medieplattformer,
genererer internettkoblede enheter (mobile telefoner, GPS, bompasseringer,
osv.), blir data fra kunder og operasjoner kontinuerlig lagret og analysert. Det
er mulig å skille mellom fem ulike typer Big Data:
-
Web og
sosiale medier data som består av klikkstrøm og oppdateringer fra Facebook,
Twitter, LinkedIn og blogger.
-
Maskin-til-maskin
data (M2M) som referer til teknologier som muliggjør at elektroniske systemer
(trådløse eller ikke) kommuniser med hverandre. M2M kommunikasjoner danner det
såkalte «tingenes Internett», hvor maskiner utstyrt med ulike sensorer
produserer meningsfull informasjon (som for eksempel GPS posisjoner) som kan
lagres for videre analyse.
-
Big
transaksjonsdata som består av helsejournaler, telekommunikasjonslogger,
kundefakturering, osv. Disse dataene
inneholder også viktige metadata som kan utfordre personvernet. Metadata er
informasjon (data) som beskriver dataene. Metadata (for eksempel et brukernavn,
e-post eller IP adresse) er avgjørende for å kunne koble ulike typer
strukturerte elle ustrukturerte data sammen og dermed identifisere enkelte
personer, samt samle en mengde informasjon om denne personen.
-
Biometriske
data er knyttet til automatisk identifisering av personer basert på
anatomiske kjennetegn. Anatomiske data er generert gjennom lagring av
individuelle fysiske kjennetegn som fingeravtrykk, iris, retina, ansikt,
stemmemønster, DNA.
-
Menneskegenererte
data består av data som for eksempel samtaletapping, e-poster, surveydata,
elektroniske helseregistre, osv. som er produsert i ulike sammenheng og
organisasjoner.
Overgangen fra Web 1.0 til Web 2.0 har blitt drevet av og
har drevet utviklingen av Big data-teknologier. For å håndtere den stadig
økende mengden av data har selskaper som Yahoo, Google, Amazon og Facebook
utviklet nye modeller for datalagring basert på distribuert databehandling (distributed computing). Istedenfor å øke
beregnings- og lagringskapasitet ved å utvikle stadig større datamaskiner, så
muliggjør distribuert databehandling økning i beregnings- og lagringskapasitet
ved å legge til flere beregningsenheter koblet sammen i et nettverk (cluster). Distribuert databehandling
innebærer at flere tusen datamaskiner koblet sammen i et nettverk jobber sammen
om de samme oppgavene. Den best kjente konkretisering av distribuert
databehandling er de store Internettselskapenes datafarmer som består av flere
tusener dataservere.
Big Data har mange eksisterende og potensielle bruksområder innen
onlinetjenester, digital markedsføring, svindelavsløring, risikostyring, helse,
offentlig sektor, osv. Big Data kombinert med maskinlæringsalgoritmer er basis
for en rekke anvendelser i alle samfunnssektorer som predikerer individenes
atferd. Et kjennetegn ved maskinlæringsalgoritmer er at deres ytelse øker med
datamengden tilgjengelig for både trening og prediksjon. Teknologioptimister
anser Big Data som løsningen som gjennom treffsikre prediksjoner vil bidra til
effektivisering av ulike funksjoner i offentlig sektor, helse og næringsliv, og
til bekjempelse av kriminalitet og terror.
Predictive Analytics (Siegel,
2013) er et område av datamining som har som hensikt å trekke ut informasjon
fra data og bruke den til å forutse trender og atferdsmønstre. Datamining
består i å analysere en stor mengde data ved hjelp av ulike statistiske og
maskinlærings metoder for å finne mønstre. Resultater fra datamining prosesser
(de estimerte modellene) kan anvende til prediksjon (prediktiv analyse). Prediktiv analyse kan brukes blant annen for
å identifisere mistenkte etter at en forbrytelse er begått eller kredittkortsvindel.
Kjernen i prediktive analyser er å forutsi et ukjent utfall ved å estimere,
gjennom Bayesianske metoder,
sammenhenger mellom kjente forklaringsvariabler (førkunnskap) og den ukjente variabelen
av interesse.
Fra et slikt perspektiv kan også Big data anses som et nytt
verktøy for samfunnsforskningen. Hovedgrunnen
til at samfunnsforskningen skal investere i Big Data som metodisk verktøy er at
samfunnsvitenskapene risikerer til å bli utryddet på sikt hvis de overlater Big
Data til andre.
Ifølge Mayer-Schönberger og Cukier (2013) risikerer samfunnsvitenskapene
å miste monopolet til å analysere samfunnet ettersom Big Data analyser vil
erstatte tradisjonelle kvantitative og kvalitative metoder. Med Big Data
forsvinner behovet for å trekke utvalg og for å designe case-studier. Med Big
data er N= alle.
For Savage og Burrows (2007), hviler de empiriske
samfunnsvitenskapene på distinkte empiriske redskaper, survey og det
kvalitative forskningsintervju, som i stadig mindre grad blir sentrale innenfor
den forskningsinfrastrukturen som kunnskapskapitalismen utgjør. Samfunnsforskningens
metoder har en historisitet: deres sentralitet er knyttet til den øvrige
kunnskapsproduksjonen dvs. forhold som kjennetegner både andre
kunnskapsprodusenter og kunnskapsbehovene i samfunnet. Surveyens suksess
skyldes de mulighetene den gir til generalisering og prediksjon ved hjelp av
begrensede ressurser. Den var svært kostnadseffektiv da den kom, men er i
økende grad utfordret av fallende responsrater og av konkurranse fra
kommersielle aktører (markedsanalyse). Gitt tilgangen til digitale
transaksjonsdata fremstår Big data som mer effektive – fordi slike data er
komplette og baserer seg på reelle transaksjoner.
Big Data gjør det også mulig å analysere flere sosiale
objekter med kvantitative metoder: tekst, bilder, videoer, osv. Savage og Burrows
mener det kvalitative intervjuet er mindre egnet for å generere sofistikerte
forståelser av de veldig ulike og varierte verdensanskuelser som eksiterer i
dagens samfunn. Det kvalitative intervjuet risikerer til, i økende grad, å bli erstattet
av metoder (basert på Big Data og web-mining)
som vil gi mulighet til å analysere kvalitative objekter i stor skala samt til
å generalisere funnene til hele populasjon (N=alle).
Big Data vil kunne utfordre samfunnsforskningens
tradisjonelle datagrunnlag på flere måter. For det første utgjør Big data en ny
kilde for data innsamling som fanger opp både handlinger (transaksjonsdata) og
meninger (publiserte tekster og bildet), ikke bare holdninger og
selvrapporterte handlinger. For det andre muliggjør Big Data innsamling av alle
relevante data og ikke bare et utvalg, det som kan oppfattes som mer pålitelig
enn generalisering basert på et utvalg. For det tredje risikerer prediksjon
basert på Big Data til å erstatte kausale analyser basert på «small data».
Big Data generer både utopiske og dystopiske profetier om hvordan
de vil kunne påvirke både samfunnsutvikling og samfunnsforskning (boyd &
Crawford, 2012). Teknologien produserer ofte både positive og negative
effekter. Big Data, etter min mening, vil forandre samfunnsforskning. Det betyr
ikke at de tradisjonelle samfunnsforskningsmetodene vil være utdaterte og
forsvinne, men det innebærer at nye data og nye metoder vil være tilgjengelig
og vil kunne anvendes til problemstillinger som er sentrale for
samfunnsforskning. Spørsmålet er om disse metoder og data vil bli benyttet av
samfunnsforskerne eller om deler av samfunnsforskning vil konstituere et nytt
felt for den voksende computervitenskapen.
Referanser
boyd. d., & Crawford, K., 2012, “Critical
questions for Big Data”, Information,
Communication & Society, 15:5, 662-679.
Brown, I.
& Mardsen, C.T., 2013, Regulating
code. Good governance and better regulation in the information age. Cambridge:
The MIT Press.
Hoff, P.D.,
2009, A first course in Bayesian
statistical methods. New York: Springer
Lessig, L.,
2006, Code 2.0. New York: Basic
Books.
Mayer-Schönberger,
V. & Cukier, K., 2013, Big Data. A
revolution that will transform how we live, work, and think. Boston:
Houghton Mifflin Harcourt.
Morozov,
E., 2013, To save everything click here.
The folly of technological solutionism. New York: Public Affairs.
Savage
& Burrows, 2007, “The coming crisis of Empirical Sociology”, Sociology, 41:5, 885–899.
Schmidt, E., Cohen, J., 2013, The new digital age. Reshaping the future of
people, nations and business. New York: Knopf
Shy, O., 2001, The economics of network industries, Cambridge, Cambridge
University Press.
Siegel, E., 2013, Predictive Analytics. Hoboken: Wiley.
Distribuert databehandling har blitt muliggjort
gjennom to innovasjoner, den ene er Google File System sin open source versjon Hadoop som styrer lagring og beregning gjennom
alle datamaskiner som danner en cluster,
og det andre er algoritmen «Map Reduce» som effektiviserer databehandling av
store mengder data. Parallelt, har også nye databaseløsninger blitt utviklet
som har erstattet det dominerende databaseparadigmet kjent som SQL (Structured
Query Language) for Big Data applikasjoner. Det nye database-paradigmet,
relasjonell eller noSQL database, er tilpasset interaktive webteknologier og
distribuerte databehandlingssystemer.