Big Data er deg

Big Data refererer til et enormt datasett og representerer et paradigmeskifte. Enorme mengder data samles fra mange ulike kilder og aggregeres og analyseres i nye sammenhenger.

(Fra Datatilsynets årsmelding for 2011)

Det var i mange år vanlig å betrakte sin tilstedeværelse på nett som konfidensiell og anonym. Den kjente karikaturtegningen ”På internett vet ingen at du er en hund” illustrerer denne holdningen godt. I dag er virkeligheten en annen – de fleste søk, oppslag, klikk og sidevisninger på nett blir logget, lagret og analysert med varierende grad av identifisering av brukeren. Den omfattende mengden personopplysninger som samles inn er svært verdifull for eiere av nettjenester, annonsører og andre aktører i annonsemarkedet. Opplysningene gjør det mulig å skreddersy reklame til spesifikke målgrupper og å måle gjennomslagskraften til reklamekampanjer. Markedet for personopplysninger representerer enorme verdier og er i stor grad drivkraften bak utviklingen av gratis innhold og tjenester på nett.

Den alminnelige internettbruker har imidlertid liten innsikt i hvordan dette markedet fungerer og hvordan deres personopplysninger benyttes av kommersielle interesser. Dette er uheldig med tanke på personvernet til brukere av digitale tjenester. Et viktig utgangspunkt for personvernet er at den enkelte skal ha kontroll med opplysninger om seg selv. Manglende kontroll over egne personopplysninger er en problemstilling som ikke bare opptar Datatilsynet i Norge, men som også har blitt satt på den politiske dagsorden i EU og USA. I forslaget til nytt europeisk personvernregelverk, som ble lansert januar 2012, er eierskap til egne personopplysninger et sentralt punkt.

Tidsalderen for ”store data”

Det utvikles stadig nye og mer sofistikerte metoder for å spore og samle inn opplysninger om brukerne på nett. Utbredelsen av smarttelefoner og økt bruk av lokasjonsbaserte applikasjoner gjør at omfanget av data som produseres akselererer ytterligere. I tillegg vil utviklingen mot mer bruk av sensorteknologi (”tingenes internett”) medføre at ikke bare data om hvem og hvor vi er blir samlet inn, men også opplysninger om når og hvordan vi samhandler med tingene rundt oss. Det er estimert at mengden data som produseres globalt vil øke med 800 prosent de neste fem årene. Omlag en milliard innholdselementer lastes for eksempel daglig opp på Facebook, og mer enn 250 millioner tweets publiseres daglig, og antallet er raskt økende (McKinsey report:"Big Data: The next frontier for innovation, competition, and productivity", June 2011). Vi har entret tidsalderen for hva som omtales som Big Data – en av de viktigste teknologi- og forretningstrendene som vil prege samfunnet fremover.

{Quote}

Uttrykket Big Data refererer til datasett som er så enorme at de ikke kan analyseres ved hjelp av tradisjonelle databaseverktøy. Det er likevel ikke først og fremst selve størrelsen på datamengdene som gjør at Big Data representerer et paradigmeskifte, men det at dataene er samlet fra et utall ulike kilder, og aggregert og analysert i nye sammenhenger. Begrepet brukes primært om de enorme datamengdene som genereres i sosiale medier og andre steder på nett. Fremveksten av skytjenester som kan tilby nær ubegrenset lagringskapasitet til en stadig rimeligere pris, er en sentral forutsetning for at virksomheter nå kan høste inn og behandle langt større datamengder enn tidligere.

Hensikten med Big Data er å lete etter mønster og sammenhenger det ikke var mulig å få øye på tidligere og å lage profiler på enkeltgrupper- og personer (data mining). Slik kunnskap er verdifull ikke bare innenfor markedsføring og salg, men også for myndighetene, med henblikk på blant annet sykdoms- og kriminalitetsbekjempelse. Kravene til løsninger for datalagringsdirektivet har i denne sammenheng blitt trukket frem som et eksempel på Big Data8. Direktivet krever lagring av både strukturerte og ustrukturerte data, nemlig trafikkdata om telefonsamtaler, SMS, chat og epost til alle abonnenter i inntil seks måneder. Det tilfredsstiller kriteriene for Big Data: variasjon i type data, stort datavolum og behov for avanserte analyseteknikker. Innen helsesektoren er det også stor interesse for å sammenkoble og analysere store datasett. Aktuelle datakilder for sammenkobling er helseregistre, biobanker med genetisk informasjon og pasientjournaler. Formålet med sammenstillingen er å lete etter mønstre og sammenhenger som kan bidra til å forebygge alvorlig sykdom, og å bedre helsetilstanden i befolkningen generelt.

Enkel tilgang til store mengder personopplysninger, mulighet for rimelig lagring og fremvekst av nye analyseteknikker, driver også frem nye forretningsmodeller og virksomheter. Innen banknæringen finnes det for eksempel oppstartselskaper som er i ferd med å utvikle profileringsteknikker som angir folks kredittverdighet, basert på deres aktivitet og nettverk i sosiale medier9. Det har i denne sammenheng blitt spekulert i om Facebook kan tenkes å starte bankvirksomhet i fremtiden, nettopp med grunnlag i virksomhetens inngående kjennskap til sine brukere10.

Datatilsynet ser også en utvikling der selskaper bygger opp forretningsmodeller basert på personopplysninger hentet fra ulike offentlige registre, for eksempel universitetenes registre over alle uteksaminerte studenter. Det offentlige er en stor bidragsyter av personopplysninger på internett og det utvidede dokumentbegrepet i den nye offentlighetsloven åpner for at enhver som ønsker det kan be om utlevering av omfattende databaser med personopplysninger, uten å måtte gjøre rede for hva opplysningene skal brukes til. Det er ikke bare kommersielle aktører som har interesse av slike data, men også kriminelle.

”Store data” møter store bror

{Quote}

Digitale data er i dag overalt – i alle sektorer, i alle økonomier og i alle organisasjoner. Aggregering og analyse av Big Data kan benyttes til en rekke positive formål. Storskala dataanalyse kan øke produksjonen og konkurransekraften i næringslivet, og det offentlige kan hente ut betydelige effektiviseringsgevinster ved å benytte denne typen analyser12. Det er imidlertid viktig å ikke miste av syne at dataene som benyttes til en stor grad er opplysninger om folks liv. Det er informasjon om folks preferanser, synspunkter, kjøpemønster, bosted, helse, strømforbruk, lån, samt eventuelt sensorbasert informasjon fra butikker, trafikken og andre steder.

Datatilsynet foretok i 2011 en kartlegging av personvernutfordringer knyttet til mobilapplikasjoner. Mange applikasjoner håndterer store mengder personopplysninger om sine brukere, ofte uten at brukeren selv er klar over dette. En av hovedkonklusjonene i rapporten er at app-markedet fra et brukerperspektiv er preget av liten grad av gjennomsiktighet når det gjelder hvilke opplysninger som samles inn om brukeren, hva som er formålet med innsamlingen og hvordan opplysningene eventuelt viderebrukes.

Rettigheten til informasjon om, og innsyn i, behandlingen av egne personopplysninger er viktige personvernprinsipper. Et annet sentralt prinsipp er at innsamlede personopplysninger kun skal anvendes til klart uttrykte formål. Når vi avgir personopplysninger på nett eller i mobile applikasjoner, gjøres dette innenfor en bestemt kontekst og med visse forventninger om hvordan opplysningene vil bli brukt. Vi har tillit til at innholdet vi publiserer, og opplysningene vi intetanende legger igjen, ikke skal bli brukt til andre formål enn hva det opplyses om. Hvis man aggregerer og redistribuerer innhold på nett uten at folk samtykker, krenker man folks personvern blant annet ved at man helt mister kontrollen over egne personopplysninger.

Når data tolkes utenfor den opprinnelige konteksten – når de benyttes til andre formål – kan dette få store konsekvenser for den enkelte. Bruken av storskala dataanalyse reduserer langt på vei mennesket til summen av de digitale sporene vi legger igjen – vi er våre data. Det etableres digitale profiler om oss uten at vi selv har innsikt i, eller kontroll over, nøyaktig hvilke opplysninger profilen er basert på. En ”negativ” digital profil kan være vanskelig å unnslippe. En dansk kvinne ble for eksempel feilaktig mistenkt for terrorfinansiering av amerikanske myndigheter i 2008, og fikk sine finanser frosset fordi hun hadde overført penger for kjøp av seks kjoler til en butikkinnehaver i Pakistan.

Hvilke konsekvenser har det når vi vet at opplysninger om oss blir lagret, aggregert og kan bli brukt mot oss i fremtidige situasjoner – vil vi da våge å ytre oss like fritt? Mennesker som vet at de blir iakttatt endrer oppførsel fordi konteksten blir en annen – tilliten til omgivelsene endres. Et dårlig ivaretatt personvern kan svekke demokratiet ved at borgerne begrenser sin deltakelse i åpen meningsutveksling. Tap av kontroll over egne personopplysninger kan derfor i verste fall ha en nedkjølende effekt på ytringsfriheten.

sammenstilling av data fra ulike registre

Sammenstilling av data gir deg mindre kontroll med hva dine opplysninger brukes til (illustrasjon: Chris Slane)

Retten til å bli glemt

Den alminnelige internettbrukers manglende kontroll over egne data bekymrer myndighetene både i EU og USA. Et utkast til ny europeisk personvernlovgivning ble publisert av Europakommisjonen på nyåret 2012. En av hovedpilarene i den nye reguleringen vil dreie seg om ”retten til å bli glemt”. Brukerne av online-tjenester skal innrømmes bedre kontroll med egne personopplysninger. De skal kunne trekke tilbake samtykke til at deres personopplysninger blir behandlet, og de skal kunne kreve dem slettet. Forslaget vil trolig også gi borgeren rett til å flytte opplysninger fra en nettjeneste til en annen, såkalt dataportabilitet. Dette vil skape en dynamikk i markedet som vil være bra for personvernet, ettersom brukeren da ikke lenger behøver å være lojal mot et nettsamfunn. Ett annet sentralt punkt i den nye personvernlovgivningen er vektleggingen av gjennomsiktighet: Virksomheter som samler inn og behandler personopplysninger må informere brukeren om hvilke opplysninger som samles inn og for hvilket formål. Det skal også opplyses om hvorvidt opplysningene selges videre til tredjeparter.

Datatilsynet vil oppfordre Regjeringen og andre aktører til å delta aktivt i høringsarbeidet, og ikke vente med å engasjere seg til regelverket er vedtatt.

I USA har lovforslaget ”Do Not Track on-line act15” fått mye oppmerksomhet. Forslaget har til hensikt å gjøre det mulig for internettbrukere å reservere seg mot at deres aktivitet på nett spores av aktører med interesser i markedet for atferdsbasert reklame. Forslaget går ut på at nettstedseiere er forpliktet til å informere brukerne hvis det er installert informasjonskapsler (cookies) som samler inn personopplysninger om brukeren på nettsiden. Det skal også opplyses om dataene som samles inn videreformidles til eventuelle tredjeparter. Hvis dette gjøres skal brukeren kunne reservere seg mot slik bruk. Hvorvidt forslaget blir vedtatt er imidlertid fortsatt usikkert.

I EU er det igangsatt et arbeid for å utvikle en global ”Do Not Track”-standard. Dette arbeidet gjøres i forlengelse av E-privacy-direktivet (populært kalt cookie-direktivet). Direktivet pålegger tilbydere av nettjenester å innhente samtykke fra brukeren for å kunne plassere eller få tilgang til informasjonskapsler på vedkommendes datamaskin eller smarttelefon. Unntaket er hvis dette er nødvendig for å kunne utføre en tjeneste brukeren eksplisitt har etterspurt. Fristen for å innføre E-privacy-direktivet var i mai 2011. I Norge er direktivet fremdeles ikke implementert.