Verktøy og metoder for godt personvern i kunstig intelligens

Kunstig intelligens (KI) er en teknologi i rask utvikling. Det samme gjelder verktøy og metoder som kan hjelpe til med å løse personvernutfordringene ved bruk av kunstig intelligens. Vi har samlet et utvalg eksempler for å illustrere noen mulighetene som finnes. Metodene er ikke evaluert etter praktisk bruk, men vurdert ut fra et mulig potensiale. Det betyr at teknikken kanskje kan være uegnet i dag, men at konseptet er spennende og har et potensiale i seg for videre forskning og fremtidig bruk.

Vi har kategorisert metodene i tre kategorier:

Metoder for å redusere behovet for treningsdata.
Metoder som ivaretar personvernet uten at datagrunnlaget reduseres.
Metoder for å unngå svart boks-problematikken.

1. Metoder for å redusere behovet for treningsdata

En av utfordringene ved kunstig intelligens er at det ofte er behov for store mengder med data når man skal benytte seg av maskinlæring. Ved å foreta et riktig utvalg av egenskaperog gjøre en god tilpassing av disse, kan behovet for data reduseres.

Her er et utvalg andre metoder:

Generative Adversarial Networks

Generative Adversarial Networks (GAN) er en metode for å generere syntetiske data. Per i dag har dette i all hovedsak blitt benyttet til generering av bilder. GAN har imidlertid potensiale til å være en metode for å generere store mengder syntetiske treningsdata av høy kvalitet også på andre områder. Dette vil kunne imøtekomme behovet for både kategoriserte data og store mengder med data, uten at det er nødvendig å benytte store mengder med reelle personopplysninger.

Federated learning

Dette er en form for distribuert læring. Federated learning fungerer ved at den siste versjonen av en hovedmodell lastes ned til en klientenhet, for eksempel en mobiltelefon. Deretter forbedres modellen lokalt på klientenheten basert på lokale data. Endringene på modellen sendes tilbake til serveren hvor den blir slått sammen med endringsinformasjon om modeller fra andre enheter. Det blir så trukket ut et gjennomsnitt av endringsinformasjonen som benyttes til å forbedre hovedmodellen. Den nye forbedrede hovedmodellen kan nå lastes ned av alle klientene. Dette gir en mulighet til å forbedre en eksisterende modell basert på et stort antall brukere, men uten at brukernes data trenger å deles.

Kapselnettverk

Kapselnettverk er en nyere variant av nevrale nettverk. Metoden krever blant annet mindre data for å lære enn det som er vanlig for dyp læring i dag. Dette gir en stor fordel ved at man trenger langt mindre data til maskinlæringen.

2. Metoder som ivaretar personvernet uten at datagrunnlaget reduseres

Det optimale ville være hvis man kunne benytte så mye data som man ønsket til maskinlæring, uten at det gikk på bekostning av personvernet. Innen kryptologifeltet finnes det noen lovende muligheter på dette området:

Differential privacy

La oss for eksempel ta utgangspunkt i en database med personer og egenskaper knyttet til disse. Ved uthenting av informasjon fra databasen så vil svaret inneholde bevisst tilført støy. Det vil derfor være mulig å hente ut informasjon om personene i databasen, men ikke nøyaktig informasjon om enkeltpersoner. En database skal ikke kunne gi et merkbart forskjellig resultat på en spørring om en enkelt person blir fjernet fra databasen, eller ikke. De overordnede trendene eller trekkene ved datasettet vil ikke endre seg.

Homomorfisk kryptering

Homomorfisk kryptering er en krypteringsmetode som gjør det mulig å behandle data mens de fortsatt er krypterte. Dette gjør at konfidensialiteten kan ivaretas uten å begrense muligheten til å bruke datagrunnlaget. Per i dag har homomorfisk kryptering begrensninger som gjør at løsninger som benytter dette vil få en stor ytelsesreduksjon, men teknologien er lovende.

Microsoft har for eksempel publisert et white paper på en løsning som benyttet homomorfisk kryptering i forbindelse med bildegjenkjenning. Det foregår også et aktivt arbeid for å standardisere løsninger for homomorfisk kryptering.

Transfer learning

Det er ikke slik at det alltid er nødvendig å utvikle modellene fra bunnen av. En annen mulighet kan være å basere seg på eksisterende modeller som løser lignende oppgaver. Ved å bruke disse som et utgangspunkt, kan man ofte oppnå samme resultat med færre data og kortere prosesseringstid. Det finnes biblioteker med ferdigtrente modeller som man kan benytte seg av.

RAIRD

Statistisk sentralbyrå (SSB) og Norsk senter for forskningsdata (NSD) har utviklet en løsning med betegnelsen RAIRD som tillater at man kan forske på deres data uten å ha direkte tilgang til det fullstendige datagrunnlaget.

I korte trekk fungerer løsningen slik at forskerne har et grensesnitt som kun gir tilgang til metadata i det underliggende datagrunnlaget. Datagrunnlaget kan for eksempel være et kreftdiagnoseregister som inneholder felter for alder, kjønn, fødselsdato og fødested. Forskeren kan så gjøre spørringer basert på metadataene og få ut en rapport som kun inneholder aggregerte data.

Løsningen er lagt opp for å forhindre at man kan hente ut data om veldig små grupper og enkeltpersoner. Denne typen løsning kan dermed også benyttes når man trenger data til maskinlæring. Istedenfor at man får en rapport som sluttresultat, kunne man fått en modell ut av systemet.

3. Metoder for å unngå svart boks-problematikken

En problemstilling er manglende gjennomsiktighet i forbindelse med maskinlæring og automatiserte avgjørelser. Dette er en utfordring for både de som benytter et slikt system og menneskene som blir behandlet i det. Utviklere av løsninger som baserer seg på maskinlæring kunne ha en stor fordel av å vite hva som skjer under panseret for å kvalitetssikre og forbedre utviklingen.

Explainable AI (XAI)

XAI er en tanke om at alle automatiserte avgjørelser som blir tatt skal være mulig å forklare. Når det er mennesker med i en prosess vil det som oftest være ønskelig at det følger med en forklaring på utfallet. Her vil det være interessante muligheter. Hvordan kan man bygge nye løsninger som i tillegg til å være nøyaktige også gir gode forklaringer? Det vil også være et behov for å kunne ettergå løsninger som ikke har dette innebygd. For utviklere som benytter seg av «Transfer learning» vil det sannsynligvis også være attraktivt.

På dette området er det blant annet et prosjekt i regi av Defense Advanced Research Projects Agency (DARPA) hvor de ønsker mer forskning på forståelige forklaringer på automatiserte avgjørelser. Blant annet har de sponset Oregon State University med 6,5 millioner dollar over fire år for å forske på temaet. Målet er å kunne lage kunstig intelligens som kan forklare avgjørelsene sine slik at man kan forstå og ha tillitt til systemet. Uansett er det grunn til å tro at denne forskningen vil hjelpe hele feltet fremover.

LIME

En tilnærming til XAI er LIME. Lime er en modell-agnostisk løsning som lager forklaringer som vanlige mennesker kan forstå. Hvis man for eksempel har bildegjenkjenning, vil den kunne vise hvilke deler av bildet som er relevant for hva den tror bildet er. Dette gjør det enkelt for hvem som helst å forstå grunnlaget for en avgjørelse.