Finterai, sluttrapport: Maskinlæring uten datadeling

Om føderert læring

Føderert læring er en metode for maskinlæring. Maskinlæring er et fagområde innenfor kunstig intelligens som innebærer utvikling av algoritmer som «lærer» ved å identifisere mønstre og sammenhenger i store datasett.

I utgangspunktet trenger maskinlæring data for å lære og løse problemer – og mer data gir som regel bedre problemløsning. For utviklere kan det imidlertid være en utfordring å få tilgang til nok data til å utvikle gode algoritmer. Spesielt gjelder dette i tilfeller hvor dataene består av personopplysninger, som det er strenge regler for om og hvordan man kan behandle.

Dersom en organisasjon ser at de trenger mer data, kan de samarbeide med andre organisasjoner. Dette gjøres som regel ved at organisasjonene laster opp sine data til en felles sentral server eller maskin, som alle de samarbeidende organisasjonene kan bruke til trening av maskinlæringsmodeller. Hvis man ikke har et behandlingsgrunnlag – det vi si et rettslig grunnlag for å behandle personopplysninger – for å dele opplysninger med andre, er dette imidlertid ikke mulig. Det er derfor et stort potensiale for kunstig intelligens som kan anvende store mengder data i sin læring, men som samtidig ikke krever deling av personopplysninger. Og det er nettopp dette som er hovedmålet ved føderert læring: å få til «big data» maskinlæring uten datadeling.

Historikk

Føderert læring ble utviklet av Google i 2016. Google brukte metoden for å trene en maskinlæringsmodell på data lokalisert på mobiltelefoner, men uten å laste opp dataen til et sentralisert nettverk. Formålet var å bygge maskinlæringsmodeller som ble oppdatert basert på data som lå på brukernes mobiltelefoner. Teknologien ble blant annet brukt i tastaturapplikasjonen Gboard for å predikere hvilke ord som tastes inn. I etterkant har teknologien blitt delt og brukt i andre sammenhenger.

Les Googles eget blogginnlegg om føderert læring (engelsk)

Les artikkelen "Federated Learning for Mobile Keyboard Prediction" på Google Research (engelsk)

De siste årene har ulike aktører forsket på føderert læring, som har generert flere type alternative oppsett for metoden. Men føderert læring er fortsatt et nytt verktøy og det er foreløpig begrenset kommersiell eller offentlig bruk som involverer store mengder data.

Hvordan foregår føderert læring?

Forskjellige modeller for føderert læring

Den vanligste arkitekturen for federert læring er såkalt «horisontal føderert læring». Det mindre brukte alternativet er «vertikal føderert læring» som er mer vanlig hvis to aktører deler et datasett. Andre arkitekturer inkluderer «federated transfer learning», «cross-silo federated learning, og «cross-device federated learning». Vertikal føderert læring er situasjonen der aktører har forskjellige kolonner/kategorier med data – i denne situasjonen trengs ikke datastandardisering.

Trening av kunstig intelligens ved bruk av føderert læring kan skje på flere forskjellige måter. Under har vi beskrevet de trinnvise prosessene i en vanlig modell for føderert læring (basert på modellen Google utviklet i 2016):

  1. Deltaker mottar en maskinlæringsalgoritme.
  2. Deltaker bruker det lokale datasettet til å trene maskinlæringsalgoritmen.
  3. Deltakere krypterer sin lokale «læringspakke» som de sender til en ekstern sentral server. Læringspakkene inneholder ikke personopplysninger.
  4. Serveren utfører en sikker aggregering av pakkene.
  5. Aggregeringen av læringspakkene blir brukt til å oppdatere maskinlæringsmodellene som er lagret sentralt, med læring fra deltakerne. Maskinlæringsmodellen som er lagret sentralt er den samme som opprinnelig ble sendt ut til deltakerne for lokal trening.
  6. Steg 1 til 5 repeteres inntil maskinlæringsmodellen er ferdig opplært.
  7. Deltaker mottar den ferdig opplærte maskinlæringsmodellen og får nå bedre lokale prediksjoner.

At det bare er modellparameterne som utveksles, betyr at lokale data – som ofte består av personopplysninger – i teorien ikke trenger å overføres mellom deltakere eller mellom deltakere og den sentrale serveren. Den innebygde begrensningen av deling av lokale data, gjør at føderert læring er ansett som en mer personvernvennlig tilnærming til kunstig intelligens.