Finterai, sluttrapport: Maskinlæring uten datadeling

Om prosjektet

Et sentralt spørsmål ved bruk av føderert læring – og i dette sandkasseprosjektet – er: inneholder maskinlæringsmodellene som utveksles mellom deltakere personopplysninger fra lokale data? Svaret har avgjørende betydning regulatorisk, ettersom personvernregelverket bare gjelder hvis man behandler personopplysninger. 

Når man bruker føderert læring-metode på personopplysninger, er det i prinsippet bare læringen, eller «modellparametrene», som skal utveksles mellom deltakerne. Det er likevel en hypotetisk mulighet å avlede personopplysninger hvis modellen har sårbarheter. Selv om personopplysningene ikke blir sendt eller lagret eksternt, blir vektene (modellparametrene) utvekslet. Modellparametre er vektene som representerer modellens læring. Og om modellen har lært personopplysninger, kan vektene hypotetisk sett avsløre denne informasjonen til ondsinnede deltakere, som aktivt angriper modellen.

Men hvis lokale data ikke forlater bankenes lokale datasett, hva er det da som utveksles? Svaret er modellparametre og hyperparametre.

Modellparametre og hyperparametre

Hyperparametere setter rammen for hvordan maskinlæringen skal utføres. Det vil si at den definerer hva læringen skal baseres på, samt at den bestemmer hvordan datapunkter skal henge sammen. På den andre siden inneholder modellparametrene de konkrete vektene (innholdet) som modellen skal lære av.

Til å lære opp modellparametrene brukes en «tilbakeforplantningsalgoritme» (kjent på engelsk som «backpropagation algorithm»), som identifiserer hvordan vekter bør endres for at maskinlæringens prediksjoner skal bli mer presise. Prediksjonene i læringen er det som til slutt skal resultere i identifisering av risiko for hvitvasking. Prosessene som skal gjøre dette mulig består av flere trinn, men hvor anvendelsen av føderert læring er sentral.

Hvorvidt en maskinlæringsprosess basert på føderert læring tillater re-identifisering av data som modellen er trent på, har sammenheng med utformingen av den konkrete modellen og treningsprosessen. Utfordringer må derfor vurderes med utgangspunkt i det konkrete valget av løsningsarkitektur og maskinlæringsmodell. Dette adresseres i kapittelet om sikkerhetsutfordringer.

Hvordan skal Finterai bruke føderert læring?

For å muliggjøre sin ambisjon, vil Finterai bruke føderert læring på en litt annen måte enn Google sin versjon av teknologien. Den største forskjellen kommer helt i begynnelsen, med et steg før modellen distribueres til deltakerne. Her skal en av deltakerne selv bestemme hva slags modell som skal trenes, hvor deltakeren selv definerer hyperparameterne til modellen. Altså er det Finterais kunder og ikke Finterai selv som definerer hvilke maskinlæringsmodeller som skal trenes føderert.

Dette fører så til en ny systemforskjell. Finterais fødererte læring er seriell heller enn parallell. Det betyr at en maskinlæringsmodell først trenes hos en deltaker, før den sendes til neste deltaker. Løsningen står i kontrast til Googles tilnærming, som sender maskinlæringsmodeller ut til deltakerne parallelt, som så oppdaterer den sentrale modellen kontinuerlig. Her er det også en annen viktig forskjell: Google får bare en modelloppdatering (gradienter) tilbake fra sine deltakere, mens Finterai får tilbake hele maskinlæringsmodellen.

Modelloppdateringer er mindre enn maskinlæringsmodellene i sin helhet, og dette sparer dermed nettverkstrafikk. Likevel er det både tekniske, sikkerhetsmessige og forretningsmessige hensyn som gjør at Finterai velger å overføre hele maskinlæringsmodeller. Finterai implementerer også «secure aggregation» på en annen måte enn Google. Forskjellen er blant annet delvis en funksjon av at virksomhetene har forskjellig «use case».

Finterai skal utføre eksplisitte tester av sikkerhetstrusler, skjevhetsproblemer og datalekkasjetrusler som kan oppstå under den fødererte læringen. Dette er en sterkere grad av personopplysningsbeskyttelse og systembeskyttelse enn det Googles opprinnelige modell legger opp til. Det er verdt å merke seg at slike problemer vil oppstå i enhver situasjon der maskinlæringsmodeller deles eller tilgjengeliggjøres – det er altså ikke trusler som er unike i kontekst av føderert læring.

Forenklet, trinnvis fremstilling av Finterais fødererte læring:

  1. En deltakende bank sender forespørsel til Finterai om å bygge en maskinlæringsmodell. Deltakeren oversender sine egne hyperparametere og andre treningsinstrukser til Finterai.
  2. Finterai bygger en modell basert på mottatte instrukser.
  3. Finterai sender denne modellen med hyperparametere til første deltakende bank for trening på deres lokale datasett.
  4. Første deltakende bank mottar modellen og hyperparametre som beskriver treningen. Denne treningen gjøres lokalt hos deltakeren på standardiserte transaksjonsdata og andre data (KYC- og tredjepartsdata).
  5. Finterai får modellen og hyperparametere i retur når treningen er gjennomført lokalt hos den deltakende bank. Modellen lagres deretter i Finterais database.
  6. Finterai kvalitetssikrer modellen, og kontrollerer for blant annet datalekkasjer og skjevheter.
  7. Finterai sender den oppdaterte modellen og relevante hyperparametre til neste deltakende bank.
  8. Deltakeren mottar modellen og hyperparameterne. Modellen trenes lokalt hos deltakeren på samme type data som i steg 4.
  9. Steg 5 til 9 repeteres inntil modellen er ferdig utlært – altså at den har konvergert.
  10. Finterai lagrer den ferdig trente modellen på en server. Alle deltakerne i den fødererte læringen har tilgang til modellene. Disse kan lastes ned fra serveren, og umiddelbart brukes med bankenes lokale datasett for å identifisere mistenkelige transaksjoner.

I denne modellen skal all lagring av data i forbindelse med disse prosessene (inkludert transaksjonsovervåking) skje hos bankene. Finterai skal ikke ha tilgang til bankenes lokale data med transaksjonsopplysninger for å utvikle eller drifte tjenesten.

Drøftinger mellom Datatilsynet og Finterai

Datatilsynet og Finterai har hatt fem arbeidsmøter hvor vi har diskutert teknologien Finterai planlegger å benytte, og utfordringer knyttet til personvernregelverket. Finterai var ved første arbeidsmøte i konseptstadiet av løsningen sin. Derfor har mange av diskusjonene handlet om hvordan Finterai kunne utforme løsningen sin på en måte som best ivaretar personvernet. Datatilsynet har ikke prøvd å påvirke Finterais metode, men diskusjonene har bidratt til å belyse konsekvensene av veivalgene de tar når de utformer sin løsning.

Én konkret lærdom fra arbeidsmøtene er at utviklere kan utforme føderert læring-metoden på mange forskjellige måter. De forskjellige utformingene vil påvirke personvernet i løsningen og i varierende grad ivareta viktige personvernhensyn og åpne opp for sårbarheter. Veivalg som ville medført å samle og sentralisere bankenes transaksjonsopplysninger på en sentral server, vil potensielt kunne skape en stor angrepsflate og utløse store krav til tekniske og organisatoriske tiltak.

På tidspunktet denne sluttrapporten skrives, har Finterai valgt å gå for en mer desentralisert løsning – hvilket minimerer systemets angrepsflate, ettersom forskjellige datalagringssystemer sjeldent kan angripes med samme sårbarhet. Det vil også ha konsekvenser for sikkerhetstrusler, som omtalt i kapittelet om sikkerhetsutfordringer. Informasjon om kravene og konsekvensene fra de ulike systemarkitekturene har vært svært viktige for Finterai, da denne informasjonen har hjulpet dem med å ta gode valg i en tidlig fase preget av mye usikkerhet.

Finanstilsynets involvering i prosjektet

Dette prosjektet berører forholdet mellom hvitvaskingsreglene og personvernreglene, som begge ivaretar viktige samfunnshensyn. Det er Finanstilsynet som fører tilsyn med at rapporteringspliktige etterlever hvitvaskingsreglene, men Finanstilsynet har ikke hatt noen formell rolle i Finterai-prosjektet i Datatilsynets sandkasse.

Hensynene disse to regelverkene skal ivareta inneholder til en viss grad motstridende prinsipper, med enkelte uavklarte grenser mellom kundetiltak og dataminimeringprinsippet. Datatilsynet har gjennom dette prosjektet erfart at det kan være krevende for oss som tilsynsmyndighet å gi tydelige anbefalinger og veiledning om godt personvern i anti-hvitvaskingsarbeidet, uten involvering også fra Finanstilsynet. Det har derfor vært naturlig å konsultere Finanstilsynet om relevante forhold knyttet til tolkningen og praktiseringen av hvitvaskingsreglene underveis i prosjektet.

Finanstilsynet har også deltatt som observatør på ett av arbeidsmøtene i sandkasse-prosjektet. Det er imidlertid viktig å presisere at denne rapporten gir uttrykk for Datatilsynets vurderinger og synspunkter. Finanstilsynet har vurdert om gjengivelser i hvitvaskingsloven er uriktige, men har ikke tatt stilling til faktumbeskrivelser og Finterais vurderinger av regelverket. Finanstilsynet har ikke vært involvert i skrivingen av rapporten.

Finterai og Finanstilsynet har parallelt med sandkasseprosjektet også hatt dialog om en rekke spørsmål knyttet til tolkning av konkrete bestemmelser i hvitvaskingsloven. Denne dialogen har primært dreid seg om spørsmål, som har hatt til hensikt å avklare om hvitvaskingsloven legger begrensninger på hvilke typer opplysninger som kan deles mellom rapporteringspliktige. Disse spørsmålene er besvart av Finanstilsynet i brev sendt direkte til Finterai.