NAV - sluttrapport

Rettferdighet

Hvordan kan man sikre at algoritmer gir rettferdige resultat? Hvilke faktorer i de ulike delene av et utviklingsløp kan føre til urettferdighet eller diskriminering? Å sørge for at en maskinlæringsmodell opptrer rettferdig og ikke diskriminerer, er en utfordrende oppgave. Like fullt er det et krav at all behandling av personopplysninger skal skje på en rettferdig måte, og at utfallet av modellens beregninger ikke diskriminerer.

Tilnærming til rettferdighet

Når vi i dette sandkasseprosjektet har diskutert rettferdighet, har vi tatt utgangspunkt i tre hovedprinsipper for ansvarlig kunstig intelligens: lovlig, etisk og sikker. Disse er hentet fra «Retningslinjer for pålitelig kunstig intelligens» som er utarbeidet av en ekspertgruppe oppnevnt av EU-kommisjonen. De samme prinsippene er også gjenspeilet i Nasjonal strategi for kunstig intelligens.

EDPB lister i sin veiledning om innebygd personvern opp flere momenter som inngår i rettferdighetsprinsippet, blant annet ikke-diskriminering, den registrertes forventninger, behandlingens bredere etiske problemstillinger og respekt for rettigheter og friheter.

Se Guidelines 4/2019 on Article 25 Data Protection by Design and by Default | European Data Protection Board (europa.eu)

Rettferdighetsprinsippet inneholder altså flere elementer enn ikke-diskriminering. Diskriminering i algoritmer er en kjent utfordring ved kunstig intelligens, og sandkassearbeidet har derfor sentrert seg rundt dette. En stor offentlig aktør som NAV, har et særlig ansvar for å være bevisst den skjeve maktbalansen i møte med brukere av systemene deres.

Rettferdighetsprinsippet står sentralt i andre lovverk, blant annet ulike menneskerettighetsbestemmelser og likestillings- og diskrimineringsloven. Disse lovverkene vil også kunne få betydning for spørsmålet om rettferdighet, og kan også tenkes å gå lengre eller kortere i kravene sine enn personvernreglene.

NAVs modell

NAV har utviklet metoder som gjør at de kan teste hvor rettferdig modellen er. Hovedfokuset har vært modellens bias, altså potensielle skjevheter i datainnsamling, valg av variabler, modellvalg eller implementering, og hvordan disse kommer til uttrykk i skjeve utfall og eventuelle diskrimineringseffekter. Maskinlæringsmodeller vil uunngåelig behandle mennesker ulikt ettersom ønsket om en mer brukertilpasset forskjellsbehandling ofte motiverer utviklingen av en maskinlæringsmodell. Hvordan unngå usaklig forskjellsbehandling, var ett av de sentrale temaene i dette sandkasseprosjektet. NAV ønsker ikke å reprodusere eller befeste eksisterende skjevheter, men risikerer å gjøre nettopp det hvis skjevhetene ikke blir analysert og adressert.

For å understøtte en slik analyse, ønsker NAV å gjøre en vurdering av hva et rettferdig algoritmeutfall innebærer i rettslig forstand. Å utvikle en maskinlæringsmodell som imøtekommer flere lovverks krav til rettferdighet, innebærer en operasjonalisering av juridiske og etiske prinsipper. (I tillegg til personvernforordningen må NAV forholde seg til forvaltningsloven, NAV-loven og likestillings- og diskrimineringsloven.)

For å vurdere om modellen er forenelig med rettferdighetsbegrepene i lovverket, er det nyttig å sannsynliggjøre hvordan modellen vil oppføre seg når den er satt i produksjon. Hvilke utfall kan for eksempel grupper med særlig krav om beskyttelse mot urettmessig diskriminering forvente å få?

NAV peker selv på at en slik analyse ikke er dekkende for alle måter behandlingen av personopplysninger kan være urettferdig eller diskriminerende. Men ved å fokusere på utfallet (uavhengig av forhold knyttet til for eksempel datainnsamling, -prosessering og praktisk modellanvendelse), muliggjør den en diskusjon av hvordan rettferdighetsbegrepet skal forstås og hvordan det kan operasjonaliseres.

I operasjonaliseringen av rettferdighetsvurderingen har NAV valgt å fokusere på utfallsrettferdighet, altså hvorvidt utfallet av modellen fordeler seg rettferdig på tvers av ulike grupper. Vurderingen er komparativ, altså ser den på hvordan ulike grupper som inngår i modellen behandles sammenlignet med hverandre, og ikke målt opp mot en standard eller norm. NAV har også vurdert modellfeil som kaller inn til dialogmøte der det ikke er nødvendig, som mindre alvorlig enn det motsatte. Ett av utgangspunktene for å vurdere rettferdighet i prediksjonsmodellen, er folketrygdens § 8-7a, som instruerer NAV til å holde et dialogmøte «unntatt når et slikt møte antas å være åpenbart unødvendig». Et slikt krav antyder at det i tvilstilfeller heller bør holdes ett dialogmøte for mye enn for lite.

Fra et personvernperspektiv må rettferdighet vurderes både på gruppenivå og individnivå. Modellen vil kunne være i strid med rettferdighetsprinsippet også dersom kun individer blir påvirket negativt i betydelig grad, og ikke bare dersom det skjer en gruppevis diskriminering – for eksempel dersom det er sjeldne kombinasjoner av faktorer som fører til svært negative virkninger for den registrerte.

I tillegg kan det tenkes at prediksjon av sykefraværslengde for enkelte grupper vil slå feil ut når det gjelder vurdering av om det skal innkalles til dialogmøte. Dette kan for eksempel gjelde i tilfeller der framtidig lengde på sykefravær ikke er det beste vurderingsmomentet for avgjørelse av om dialogmøte er «åpenbart unødvendig», og hvor man ut fra et rettferdighetsperspektiv muligens må identifisere slike typetilfeller for å unngå en slik ubalanse. Det kan for eksempel tenkes at flere gravide har lange sykefravær der det fortsatt er åpenbart unødvendig med dialogmøte 2. Det samme kan muligens gjelde for delvis uføretrygdede som skal sykmeldes i ett år fra sin resterende arbeidsprosent med et framtidig mål om full uføretrygd.

Andre momenter

Modellen som er blitt diskutert i sandkassa er et beslutningsstøttesystem. Det betyr at prediksjonen vil være ett av flere informasjonselementer som går inn i veilederens vurdering. Ved en eventuell helautomatisert beslutning, bør det gjøres en ny rettferdighetsvurdering. Samtidig er det viktig å huske på at også mennesker diskriminerer. Det er derfor ikke gitt at det faktiske utfallet for den registrerte blir mer rettferdig av at det er et menneske i loopen. Likevel kan det oppleves som mer inngripende å bli urettferdig behandlet av en maskinlæringsmodell enn av en veileder. I tillegg vil modellens eventuelle urettferdige praksis skalere på en helt annen måte enn dagens system og føre til systematisert urettferdighet. En ny vurdering av den registrertes berettigede/rimelige forventninger til behandlingen, vil sannsynligvis bli enda viktigere i en helautomatisert modell. Det gjelder også revisjon og kontroll av algoritmene.

Hvem har krav på særlig beskyttelse?

Metoden som er valgt for å evaluere maskinlæringsmodellens utfallsrettferdighet, krever at NAV definerer hvilke grupper som skal evalueres opp mot hverandre. I utgangspunktet finnes det vilkårlig mange brukergrupper som kan defineres ut ifra brukermassen som utgjør datagrunnlaget for trening av modellen. Hvilke brukergrupper som skal inngå i en rettferdighetsvurdering av modellen, er et spørsmål med flere ulike sosiale, historiske og samfunnsmessige dimensjoner. NAV er til for alle, men det er verken teknisk eller praktisk mulig å gjøre en vurdering for alle gruppeidentiteter i det norske samfunnet. Hvem som har krav på eller særlig behov for beskyttelse mot skjeve modellutfall, blir dermed et sentralt spørsmål.

Store deler av dette spørsmålet faller mer naturlig inn under likestillings- og diskrimineringsloven, og som en del av sandkassearbeidet inviterte vi inn likestillings- og diskrimineringsombudet for å drøfte disse spørsmålene.

I utgangspunktet er gruppene NAV opererer med – blant annet kjønn, alder og diagnoser – godt forankret i likestillings- og diskrimineringsloven. Det kan tenkes at det i tillegg til de definerte gruppene, også vil oppstå sammensatte diskrimineringsgrunnlag, hvor en kombinasjon av gruppetilhørighet slår spesielt skjevt ut. Det finnes også andre sårbare grupper som det kan være nyttig å inkludere, slik som rusavhengige, personer med omsorgsoppgaver og personer med lav økonomisk status.

Et sentralt spørsmål knyttet til diskriminering, er om en slik prediksjonsmodell forskjellsbehandler på en slik måte at det kan kalles diskriminering. Siden den konkrete modellen som vurderes omhandler sykefraværslengde, og er knyttet til hvor vidt det skal kalles inn til et dialogmøte eller ikke, når man ikke nødvendigvis denne diskrimineringsterskelen. Det vil sannsynligvis stille seg annerledes med en modell for andre typer ytelser med større konsekvenser for den registrerte.

Spenningen mellom personvern og rettferdighet

I alle maskinlæringsmodeller kan det oppstå spenning mellom modellens virkemåte og flere personvernprinsipper. I NAV-prosjektet oppstår et slikt spenningsforhold når NAV skal oppfylle plikten sin til å sjekke om modellen behandler skjevt eller diskriminerer.  I utgangspunktet må man behandle personopplysninger både for å avdekke og for å korrigere utfallsskjevhet. Avdekking av skjevhet i modellens utfall, kan riktignok gjøres uavhengig av om gruppetilhørigheten er en del av modellen. Men for å gjennomføre en evaluering av modellens utfall, må gruppetilhørigheten brukes. Til slutt kan det være mulig å tilfredsstille andre krav til informasjonsrettferdighet uten slik behandling av personopplysninger.  Disse spørsmålene er sentrale for utviklere av ansvarlig KI, og forslaget til ny KI-lovgivning fra EU berører spørsmålene.

Se artikkel 10-5 i EU-kommisjonens forslag til ny forordning om kunstig intelligens.

NAVs tjenester skal være tilgjengelige for hele befolkningen, og NAV må derfor navigere spenningsforholdet mellom personvern og skjeve utfall i hver modell som utvikles. I tillegg er det en stor overlapp mellom gruppene som personvernforordningen definerer som sårbare og gruppene som omfattes av likestillings- og diskrimineringsloven.

Når modellens rettferdighet skal vurderes, er det fra et personvernståsted forskjell på det å benytte opplysninger som allerede inngår i modellen og det å ta i bruk nye opplysninger som i utgangspunktet ikke benyttes i modellen, men som legges til analysen for å sjekke for diskriminerende utfall.  Det oppstår en slik spenning mellom personvern og rettferdighet, når metoden for å avdekke og motvirke diskriminering fordrer omfattende behandling av særskilte kategorier av personopplysninger. Opplysninger som allerede er inkludert i algoritmen er en del av beslutningsgrunnlaget i sykefraværsoppfølgingen. Helt nye opplysninger er derimot avhengig av en ny lovlighetsvurdering. I tillegg er det sannsynlig at de registrerte har en berettiget forventning om at opplysninger som er uvedkommende for vurderingen av om det skal innkalles til drøftingsmøte ikke skal brukes inn i modellen. Det kan tenkes at bruk av anonymiserte eller syntetiske data kan være en løsning, som kan avdekke utfallsskjevhet samtidig som personvernet ivaretas. Fullt ut anonymiserte data regnes ikke som personopplysninger, og dermed kommer ikke personvernforordningen til anvendelse. Dette har vi imidlertid ikke diskutert inngående i sandkassen.

Det finnes ikke nødvendigvis et fullgodt svar på spørsmålet om spenningen mellom personvern og rettferdighet i en maskinlæringsmodell. Like fullt er det en sentral del i diskusjonen om og arbeidet mot ansvarlig kunstig intelligens.

Et toleranserom for forskjellsbehandling?

Formålet med prediksjonsmodellen er å understøtte en form for forskjellsbehandling: å bistå veileder i vurderingen av hvem som bør få tilbud om dialogmøte. Det sentrale spørsmålet vil derfor ikke være hvor vidt modellen forskjellsbehandler, men snarere om den forskjellsbehandler korrekt, samt at forskjellsbehandlingen ikke er urimelig og/eller diskriminerende.

Modellen, som skal predikere sykefravær, er i praksis et automatisert bidrag til de mange tusen vurderingene som hver dag gjøres av veilederne i NAV. Det finnes metoder for å vurdere hvor rettferdige utfallene av en prediksjonsmodell blir, noe som gjør det mulig å tallfeste rettferdigheten på en måte som er umulig i dag. Følgelig kan man ved bruk av en maskinlæringsmodell avdekke diskriminerende utfall som i dag er skjult bak den daglige arbeidsflyten på Norges NAV-kontor. Det åpner for en vanskelig diskusjon om hvor mye urettferdighet man skal akseptere, og hvordan man forholder seg til et slikt tallfestet urettferdighet. Ingen vil påstå at alle NAV-klienter behandles rettferdig, men en maskinlæringsmodell vil nådeløst tallfeste en slik rate.

Det er neppe mulig å sette en prosentsats for et akseptert toleranserom for diskriminering slik likestillings- og diskrimineringsloven er innrettet. Hvilken praksis som fører til den reelt sett største diskrimineringseffekten er like fullt noe norske og europeiske likestillings- og diskrimineringsombud må ta stilling til i møte med slik teknologi.