Politihøgskolen, sluttrapport: PrevBOT

Politihøgskolen, sluttrapport: PrevBOT

Kunstig intelligens (KI) kan identifisere mening i tekst og si noe om sinnsstemninger og egenskaper hos den som skriver teksten. Politihøgskolen, som leder PrevBOT-prosjektet, ønsker å utforske mulighetene for å lage et verktøy, som automatisk kan patruljere det åpne internettet med formål å avsløre og forhindre forsøk på seksuell utnyttelse av mindreårige. 

Sammendrag

Politihøgskolen (PHS) ønsker å bruke chatlogger fra straffesaker, der rettsvesenet har konkludert med at grooming har skjedd, til å trene et KI-verktøy i å identifisere grooming-samtaler. Målet er at den skal kunne peke ut sosiale arenaer på nett det er verdt å følge ekstra med på, og – ikke minst – den skal kunne flagge pågående enkeltsamtaler, slik at politiet kan stoppe groomingen og forhindre overgrep.

I dag er dette et forskingsprosjekt på konseptstadiet. I dette sandkasseprosjektet har vi derfor først og fremst sett på om det er mulig, i forskingsøyemed, å utvikle PrevBOT innenfor gjeldende lover og etiske retningslinjer.

Oppsummering av resultatene

  • Juridisk: I sandkasseprosjektet har vi først tatt opp noen generelle – men prinsipielle – problemstillinger knyttet til politiets bruk av personopplysninger til utvikling av kunstig intelligens. Vurderingen har imidlertid fokusert på hvorvidt det i forbindelse med PrevBOT-prosjektet kan behandles personopplysninger. Dette er vurderinger som kan være relevante for andre prosjekter og andre deler av politiet.
  • Etisk: PrevBOT er et godt eksempel på et prosjekt med et så hederlig formål, at det er fare for å hellige midler på veien. Politihøgskolen ønsker at PrevBOT ikke bare skal være et lovlig verktøy, men at det også skal leve opp til kravene for ansvarlig KI. Sandkasseprosjektet har gjort en første steg-analyse, og vurderer at det er etisk forsvarlig å starte forskingen, basert på straffesaksdata. Vi peker også på sentrale etiske dilemmaer ved og viktige verdier for utviklingen.
  • Teknisk: Politihøgskolen ønsker å bygge PrevBOT på Tsetlin-maskin (TM). TM er en forholdsvis fersk metode for maskinlæring, men styrken ligger i kategorisering og forklarbarhet. Det er forventet at TM er bedre på forklarbarhet enn nevrale nettverk, altså at man lettere får svar på hvorfor verktøyet konkluderer som det gjør. God forklarbarhet vil være viktig for transparens og tillit til et verktøy, som potensielt kan oppleves innvaderende i personlige samtaler. Om de teknologiske funksjonene PHS ønsker å sette sammen i PrevBOT – og som hver for seg har vist seg mulige i nevrale nettverk – virkelig lar seg overføre til og kombinere i en Tsetlin-maskin, er det store spørsmålet i forskingsprosjektet. I sandkasseprosjektet har vi ikke fått se hvordan en Tsetlin-maskin virker i praksis, men vi har gjort en teoretisk vurdering, og har på generelt grunnlag håp om at den kan bidra til mer bærekraftige KI-verktøy med god forklarbarhet om noen år.

Effektiv og etisk forebygging av grooming med KI?

Se opptak fra lanseringswebinaret for PrevBOT-rapporten.

Veien videre

Sandkasseprosjektet har vurdert og skissert hvordan PHS lovlig kan forske på et slikt KI-verktøy. Grønt lys for PrevBOT-forsking kan riktignok være lite verdt, om verktøyet som forskes på og utvikles ikke vil være lovlig i bruk. I bruk vil et slikt verktøy ikke komme unna å behandle (sensitive) personopplysninger. Og – alt etter hvordan man innretter det – vil bruken kunne oppleves temmelig inngripende i personvernet til både offer og overgripere, og tilfeldige personer som får sin chat analysert av PrevBOT mens man er på nettet.

Det vil nok være smart å være tidlig ute med en plan for vurderinger av lovligheten ved et slikt verktøy i bruk. Det kan definitivt være tema for et nytt sandkasseprosjekt.

PrevBOT-prosjektet er fortsatt i en tidlig fase, og veien videre avhenger av mange valg som må tas. Sett fra et personvernperspektiv er det spesielt interessant om de holder fast på at det er et verktøy som skal forebygge i form av å avskjære forsøk på grooming. PrevBOT-prosjektet er nå tydelige på at det er det de ønsker. Samtidig er det krefter som på veien fra idé til bruksklart KI-verktøy kan prøve å påvirke, for at verktøyet også skal kunne samle bevis mot og jakte på overgripere. Datatilsynet anbefaler prosjektet tidlig å identifisere bruk av PrevBOT de vurderer som uetisk og uønsket, og i utviklingsfasen jobbe for å stenge dører for nettopp slik bruk.

Ønske om frihet og ønske om trygghet blir gjerne framstilt som motstridende mål. PrevBOT-prosjektet er riktignok et godt eksempel på at frihet, trygghet og personvern er gjensidig avhengig av hverandre, og at det handler om å finne balansen. De mindreårige har krav på autonomi og et privatliv, men uten et visst nivå av trygghet på nettet, vil de ikke kunne utøve sin autonomi og sine friheter. Når verktøyet etter hvert skal designes mer i detalj, blir det viktig for prosjektet å søke etter dette balansepunktet.

Sandkasseprosjektet ser at PrevBOT på flere måter kan bidra til å gjøre internettet og hverdagen tryggere for sårbare grupper. PrevBOT kan ende opp med å ikke bare bli ett verktøy, men danne grunnlaget for flere forskjellige tiltak, som til sammen gir effektivt vern mot nettbasert grooming.

Les mer om veien videre i siste kapittel.

Hva er sandkassa?

I sandkassa utforsker deltakere sammen med Datatilsynet personvernrelaterte spørsmål, for å bidra til at tjenesten eller produktet deres etterlever regelverket og ivaretar personvernet på en god måte. 

Datatilsynet tilbyr veiledning i dialog med deltakerne, og konklusjonene fra prosjektene er ikke vedtak eller forhåndsgodkjenning. Deltakerne står fritt i valget om å følge rådene de får.

Sandkassa er en verdifull metode for å utforske problemstillinger der jussen har få praktiske eksempler å vise til, og vi håper konklusjoner og vurderinger i rapporten kan være til hjelp for andre med liknende problemstillinger.

Om prosjektet

ChatGPT er for folk flest beviset på at maskiner er i stand til å identifisere mening i tekster. Men teknologien har allerede i flere år vært i stand til å skjønne innholdet i tekst, ja til og med avsløre følelser og egenskaper hos den som skriver. 

Kommersielle aktører bruker allerede slik teknologi i forbindelse med markedsføring og kundekontakt. Det kan være alt fra å følge med på bedriftens omdømme på nett, for å få en chatbot til å fungere best mulig, til adferdsbasert markedsføring eller å holde på en bruker lengst mulig i et spillunivers eller på en plattform for sosiale medier (SOME). Så hva om slik teknologi kan forhindre seksuell utnytting og overgrep mot barn?

Professor Inger Marie Sunde ved Politihøgskolen (PHS) ble satt på denne tanken for noen år siden. Inspirasjonen kom blant annet fra Sweetie-prosjektet ved Universitetet i Leiden, som utviklet en chatbot i form av en datagenerert, ti år gammel jente fra Filippinene. «Hun» kunne observere og automatisk delta i chatrom, og formålet var å forhindre seksuell utnytting av barn via webkamera. Prosjektet skal ha avslørt over 1000 overgripere.

Professor Sunde har siden skrevet to akademiske artikler, sammen med kollega Nina Sunde, om hvordan en PrevBOT kan forhindre forsøk på utnyttelse av barn.

Les: Part 1 - The Theoretical and Technical Foundations for PrevBOT (engelsk)

Les: Part 2 – Legal Analysis of PrevBOT (engelsk)

PrevBOT-prosjektet er organisert som et forskningsprosjekt som består av flere arbeidspakker, hvor rollen til PHS er å lede prosjektet og de ulike aktørene. Flere aktører er involvert i arbeidet: Politiets IT-enhet (PIT), Centre for Artificial Intelligence Research (CAIR) ved Universitetet i Agder (UiA), Kripos m.fl.

Overgrep, fra offline til online

Seksuell utnyttelse og overgrep mot barn (CSEA) kom ikke med internettet. Imidlertid har digitaliseringen av samfunnet gitt overgripere nye og lett tilgjengelige steder der barn samles, ofte uten foreldretilsyn. Så med internett, smarttelefoner og inntoget av sosiale medier og chatrom, er det lettere for seksuelle overgripere å komme i kontakt med mindreårige de kan utnytte. Dette speiles også i en dramatisk økning i rapporter om CSEA.

Den økte utbredelsen av apper for sosiale medier, meldinger og direktestrømming de siste årene har ført til en dramatisk økning i rapporter om denne forbrytelsen.

- EPCAT International (2020)

Det er gjerne i chatrom overgripere oppnår kontakt med potensielle ofre. I tillegg er spillplattformer og sosiale nettverk med meldingsfunksjoner områder der overgripere initierer kontakt med barn. Når kontakt og interesse er etablert, vil overgriperne ofte prøve å få samtalen og den videre groomingen over i skjulte fora, i form av direktemeldinger.

Grooming refererer til en manipulativ prosess der en voksen, eller noe eldre, etablerer tillit og forbindelse med en mindreårig med det mål å utnytte dem seksuelt. Dette inkluderer ofte virtuell kommunikasjon gjennom sosiale medier og internettplattformer. Groomeren kan bruke metoder som komplimenter, gaver, manipulasjon og trusler for å få offeret til å føle seg trygg og avslappet, før hen dreier samtalen over til emner av seksuell karakter. 

Heldigitale overgrep

Den digitale tidsalderen har også kommet med en ny form for seksuell utnyttelse; de heldigitale overgrepene. Overgrepene skjer ofte på barnets eget soverom, mens foreldrene er uvitende om de pågående forbrytelsene. Barna lokkes til å utføre seksuelle handlinger foran kamera, alene eller sammen med noen andre. Krenkelsen kan oppleves like ille, og den både forlenges og forsterkes ved vissheten om at det sannsynligvis finnes et opptak av det «der ute». Slikt overgrepsmateriale deles gjerne på det mørke nettet. 

Folkehelseproblem

«Svært aktive lovbrytere har ofte fått operere uforstyrret over lang tid, slik at de har rukket å komme i kontakt med opptil flere hundre fornærmede før de blir stanset,» står det i en rapport fra Nasjonalt kunnskapssenter om vold og traumatisk stress (NKVTS) og Velferdsinstituttet Nova ved Oslo Met. Den ble lansert i januar 2024, og kildene i den snakker om en tidobling av problemet det siste tiåret. Det er flere saker, de er større i omfang, og innholdet er grovere.

Se også NRKs omtale av rapporten: - Grovere, hardere, kaldere.

Erfaringer fra norske straffesaker viser at gjerningspersoner, via nettet, kan begå overgrep mot svært mange barn samtidig. Før internett forekom dette sjeldent. Med internett har vi sett saker hvor for eksempel én 27-åring misbrukte 270 barn, hovedsakelig gutter under 14 år, over en periode på 2,5 år.

Barneombudet omtalte det som et folkehelseproblem, da rapporten «Alle kjenner noen som har opplevd det» ble publisert i 2018. En undersøkelse fra NKVTS i 2020 viste at 4,5 prosent av de spurte ungdommene hadde opplevd seksuell utnyttelse fra en voksen i løpet av det siste året. Mens Nasjonal trygghetsundersøkelse 2022 viste at 12 prosent av jentene og 2,6 prosent av guttene mellom 16 og 19 år hadde blitt utsatt for digital seksuell vold det siste året.

Det må riktignok påpekes at de fleste seksuelle overgrep skjer fra jevnaldrende eller nære relasjoner. En PrevBOT, slik den er tenkt, vil ikke kunne forebygge mot det. Men med en kraftig økning i online grooming og heldigitale overgrep, vil et effektivt våpen mot dette likevel være merkbart i det totale bildet.

Internasjonalt samarbeid

Internasjonalt samarbeid er etablert i forsøk på å bekjempe online CSEA. I 2017 satte EU nettbasert CSEA på listen over de ti topp prioriterte områdene innenfor organisert og alvorlig internasjonal kriminalitet. Til tross for innsatsen, øker tallet på saker og ofre. Det nytter altså ikke bare å løpe etter overgriperne, i et forsøk på å etterforske seg ut av det.

Det må forebygging til.

Hvordan skal PrevBOT virke?

Navnet «PrevBOT» står for «Preventive Robot», noe som viser til det preventive (forebyggende) formålet, og til at den kunstige intelligensen implementeres i robotteknologi.

PrevBOT kan være tilstede i chatfora, men i sin grunnleggende form er den ikke en generativ chatbot som autonomt deltar i samtaler. Hvorvidt en slik interagerende funksjon bør legges til i fremtiden må blant annet vurderes opp mot rettslige rammer for infiltrasjon og bevisprovokasjon, samt etiske avveininger. Prosessen i sandkassa har forholdt seg til PrevBOT som et passivt observerende verktøy, og er følgelig ikke å anse som en chatbot.

Den grunnleggende egenskapen en PrevBOT må ha, er altså å overvåke samtaler i åpne fora på nettet, for så i sanntid å identifisere samtaler der grooming pågår. Ved å hente ut statistikken fra verktøyet, vil politiet også kunne avdekke steder på nett med økt risiko for at grooming skjer. Boten skal med andre ord peke ut problematiske steder og personer.

Hvordan identifisere grooming?

Hvis vi går inni boten, er det i hovedsak tre ting den skal gjøre:

  1. Detektere grooming-språk

    Boten må gjenkjenne ord og formuleringer for sex-prat. Ikke bare i leksikalsk forstand. Den må også være oppdatert på slang og kodeord som blir brukt. Med god og kontinuerlig trening og oppdatering vil den kanskje klare å kjenne igjen tegnene på en groomingsamtale, før språket blir eksplisitt seksuelt.
  2. Avsløre falske profiler

    Boten skal anslå kjønn og alder på de chattende. Mange overgripere utgir seg for å være noe annet enn de i realiteten er. (Det kan gjelde de mindreårige også.) Ved å anslå kjønn og alder, kan boten oppdage samtaler der det er stor aldersforskjell. Slik kan PrevBOTen oppdage om det er voksne i fora der de andre er unge, eller motsatt – om mindreårige har sneket seg inn i et chatrom med 18-årsgrense.
  3. Sinnsstemningsanalyse

    Boten skal identifisere følelsene til de chattende. Responstid, tempoet på inntasting, språket og måten å skrive på kan avsløre om du som chatter for eksempel er aggressiv/pågående/utålmodig selv om innholdet i det du skriver antyder at du er rolig og avslappet. Det kan være et tegn på at du har andre hensikter enn dem du uttrykker.

Det er ikke slik at boten må mistenke løgn om alder/kjønn og følelse, for at samtalen skal klassifiseres som pågående grooming. Men disse tre deteksjonene vil til sammen gi et godt bilde i vurderingen av samtalene.

Når PrevBOTen klassifiserer en samtale som potensiell grooming, blir samtalen flagget. Tanken er så at mennesker overtar, og beslutter om det er grunnlag for å gripe inn eller ikke, og eventuelt hvordan. PrevBOT er altså tenkt som et beslutningsstøtteverktøy.

Hvordan politiet skal gripe inn i samtalene som flagges, er ikke beskrevet. Den opprinnelige tanken i prosjektet har vært, at groomeren på en eller annen måte advares, og groomingforsøket på en eller annen måte avskjæres. Politiet har allerede nettpatruljer som følger med og har erfaring med slikt. Håpet er at PrevBOT gir dem økt kapasitet.

Sandkasseprosjektet har løst diskutert om det kan være vel så effektivt om «offeret» også får en melding, eventuelt om bare «offeret» blir advart. For sårbare mindreårige kan det være uheldig om samtalen bare plutselig blir brutt, uten at de skjønner hva som har skjedd. Vi konkluderte ikke med hva som vil fungere best, men anbefaler PrevBOT-prosjektet å prøve ut alternativene – og uansett tar hensyn til «ofrene» - i måten groomingforsøkene avskjæres på.

Å detektere seksualisert språk

Det er gjort en del forsking internasjonalt på grooming-lingvistikk. Mange tar utgangspunkt i R. OʼConnellʼs fem-stegs modell for nettbaserte grooming-prosesser. Som modellen viser, er det kanskje først i det femte steget at samtalen blir eksplisitt seksuell. Man kan likevel gjenkjenne grooming-forsøk i de tidligere stegene. Særlig fasen Risikovurdering kan være avslørende. Nyere forsking antyder også at dagens nettgroomere er mer utålmodige, eventuelt forsiktige, og gjør risikovurderingen tidligere i løpet.

Med maskinlæring (ML), analyse av naturlig språk (NLP) og nevrale nettverk kan man trene modellene til å gjenkjenne tegnene på en groomingsamtale. «Fasiten», som modellene trenes på, vil være logger fra samtaler der man i ettertid vet at det var grooming som foregikk.

Stilometri (eng.: stylometry) er studien og analysen av lingvistisk stil og skrivemønstre. Da kan man se på ordforråd, setningslengder, ordfrekvens og alt annet kvantifiserbart ved teksten. I en samtale kan det for eksempel være interessant å se hvor ofte man stiller spørsmål. Forskerne Borj og Bours ved NTNU har hatt lovende resultater i sine forsøk på å gjenkjenne groomingsamtaler. Etter å ha brukt ulike klassifiseringsteknikker lyktes de i å oppdage overgriperne med opptil 98% nøyaktighet.

Å avsløre løgn

Forfatterprofilering innebærer å analysere tekster for å identifisere forfatterens kjønn, alder, morsmål, personlighetstrekk, følelser og lignende. Forsøk viser at slik profilering kan være imponerende treffsikker, særlig om kategoriene er grove – er forfatteren et barn (under 18 år) eller en voksen (for eksempel over 25 år) – og om modellen er trent på spesifikke tema (f.eks. chatromsamtaler) heller enn et bredt sjangergrunnlag.

Dersom den chattende i tekst eller brukerprofil gir seg ut for å være noe annet enn kategoriene forfatterprofileringen plasserer vedkommende i, kan det tale for at grooming er på gang.   

Å tolke følelsene

Sinnsstemningsanalyse, også kjent som sentimentanalyse, er å bruke NLP og maskinlæringsteknikker for å identifisere og trekke ut subjektiv informasjon fra tekstdata. Her brukes altså kunstig intelligens, som kan lese det folk skriver og sortere det i følelseskategorier. Et enkelt eksempel er bedrifter som følger med på hvordan produktene deres omtales. I analysen kan teksten sorteres som “positiv”, “negativ” eller “nøytral”, eller man kan finmaske sorteringen i større grad.

Sinnsstemningsanalyse brukes på mange felt. Underholdningindustrien bruker det til å måle publikumsreaksjoner på tv-serier, når de skal vurdere å avslutte eller forlenge en produksjon. I politikken brukes det til å analysere folks reaksjoner på politiske utspill og hendelser. Og i finanssektoren brukes det til å fange opp trender i finansmarkedet.

Eksemplene over gjelder sinnsstemningsanalyse på gruppenivå. Men det kan også brukes på individnivå. Det er samme metoder som ligger bak når sosiale medie-plattformer følger med på aktiviteten din – hva liker du, hva kommenterer du, hva poster du, hva stopper du opp ved når du scroller? Jo bedre de kjenner følelseslivet ditt, jo mer effektivt kan de treffe med annonser og innhold.

Tekstlig biometri

Dagens teknologi kan ikke bare putte forfattere i båser, som med forfatterprofilering, og avsløre forfatterens ekte følelser. Den kan til og med identifisere den enkelte forfatter. Tekstlig biometri kaller man det, og tanken er at den enkeltes språk er såpass unikt, at man kan snakke om tekstlige fingeravtrykk. På skisseblokka har PrevBOT også fått denne egenskapen, for å kunne gjenkjenne tidligere dømte seksualforbrytere, som har blitt aktive på nett igjen. Denne egenskapen har vi riktignok holdt utenfor diskusjonene i sandkasseprosjektet.

Forklarbare Tsetlin

PHS ser for seg å bygge PrevBOT på Tsetlin-maskin (TM). Styrken til en Tsetlin-maskin, er at den skal være bedre på forklarbarhet enn nevrale nettverk. I et prosjekt som PrevBOT, der mennesker skal bli kategorisert som potensielle overgripere basert på (i de fleste tilfeller) lovlig kommunikasjon på åpent nett, vil det være viktig å kunne forstå hvorfor verktøyet konkluderer som det gjør.

En grundig beskrivelse av Tsetlin-maskinen finner du i kapittel 6 i denne rapporten.

Figuren illustrerer beslutningsprosessen i PrevBOTen. PS står for problematiske steder, mens PP står for problematiske personer. Illustrasjonen er hentet fra Sunde & Sundes artikkel fra 2021. Diskusjonene i sandkassen har tatt utgangspunkt i at muligheten til å spore tekstlige fingeravtrykk ikke blir lagt inn som en egenskap i PrevBOTen.

Av figuren framgår også det å starte etterforsking som et alternativ. PrevBOT-prosjektet oppgir at det ville være mest aktuelt for funksjonen tekstlig fingeravtrykk, som altså ikke lenger er aktuell.

Mål for sandkasseprosjektet

PrevBOT reiser en rekke spørsmål og noen tydelige etiske dilemmaer. Et grunnleggende juridisk spørsmål er om PHS/politiet i det hele tatt kan utvikle og bruke et slikt verktøy uten å komme i konflikt med personvernregelverket.

Og vil svaret avhenge av hvordan PrevBOT er tenkt å operere, hvilke funksjoner som legges inn og ikke? Hvilke data, inkludert personopplysninger, kan de bruke til å trene et slikt verktøy? Hvordan bør de eventuelt behandle disse dataene når verktøyet utvikles? Og hva kan de lagre når det er i bruk? Og kan PrevBOT utviklet med bruk av personopplysninger, overføres til bruk i politiets kriminalitetsforebyggende virksomhet på nett?

Spørsmålene knyttet til et slikt verkøy blir ikke færre når vi beveger oss fra det rent juridiske til det etiske. Er det etisk riktig å overvåke «alle» for å ta noen få (selv om de blir stadig flere)? Hvordan er det etisk riktigst å kalibrere PrevBOTen i spennet mellom å flagge samtaler så tidlig som mulig, med fare for å stemple uskyldig chattende, eller vente med flagging til groomingen er mer åpenbar, med fare for at de glipper unna og får med seg offeret inn i lukkede rom? Og sett at PrevBOT blir et rent forebyggende verktøy, som utelukkende skremmer overgripere og varsler potensielle ofre, vil det være etisk riktig av politiet å ikke gå videre med å prøve «å ta» en potensielt farlig personen, om politiet har fått informasjon som kan identifisere hen?

Tema og avgrensing

Prosjektet er i en så tidlig fase, med en del retningsvalg som må tas, at vi ikke kunne gape over å gi en totalvurdering av PrevBOT-prosjektet.

For vurdering av lovligheten ble sandkasseprosjektet avgrenset til utviklingsfasen. De mest sentrale diskusjonene har dreid seg om taushetsbelagte tekstdata fra norske straffesaker om nettovergrep, som PrevBOT-prosjektet ønsker å bruke som trenings- og testdata i utviklingsfasen. Prosjektet har allerede en mindre mengde slike data i kraft av en tillatelse fra Riksadvokaten, jf. politiregisterloven § 33, som gir adgang til å oppheve taushetsplikten for forskningsformål.

Sandkasseprosjektet tok også sikte på å kartlegge og delvis drøfte noen etiske spørsmål sentrale for oppstarten og tidlig fase av PrevBOTs forskingsprosjekt, slik at de har noen føringer når de staker ut kursen for utviklingen av verktøyet.

Målene ble konkretisert slik:

  1. Avklare rettslige krav til behandling av tekstdata i bevismateriale fra avsluttede straffesaker, i utviklingsfasen av PrevBOT.
  2. Konkretisere hva «ansvarlig KI» betyr når teknologien brukes av politiet for å analysere kommunikasjon på internett, kanskje særlig med fokus på forklarbarhet.

Juridisk: Generelt om politiets behandling av personopplysninger til utvikling av KI

Utvikling av KI består av flere stadier, herunder faser for utvikling, bruk og etterlæring:

tre fasr.PNG

Den juridiske fremstillingen vil fokusere på politiets behandling av personopplysninger i det første stadiet, utviklingsstadiet. I dette stadiet kan man se for seg to ulike situasjoner hvor personopplysninger behandles av politiet til utvikling av kunstig intelligens, hvor man i den ene sitasjonen gjør dette med forskningsformål. Utvikling kan altså skje som forskning, hvilket betyr at «forskning» og «utvikling» ikke nødvendigvis er gjensidig utelukkende begreper. Rapporten vil i hovedsak fokusere på behandling av personopplysninger til forskning på utvikling av kunstig intelligens i PrevBOT-prosjektet (situasjon 2 i tabellen).

Vi vil likevel begynne med en generell introduksjon til det juridiske landskapet som gjelder i politisektoren, i forsøk på å gi noen innledende avklaringer for situasjon 1 i tabellen. For det første er det viktig å avklare hvilket regelverk som kommer til anvendelse, dvs. politiregisterloven eller personvernforordningen. For det andre, siden det er tale om å bruke etterforskingsdata/straffesaksdata i utviklingen av den kunstige intelligensen, oppstår det spørsmål om loven gir adgang til slik behandling utover det opprinnelige formålet.

Å finne riktig regelverk

Personvernforordningen er inkorporert i norsk rett gjennom personopplysningsloven, hvilket betyr at forordningen skal gjelde som norsk rett. Hovedregelen er at all behandling av personopplysninger er regulert av personopplysningsloven. Dette gjelder med mindre personvernforordningen selv gjør unntak fra dens virkeområde. Personopplysningsloven § 2 regulerer lovens saklige virkeområde og angir, at personvernforordningen i tilfelle konflikt går foran bestemmelser i annen lov som regulerer samme forhold, jf. EØS-loven § 2.

Politiets behandling av personopplysninger er i hovedsak regulert av politiregisterloven, som implementerer politidirektivet (LED), supplert av politiregisterforskriften. Personvernforordningens regler gjelder ikke på området som dekkes av politidirektivet jf. personvernforordningens artikkel 2 nr. 2 bokstav d og politidirektivet artikkel 1 nr. 1. Med andre ord er lovgivers intensjon at behandlingen av personopplysninger havner innenfor enten det ene eller det andre regelverket.

Når en skal vurdere politiets behandling av personopplysninger til utvikling av kunstig intelligens, må man altså se hen til virkeområdet til de to aktuelle lovene – faller behandlingen innenfor personopplysningsloven/personvernforordningen eller politiregisterloven?

I denne vurderingen vil vi begynne med å se på unntaket fra personvernforordningens virkeområde i dens artikkel 2 nr. 2 bokstav d. Unntaket angir at forordningen ikke får anvendelse på politiets behandling av personopplysninger som utføres:

Dersom politiet behandler personopplysninger til andre formål enn disse, blir dermed behandlingen regulert av personvernforordningen. Det er altså formålet med behandlingen som bestemmer hvilket regelverk som kommer til anvendelse ved politiets behandling av personopplysninger.

Det er liten tvil om at utvikling av verktøy basert på kunstig intelligens vil kunne hjelpe politiet med å utføre sitt samfunnsoppdrag, og dermed bedre kunne utnytte sine ressurser i sin kriminalitetsbekjempelse. Samtidig er unntakene som opplistet i personvernforordningen artikkel 2 nr. 2 bokstav d, etter sin ordlyd, rettet mot mer tradisjonelle og utpregede «politioppgaver». EU-domstolen har også uttalt at unntaket i artikkel 2 nr. 2 bokstav d i personvernforordningen skal tolkes «strengt».

Slik Datatilsynet vurderer det, retter unntakene i forordningen artikkel 2 nr. 2 bokstav d seg mot politiets kriminalitetsbekjempende virksomhet. I og med at unntakene skal tolkes strengt, er det vanskelig å innfortolke utvikling av verktøy basert på kunstig intelligens i disse unntakene. Tolkningen anses også å være i tråd med politiregisterlovens definisjon av «politimessige formål» jf. § 2 nr. 13, som omfatter politiets kriminalitetsbekjempende virksomhet, herunder etterforskning, forebyggende arbeid og ordenstjeneste, og politiets service- og bistandsfunksjon samt føring av vaktjournaler. Det antas at heller ikke denne definisjonen omfatter teknologiutvikling som sådan, selv om formålet er å utvikle et verktøy som skal benyttes i kriminalitetsbekjempelsen.

Systematikken i lovverket har også betydning for tolkingen. Forordningen gir et sterkere vern for den registrertes rettigheter enn politiregisterloven. I henhold til alminnelige personvernprinsipper er informasjon og innsyn sentrale rettigheter for den registrerte, nedfelt i forordningen artikkel 13, 14 og 15. De nevnte rettighetene står ikke like sterkt når personopplysninger behandles i kriminalitetsbekjempelsen, på grunn av de spesielle hensynene som gjør seg gjeldende på området.

Etter Datatilsynets syn vil derfor bruk av personopplysninger til utvikling av kunstig intelligens i politisektoren i alminnelighet reguleres av personvernforordningen, fordi slik behandling neppe vil falle inn under unntaket i personvernforordningens saklige virkeområde i artikkel 2 nr. 2 bokstav d.

Om viderebehandling av personopplysninger til nytt formål

Dersom personopplysninger har blitt innhentet av politiet til «politimessige formål» i tråd med politiregisterloven, og politiet ønsker å viderebehandle opplysningene til utvikling av kunstig intelligens, som nettopp er et annet formål enn «politimessige formål», oppstår spørsmålet om hvilke forutsetninger som må være på plass for å kunne foreta denne behandlingen. Som illustrert ovenfor, vil dette i alminnelighet avgjøres av reglene i personvernforordningen. 

Den som utleverer/tilgjengeliggjør personopplysninger må,

  1. ha adgang til å utlevere personopplysningene. Det kan foreligge forbud i lovgivningen som gjør at personopplysningene ikke kan utleveres til behandling for et annet formål. Eksempelvis så oppgir politiregisterforskriften kapittel 8 og 9 begrensninger og vilkår for henholdsvis tilgang og utlevering av opplysninger.
  2. ha et behandlingsgrunnlag for å kunne utlevere personopplysninger,
  3. foreta en forenelighetsvurdering av formålene. Siden personopplysningene opprinnelig ble innsamlet for politimessige formål, blir spørsmålet om bruk av opplysningene for å utvikle et verktøy basert på kunstig intelligens, som skal brukes i kriminalitetsbekjempelsen, er et formål som er forenlig med det opprinnelige innsamlingsformålet, jf. artikkel 6 nr. 4. I henhold til bestemmelsen skal det foretas en vurdering som blant annet tar hensyn til momentene som angis i bokstavene a til e. Dette innebærer at bestemmelsen i visse tilfeller åpner for at personopplysninger kan viderebehandles for et nytt formål.

Den som skal viderebehandle personopplysningene til nytt formål, må ha et behandlingsgrunnlag. Dersom det er samme behandlingsansvarlig som både utleverer/tilgjengeliggjør og viderebehandler personopplysningene til nytt formål, så er det denne som foretar alle overnevnte vurderinger.

Juridisk: Dataflyten i PrevBOT-prosjektet

I dette kapittelet nærmer vi oss lovligheten i dette konkrete prosjektet. Og vi starter med en øvelse "alle" kan lære av: å få oversikt over dataflyten i prosjektet.

For å kunne gjøre en juridisk analyse er det sentralt å få oversikt over dataflyten i prosjektet. I forbindelse med utviklingen av algoritmen i PrevBOT-prosjektet, behandles to hovedgrupper med data:

1. Den ene gruppen hentes fra åpent tilgjengelige datasett fra Nasjonalbiblioteket. Formålet med denne behandlingen er å trene KI-modellen i norsk språk.

Datatilsynet forstår det slik at denne norsktreningen vil foregå i arbeidspakken ved CAIR/UiA, som del av PrevBOT-prosjektet. PHS antar selv at bruk av disse dataene ikke anses å utløse noen personvernspørsmål. På grunn av prosjektets omfang har vi avgrenset rapporten mot denne gruppen med data.

2. Den andre gruppen med data består av informasjon fra taushetsbelagte chatlogger innhentet fra norske straffesaker (straffesaksdata).

Chatloggene fra bevismaterialet i straffesaker består av en utskrift av nettpratsamtalen mellom gjerningspersonen og offeret hvor grooming har pågått. Et mindre antall relevante saker er blitt identifisert i forprosjektet «Nettprat». For mer informasjon om den konkrete datainnsamlingen av chatlogger, se rapporten fra Nettpratprosjektet s. 20.

Chatloggene vil kunne inneholde en rekke personopplysninger, avhengig av hva deltakerne i samtalen selv deler av personlig informasjon. Det kan også tenkes at loggene vil kunne inneholde metadata med personopplysninger.

Basert på informasjonen i chatloggene, kan det være at algoritmen vil være i stand til å fange opp personopplysninger, selv om disse ikke eksplisitt er en del av treningsdataene. Det kan for eksempel tenkes at det tekstlige fingeravtrykket til en person, som ofte vil være å anses som en personopplysning, vil kunne fanges opp av algoritmen. I slike tilfeller vil det kunne – i alle fall teoretisk – være mulig å reidentifisere en person med en viss sannsynlighet, selv om ingen direkte identifiserende personopplysninger er inkludert. PHS opplyser at slik identifisering forutsetter at det foreligger en referansedatabase med tekstlige fingeravtrykk. Etter det opplyste skal PrevBOT ikke ha denne funksjonen og en slik database vil dermed heller ikke opprettes.

Personopplysningene som behandles vil kunne gjelde følgende kategorier av registrerte:

  • Fornærmede i straffesaken
  • Gjerningspersonen i straffesaken
  • Eventuelt andre personer som blir omtalt i chatsamtalen

Ved behandlingen av chatlogger kan det tenkes at følgende behandlingsaktiviteter knyttet til personopplysninger gjennomføres:

  • Tilgjengeliggjøring av chatlogger fra ulike politidistrikt til Politiets IT-enhet
  • Fjerning av personopplysninger («vasking») fra chatlogger hos Politiets IT-enhet
  • Tilgjengeliggjøring av chatlogger fra Politiets IT-enhet til CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)
  • Dataforberedelse/strukturering hos CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)
  • Trening av algoritmen hos CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)
  • Analyse hos CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)

Politiets IT-enhet (PIT) er med som støtte i prosjektet, og PIT mottar kopi av chatloggene direkte fra lokale politidistrikt. PIT sørger for at de taushetsbelagte chatloggene lagres på sikker måte og ikke eksponeres for andre enn de som har lovlig tilgang til dataene. Før chatloggene tilgjengeliggjøres for CAIR v/UiA, skal de fjerne identifiserende opplysninger om gjerningsperson og fornærmede. PHS anser at disse opplysningene uansett ikke er relevante for prosjektet. Hos PIT skal chatloggene i tillegg vaskes maskinelt, slik at navn, adresser, telefonnummer og eventuell andre direkte identifiserende opplysninger som er gitt i chatten, fjernes, og erstattes med «XX».

Anonymisering

Personvernlovgivningen gjelder ikke for anonyme data. Data er anonyme hvis det ikke lenger er mulig, med de hjelpemidlene som med rimelighet kan tenkes å ha blitt brukt, å identifisere enkeltpersoner i datasettet.

Om anonymisering

Det er mange fallgruver når data skal anonymiseres, og Datatilsynet anser det på generell basis som utfordrende å anonymisere personopplysninger med sikkerhet. Det gjør det viktig å foreta grundige risikovurderinger før behandling av anonyme data, og å bruke solide anonymiseringsteknikker.

PHS legger opp til at chatloggene vil være anonymiserte før de behandles av CAIR v/UiA. På denne bakgrunn, vil det kun behandles personopplysninger innenfor PrevBOT-prosjektet fra og med tilgjengeliggjøringen av chatloggene, frem til at anonymisering finner sted.

Dersom det ikke behandles noen form for personopplysninger i utviklingsfasen av PrevBOT, vil ikke personvernregelverket komme til anvendelse. Det betyr at opplysninger fra straffesaker vil kunne behandles i forskningsprosjektet uten hinder av personvernregelverket, forutsatt at resultatet er å regne som anonymt i tråd med personvernforordningen.

Veien videre – følgende er en subsidiær fremstilling

Datatilsynet tar høyde for at det er en risiko for at personopplysninger kan behandles i PrevBOT-prosjektet. I alle tilfeller vil Datatilsynet legge til grunn at PrevBOT-prosjektet behandler personopplysninger i overnevnte behandlingsaktiviteter, for å kunne komme videre med den juridiske analysen. Store deler av det følgende vil altså være en subsidiær drøftelse. Det følgende er derfor ment som veiledning.

Når personopplysninger behandles for forskningsformål må en rekke vilkår være oppfylt. Den behandlingsansvarlige må vurdere flere momenter for å avklare hvorvidt det dreier seg om behandling av personoppysninger for forskningsformål. Det er viktig å merke seg at selv om man kommer til at behandlingen av personopplysninger skjer for forskningsformål, så må kravene etter personvernforordningen overholdes. Datatilsynet er på generelt grunnlag bekymret for at en for vid tolkning av forskningsbegrepet vil kunne åpne for misbruk av denne særegne situasjonen.

Juridisk: Hvordan kan behandling av personopplysninger til forskning i PrevBOT-prosjektet gjøres lovlig?

I det følgende vil vi utforske handlingsrommet for behandling av personopplysninger med forskningsformål.

Hva er forskning?

Det fremgår av fortalepunkt 159 i personvernforordningen at «[N]år personopplysninger behandles i forbindelse med formål knyttet til vitenskapelig forskning, bør denne forordning også få anvendelse på slik behandling». Siden PrevBOT er et forskningsprosjekt, vil behandlingen av personopplysninger skje i forskningsøyemed. Det må først vurderes hvorvidt utviklingen av PrevBOT faller inn under forskningsbegrepet i personvernforordningen. Dette fordi behandling av personopplysninger med forskningsformål står i en særstilling i personvernforordningen, hvor visse unntak fra de generelle reglene gjelder.

Det eksisterer ingen universell og akseptert definisjon av begrepet «vitenskapelig forskning». Begrepet er heller ikke definert i personvernforordningen eller personopplysningsloven.

OECDs definisjon av forskning

OECD har satt følgende internasjonale retningslinjer for avgrensning og klassifisering av forskning:

Forskning og eksperimentell utvikling (FoU) er kreativt og systematisk arbeid som utføres for å oppnå økt kunnskap – herunder kunnskap om mennesket, kultur og samfunn – og for å utarbeide nye anvendelser av tilgjengelig kunnskap.

Hentet fra Frascati-manualen 2015 (s. 36) på forskningsradet.no (pdf)

Begrepet «vitenskapelig forskning» skal etter fortalepunkt 159 i personvernforordningen tolkes vidt og kan f.eks. omfatte teknologisk utvikling og demonstrasjon, grunnleggende forskning og anvendt forskning. Det bør nevnes at Personvernrådet for tiden arbeider med retningslinjer for behandling av personopplysninger til vitenskapelige formål, som antas å gi en oversikt over, samt tolkning, av de ulike bestemmelsene som regulerer forskning i forordningen.  

PrevBOT er organisert som et forskningsprosjekt

PrevBOT-prosjektet ledes av PHS, som er en statlig høgskole. I tillegg til å være den sentrale utdanningsinstitusjonen for politiutdanning, driver PHS også med etter- og videreutdanning, masterutdanning og forskning innen politivitenskap. Som nevnt innledningsvis, er PrevBOT-prosjektet organisert som et forskningsprosjekt. Rammene for prosjektet er angitt i et prosjektnotat fra PHS levert til Justis- og beredskapsdepartementet. 

Datatilsynet har ikke gjort noen selvstendig vurdering av om behandlingsaktivitetene i PrevBOT-prosjektet utgjør  behandling av personopplysninger med forskningsformål, men legger i det videre til grunn PHS’s premiss om at selve utviklingen av PrevBOT i PHS’ regi anses som «vitenskapelig forskning» etter personvernforordningen.

Forskjell på utvikling (forskning) og bruk av PrevBOT

Datatilsynet vil fremheve at det er en forskjell på behandling av personopplysninger til forskning på utvikling av kunstig intelligens, og bruk av PrevBOT. Det er klart at selve bruken av PrevBOT faller utenfor forskningsdefinisjonen. Etter Datatilsynets syn, vil heller ikke etterlæring av en algoritme som er i bruk i alminnelighet anses som vitenskapelig forskning. Det er derfor viktig at de ansvarlige i PrevBOT-prosjektet er bevisste på hvor grensen mellom forskning og bruk går, slik at man ikke lener seg på forskningssporet i personvernregelverket når det kommer til bruk og etterlæring av løsningen.

Den behandlingsansvarlige i et forskningsprosjekt

Den behandlingsansvarlige er overordnet ansvarlig for å overholde personvernprinsippene og regelverket etter personvernforordningen, og det er denne som bestemmer formålet med behandlingen av personopplysninger og hvilke midler som skal benyttes, jf. personvernforordningen artikkel 4 nr. 7. I et forskningsprosjekt kan det være én eller flere behandlingsansvarlige (enten felles eller separate), og den behandlingsansvarlige skal blant annet påse at det foreligger behandlingsgrunnlag

PrevBOT-prosjektet består av flere arbeidspakker med ulike aktører, og det er viktig at de(n) behandlingsansvarlige identifiseres. For Datatilsynet fremstår det slik at, i alle fall PHS anses som behandlingsansvarlig i PrevBOT-prosjektet. Hvis det er to eller flere behandlingsansvarlige, kan det være at det foreligger felles behandlingsansvar etter personvernforordningen artikkel 26. Dersom noen av aktørene anses som databehandlere, må det inngås en databehandleravtale med disse.

Om utlevering av personopplysninger fra politiet

Personopplysningene (chatloggene) i PrevBOT ble opprinnelig innsamlet av politiet med formål om å etterforske. Når politiet tilgjengeliggjør personopplysninger for behandling i PrevBOT-prosjektet, må politiet ha et rettslig grunnlag for denne tilgjengeliggjøringen. Vi har ikke tatt stilling til denne tilgjengeliggjøringen fra politiet, da denne behandlingsaktiviteten faller utenfor rammene for PrevBOT-prosjektet.

Vi vil likevel fremheve at forutsetningene som nevnt under kapittel 5, som gjelder «den som utleverer/tilgjengeliggjør personopplysninger», må være til på plass. Datatilsynet vil også knytte noen kommentarer til forenelighetsvurderingen, i kontekst av viderebehandling til bruk for forskning.

Forenlig viderebehandling

Forenelighetsvurderingen gjelder for opplysninger den behandlingsansvarlige allerede sitter på Når chatloggene blir tilgjengeliggjort for PrevBOT-prosjektet til bruk for forskning, anses dette som behandling av personopplysninger for «sekundære formål». Når vi sier «sekundære formål», tenker vi på typer av formål som direkte er angitt i forordningen – som blant annet inkluderer «formål knyttet til vitenskapelig forskning», jf. personvernforordningen artikkel 5 nr. 1 bokstav b . Forskning som sekundært formål anses som et forenelig formål, sml. artikkel 6 nr. 4 i personvernforordningen, forutsatt at nødvendige garantier i tråd med personvernforordningen artikkel 89 er på plass. Dette innebærer at personopplysningene kan behandles for dette formålet, såfremt slike garantier er tilstede.

Slik Datatilsynet ser det, vil behandlingsaktivitetene som angitt ovenfor ha de samme formålene, nemlig formål knyttet til vitenskapelig forskning. Det følger imidlertid av forarbeidene til personopplysningsloven at dersom viderebehandling for forskningsformål består i at opplysninger utleveres til andre behandlingsansvarlige, må den behandlingsansvarlige som mottar personopplysningene, kunne påvise et eget behandlingsgrunnlag.

Lovhjemmel for forskning

All bruk av personopplysninger må ha et behandlingsgrunnlag for å være lovlig. Personvernforordningen oppstiller ingen særskilte behandlingsgrunnlag for forskningsformål, hvilket betyr at man må se hen til de alminnelige behandlingsgrunnlagene i artikkel 6 i personvernforordningen. I forskningsøyemed kan flere behandlingsgrunnlag være aktuelle, men for PrevBOT-prosjektet anser Datatilsynet det særlig relevant å se hen til artikkel 6 nr. 1 bokstav e. Bestemmelsen dekker blant annet behandling av personopplysninger som er «nødvendig for å utføre en oppgave i allmennhetens interesse».

Forordningen gir ingen føringer for hva som er å anse som en oppgave i allmennhetens interesse. I den norske kommentarutgaven til forordningen legges det til grunn «at det ikke er opp til hvert enkelt land å definere hva som er en oppgave av allmenn interesse, men at det over tid vil utvikles en felles europeisk standard på dette området».

Kravet til nødvendighet setter rammene for hva som er en lovlig behandling av personopplysninger. Det er den konkrete behandlingen av personopplysninger som må være nødvendig for å utføre en oppgave i allmennhetens interesse. Relevante vurderingstema er blant annet om oppgaven i allmennhetens interesse kan oppfylles med en mindre inngripende behandling, og om behandlingen går lengre enn det oppgaven tilsier. Det europeiske personvernrådet (EDPB) har i sine retningslinjer uttalt følgende:

Assessing what is ‘necessary’ involves a combined, fact-based assessment of the processing “for the objective pursued and of whether it is less intrusive compared to other options for achieving the same goal”. If there are realistic, less intrusive alternatives, the processing is not ‘necessary’.

Datatilsynet anser det ikke nødvendig med en inngående vurdering her, da det synes ganske klart at behandlingen av personopplysninger innenfor rammene av PrevBOT-prosjektet oppfyller vilkårene i artikkel 6 nr. 1 bokstav e.

Behandling av særlige kategorier med personopplysninger

Artikkel 9 nr. 1 oppstiller et generelt forbud mot å behandle særlige kategorier av personopplysninger. Når særlige kategorier av personopplysninger behandles, må det for det første foreligge behandlingsgrunnlag etter personvernforordningen artikkel 6. I tillegg må ett av unntakene i artikkel 9 nr. 2 komme til anvendelse.

Opplysninger om en persons seksuelle forhold anses som en særlig kategori av personopplysninger etter personvernforordningen artikkel 9 nr. 1. Datatilsynet legger til grunn at dersom det først er tale om behandling av personopplysninger i PrevBOT-prosjektet, så vil disse fort falle inn under begrepet særlige kategorier i artikkel 9. Dersom særlige kategorier av personopplysninger behandles, vil det være aktuelt å se hen til artikkel 9 nr. 2 bokstav j i personvernforordningen.

Bestemmelsen stiller flere vilkår:

  1. Behandlingen er nødvendig for formål knyttet til vitenskapelig forskning i samsvar med personvernforordningen artikkel 89 nr. 1
  2. Det kreves supplerende rettsgrunnlag (se mer om dette nedenfor).
  3. Behandlingen må i tillegg stå i et rimelig forhold til det mål som ønskes oppnådd, den må være forenlig med det grunnleggende innholdet i retten til vern av personopplysninger og sikre egnende og særlige tiltak for å verne den registrertes grunnleggende rettigheter og interesser. Hvorvidt disse vilkårene er oppfylt, beror på en konkret vurdering.

Supplerende rettsgrunnlag

For behandling av personopplysninger etter artikkel 6 nr. 1 bokstav e og artikkel 9 nr. 2 bokstav j i personvernforordningen kreves det et supplerende rettsgrunnlag, hvilket betyr at grunnlaget for behandlingen i bestemmelsene «fastsettes» i unionsretten eller nasjonal rett. Det følger videre av artikkel 6 nr. 3 detaljerte krav til hvordan lovverket bør utformes, eksempelvis at formål bør angis, hvilke type opplysninger som registreres, berørte registrerte og regler for viderebehandling mv. Det må vurderes konkret hvor presist det supplerende rettsgrunnlaget må være.

Ved behandling av særlige kategorier med personopplysninger, vil legalitetsprinsippet slå sterkere inn, hvor det blant annet gradvis stilles strengere krav til utformingen av hjemmelen i det supplerende rettsgrunnlaget.

I kontekst av PrevBOT-prosjektet vil tre potensielle supplerende rettsgrunnlag presenteres. 

1. Personopplysningsloven §§ 8 og 9

I norsk rett er det lite særregulering av forskning, utenom på helseforskningsområdet, og det finnes ingen konkrete forskningshjemler i politiregisterloven. Vi må derfor se hen til de alminnelige supplerende rettsgrunnlagene for forskning er nedfelt i §§ 8 og 9 i personopplysningsloven. Formålet med §§ 8 og 9 er å gi supplerende rettsgrunnlag for forskning der det ikke finnes annet supplerende rettsgrunnlag i særlovgivningen.

Bestemmelsen i § 8 oppstiller flere vilkår. For det første må det være snakk om formål knyttet til vitenskapelig forskning. Det vises til drøftelsen ovenfor, og Datatilsynet anser at behandlingen av personopplysninger som gjøres i PrevBOT oppfyller dette vilkåret. 

Videre må behandlingen være nødvendig. I lovkommentaren på Juridika antas det at nødvendighetsvilkåret her ikke har noen selvstendig betydning, ved siden av nødvendighetsvilkåret i artikkel 6 nr. 1 bokstav e i personvernforordningen. Så lenge vilkåret er oppfylt i artikkel 6, så vil det være oppfylt etter § 8 i personopplysningsloven.

Det oppstilles i tillegg et krav om at behandlingen er omfattet av nødvendige garantier i samsvar med personvernforordningen artikkel 89 nr. 1. Hva som ligger i «nødvendige garantier» fremgår ikke av forordningen, men bestemmelsen oppstiller eksempler på tiltak som kan iverksettes for å sikre den registrertes rettigheter og friheter. Det kreves blant annet at det er innført tekniske og organisatoriske tiltak for særlig å sikre at prinsippet om dataminimering overholdes. Slike tiltak kan omfatte pseudonymisering, kryptering, streng tilgangsstyring, slettefrister mv.

I PrevBOT-prosjektet er flere slike tiltak allerede iverksatt. Det vises eksempelvis til at det i PIT er begrenset hvem som vil ha tilgang til chatloggene etter at de tilgjengeliggjøres fra de lokale politidistriktene, og at chatloggene skal vaskes for personopplysninger før de tilgjengeliggjøres for CAIR/UiA. Datatilsynet oppfordrer likevel den behandlingsansvarlige til å vurdere om det er andre tiltak som kan være aktuelle, knyttet til de ulike behandlingsaktivitetene i prosjektet.

Dersom særlige kategorier av personopplysninger behandles i PrevBOT-prosjektet, så må de strengere vilkårene i § 9 være oppfylt. Etter § 9 stilles i tillegg et krav om at «samfunnets interesse i at behandlingen finner sted, klart overstiger ulempene for den enkelte».

Det kan merkes at ordlyden «klart overstiger» tyder på at terskelen er høy, og det må foreligge klar interesseovervekt. Ordlyden er her noe annerledes enn ordlyden i artikkel 9 nr. 2 bokstav j, som angir at det må stå «i rimelig forhold til». Spørsmålet er altså om samfunnets interesse i at behandlingen av personopplysninger i PrevBOT-prosjektet finner sted klart overstiger ulempene for de registrerte som får personopplysningene sine behandlet i forskningen (her: den fornærmede, gjerningspersonen og eventuelle tredjepersoner som blir omtalt i chatloggene). 

Det er klart at digitale overgrep ovenfor barn er alvorlig kriminelle handlinger, som av flere blir omtalt som et folkehelseproblem. Dette taler for at samfunnet har en klar interesse i at det forskes på muligheter for å forebygge slik kriminalitet, som PrevBOT. Samtidig må de konkrete ulempene for de registrerte vurderes konkret, særlig sett opp mot hvilke garantier som iverksettes for å begrense personvernulempene for den registrerte.  

For behandling av personopplysninger etter personopplysningsloven § 9, må PHS først rådføre seg med personvernombudet eller annen som oppfyller kravene i personvernforordningen artikkel 37 nr. 5 og 6 og artikkel 38 nr. 3 første ledd og annet punktum, jf. § 9 annet ledd. Ved rådføringen skal det vurderes om behandlingen vil oppfylle kravene i personvernforordningen og øvrige bestemmelser fastsatt i eller med hjemmel i loven. Rådføringsplikten gjelder likevel ikke dersom det er utført en vurdering av personvernkonsekvenser etter personvernforordningen artikkel 35. Datatilsynet vil her fremheve at alle vurderinger av personvernkonsekvenser (DPIA’er) skal forelegges Personvernombudet, slik at det alltid vil være en vurdering til grunn.

På generelt grunnlag mener Datatilsynet at bestemmelsene i §§ 8 og 9 er noe uklare sammenlignet med kravene som stilles til hvor presist det supplerende rettsgrunnlaget skal være. En svakhet ved § 9 er at det blir opptil personvernombudet e.a. å foreta en intern vurdering for å klarere om man har lov til å forske. Derfor mener Datatilsynet at store offentlige myndigheter bør ha egne forskningshjemler i særlovgivningen som tydelig angir rammene for forskningen.

Oppsummert så kan behandling av personopplysninger PrevBOT-prosjektet oppfylle kravet om supplerende rettsgrunnlag, så lenge vilkårene i personopplysningsloven § 8 (og § 9 hvis særlige kategorier behandles), jf. artikkel 6 nr. 1 bokstav e (og artikkel 9 nr. 1 bokstav j hvis særlige kategorier behandles), er oppfylt.

2. Vedtak etter politiregisterloven

Det finnes ingen konkret hjemmel i politiregisterloven for å utføre forskning med grunnlag i straffesaksdata. Adgangen til å oppheve taushetsplikten i politiregisterloven § 33 for opplysninger brukt til forskning, gir ikke i seg selv et rettsgrunnlag for å behandle dataene i forskningen. Det følger av § 33 nr. 2 at beslutningskompetansen for opphevelse av taushetsplikt for straffesaker er lagt til riksadvokaten.

På helseforskningsområdet har departementet i forarbeidene til personopplysningsloven lagt til grunn at lovhjemlede vedtak om dispensasjon eller unntak fra taushetsplikten vil kunne gi supplerende rettsgrunnlag etter artikkel 6 nr. 3.

Siden politiregisterloven har en tilsvarende bestemmelse om dispensasjon fra taushetsplikt til forskning, så kan det stilles spørsmål ved om et vedtak etter politiregisterloven § 33 kan utgjøre et supplerende rettsgrunnlag etter artikkel 6 nr. 3 i personvernforordningen. Dette beror på en konkret vurdering av hvorvidt grunnlaget for vedtaket er tydelig nok, sammenholdt med hvilken behandling som utføres. Jo mer inngripende behandlingen er, desto klarere må det supplerende rettsgrunnlaget være.

Riksadvokaten samtykket i brev 27. juli 2021 til at en spesialetterforsker ved Trøndelag politidistrikt ble gitt tilgang til chatlogger i straffesaker om seksuelle overgrep mot barn, jf. politiregisterloven § 33. Dispensasjonen fra taushetsplikt gjaldt Nettprat-prosjektet, som lå forut for PrevBOT-prosjektet, og prosjektet har senere fått riksadvokatens samtykke til å overføre relevante chatlogger til PIT i forbindelse med PrevBOT-prosjektet.

På den ene siden, kan det argumenteres for at når et utenforliggende offentlig organ, slik som Riksadvokaten, beslutter at taushetsplikten kan oppheves i forskningsøyemed, så vil det være med på å gi noen garantier for behandlingen av personopplysningene. Riksadvokaten kan eksempelvis i vedtaket kreve at visse tiltak iverksettes for å sikre den registrertes rettigheter og friheter ved behandlingen, etter en vurdering og avveining av behandlingens nytte og konsekvensene for de registrerte. I tillegg følger det av politiregisterloven § 33 at bestemmelsen er avgrenset til tilfeller som gjelder forskning. Bestemmelsen som vedtaket er hjemlet i avgrenser derfor til en gruppe med formål som opplysningene kan brukes til (forskning).

På den annen side, kan man – gjennom uttalelsene i forarbeidene til personopplysningsloven – argumentere for at lovgivers vurdering er spesifikk for helseforskningsfeltet. Datatilsynet er ikke kjent med at lovgiver har uttalt seg på samme måte når det gjelder politiregisterloven § 33, selv om departementet i nevnte forarbeider anerkjenner at «behandling også kan skje på andre grunnlag, for eksempel unntak eller dispensasjonsvedtak etter andre bestemmelser». Hvorvidt denne uttalelsen kun referer seg til unntak/vedtak på helseområdet, eller også har overføringsverdi til andre områder, er usikkert.

Et annet poeng er at helseforskning er underlagt en forholdsvis streng lov, helseforskningsloven. Det samme er ikke tilfellet for annen forskning, hvor det ofte kun er de generelle reglene i personvernregelverket, og forskningsetikken for øvrig, som setter rammene for behandlingen av personopplysningene.

Det foreligger altså flere for- og motargumenterer for at vedtak etter politiregisterloven § 33 kan utgjøre et supplerende rettsgrunnlag etter artikkel 6 nr. 3 og artikkel 9 nr. 2 bokstav j i personvernforordningen.

3. Ny lovhjemmel

Det kan stilles spørsmål om en eventuell utvidelse av politiregisterlovens virkeområde, til å omfatte behandling av opplysninger ved utvikling av kunstig intelligens til politimessige formål, vil gjøre at slik behandling dermed kun reguleres av politiregisterloven. Datatilsynet stiller seg tvilende til om en eventuell forskrifts- eller lovendring vil kunne føre til at behandlingen faller utenfor personvernforordningens virkeområde. En slik endring, vil trolig ikke, etter Datatilsynets syn, påvirke unntaket i personvernforordningen artikkel 2 nr. 2 bokstav d.

Derimot kan en lovbestemmelse/forskrift i særlovgivningen kunne gi et supplerende grunnlag etter personvernforordningen. Da må imidlertid hjemmelen utformes med dette for øyet, slik at man oppfyller kravene i artikkel 6 nr. 2 og nr. 3.

Særlig om behandling av personopplysninger om straffedommer og lovovertredelser

Opplysninger om straffedommer og lovovertredelser er ikke å regne som særlige kategorier av personopplysninger, men behandling av slike opplysninger omtales særskilt i personopplysningsloven § 11 og personvernforordningen artikkel 10. Det er naturlig å tolke «straffedommer og lovovertredelser» etter disse bestemmelsene til å omfatte opplysninger som knyttes til en konkret dom, men også opplysninger om kriminelle handlinger hvor det ikke foreligger dom på behandlingstidspunktet.

Behandling av slike opplysninger er underlagt visse begrensninger; dette følger av artikkel 10 i personvernforordningen. Nærmere bestemt kan slike opplysninger kun behandles under en offentlig myndighets kontroll, eller hvis behandlingen gjøres av private såfremt det foreligger behandlingsgrunnlag i personvernforordningen artikkel 6 og et supplerende rettsgrunnlag.

Det kan diskuteres om PHS som forskningsinstitusjon er underlagt offentlig myndighets kontroll, men det vil likevel kunne foreligge supplerende rettsgrunnlag personopplysningsloven § 11. Bestemmelsen åpner på en kronglete måte for behandling til forskning uten samtykke dersom samfunnets interesse i at behandlingen finner sted klart overstiger ulempene for den enkelte, ved at den viser til personopplysningsloven § 9.

For behandling etter personopplysningsloven § 11, må PHS først rådføre seg med personvernombudet om behandlingen vil oppfylle kravene i personvernforordningen og øvrige bestemmelser fastsatt i eller med hjemmel i loven. Rådføringsplikten gjelder likevel ikke dersom det er utført en vurdering av personvernkonsekvenser etter personvernforordningen artikkel 35.

Oppsummering

Som en oppsummering, finnes det flere bestemmelser i personvernforordningen som, på gitte vilkår, gir adgang til å behandle personopplysninger med formål knyttet til vitenskapelig forskning, inkludert særlige kategorier og personopplysninger om straffedommer og lovovertredelser.  

Hvilke rettigheter har de registrerte når deres personopplysninger blir brukt til forskning?

Den registrerte har flere rettigheter etter personvernregelverket når dennes personopplysninger behandles. Personvernforordningen har imidlertid noen spesifikke bestemmelser som gjør seg gjeldende når personopplysninger behandles for formål knyttet til vitenskapelig forskning. Disse spesifikke bestemmelsene fremgår av personopplysningsloven § 17, og gjør innskrenkninger i de generelle rettighetene til den registrerte. Disse innskrenkingene er kun er anvendelige såfremt det foreligger tilstrekkelige garantier etter personvernforordningen artikkel 89 nr. 1.

Vi vil i det følgende ta for oss noen sentrale rettigheter ved utlevering og behandling av personopplysninger for forskning:

  • Retten til informasjon gir den registrerte blant annet rett til informasjon om hvem som mottar personopplysninger, hvem den behandlingsansvarlige er, formålet og det rettslige grunnlaget for behandlingen, med mindre dette vil være umulig eller kreve en uforholdsmessig innsats, jf. personvernforordningen artikkel 14 nr. 1, 2 og nr. 5 bokstav b. Her må det foretas en avveining av inngrepet overfor den enkelte og hensynet til forskningsprosjektet. Det vil være sterke hensyn som tilsier informasjonsplikt på grunn av opplysningenes karakter og det faktum at hverken fornærmede, gjerningsperson eller tredjeperson har avgitt opplysningene frivillig. Hvis det anses umulig eller vil kreve en uforholdsmessig innsats å informere, skal den behandlingsansvarlige treffe egnede tiltak for å verne den registrertes rettigheter og friheter og berettigede interesser, herunder gjøre informasjonen offentlig tilgjengelig.
  • Retten til innsyn etter personvernforordningen artikkel 15 gjelder ikke for slik behandling dersom det vil kreve en uforholdsmessig stor innsats å gi innsyn, eller innsynsretten sannsynligvis vil gjøre det umulig eller i alvorlig grad hindre at målene med behandlingen nås, jf. personopplysningsloven § 17 første ledd. Dette unntaket gjelder ikke dersom behandlingen får rettsvirkninger eller direkte faktiske virkninger for den registrerte. Dersom retten til innsyn foreligger for den konkrete behandlingen, er det viktig å ta med dette ved utformingen av algoritmen/KI-modellen.
  • For retten til sletting og begrensning av behandling etter artikkel 16 og 18 i personvernforordningen, så må det i forskningsdesignet tas høyde for to tilfeller: rett til sletting av treningsdataene og rett til sletting fra den trente modellen hvis den inneholder personopplysninger. I forskningstilfeller vil retten til retting/begrensning ikke gjelde etter personopplysningsloven § 17 annet ledd hvis rettighetene sannsynligvis vil gjøre det umulig eller i alvorlig grad hindre at målene med behandlingen nås. Dette beror på en konkret vurdering.
  • Retten til å protestere på behandlingen gjelder ikke dersom behandlingen av personopplysninger til vitenskapelige formål gjøres i medhold av artikkel 6 nr. 1 bokstav e i personvernforordningen, jf. artikkel 21 nr. 6.

Teknologi: Tsetlin-maskinen

Politihøgskolen ser for seg å bygge PrevBOT på Tsetlin-maskin (TM). Styrken til en TM, er at den skal være bedre på forklarbarhet enn nevrale nettverk. I et prosjekt som PrevBOT, der mennesker skal bli kategorisert som potensielle overgripere basert på (i de fleste tilfeller) lovlig kommunikasjon på åpent nett, vil det være viktig å kunne forstå hvorfor verktøyet konkluderer som det gjør.

Tsetlin maskin er en maskinlæringsalgoritme først designet av den norske forskeren Ole-Christoffer Granmo i 2018. Granmo er professor i informatikk ved UiA, og har senere videreutviklet Tsetlin-maskinen med kollegaer. Siden det er en relativt ny metode innen maskinlæring, pågår det fortsatt forsking på området med mål om å utforske og optimalisere dens anvendelse og ytelsesevne. Som enhver maskinlæringsmodell, er Tsetlin-maskinen avhengig av kvaliteten og representativiteten til treningsdataene.

Tsetlin-maskiner

Tsetlin-maskinen er ikke en type nevrale nettverk. Det er en algoritme basert på prinsipper fra forsterkningslæring og setningslogikk (også kalt proposisjonslogikk). Algoritmen egner seg for oppgaver innen klassifisering og beslutningstaking der både tolkbarhet og nøyaktighet er viktig. Setningslogikk er en algebraisk metode som klassifiserer setninger eller utsagn som sanne eller falske, ved hjelp av logiske operasjoner som «og, eller, ikke, hvis, da».

For å lære bruker Tsetlin-maskinen forsterkningslæring og lærende automat. Forsterkningslæring gjør at modellen belønnes eller straffes basert på resultatet av utførte handlinger, mens den lærende automaten tar beslutninger basert på tidligere erfaringer, og disse erfaringene fungerer som retningslinjer for nåværende handlinger.

Tsetlin-maskinen bruker klausuler for å forstå hvordan individuelle klausuler påvirker beslutningsprosessen. Denne tilnærmingen gjør Tsetlin-maskinen egnet for bruksområder der tolkbarhet er viktig.

Tsetlin-maskiner vs. nevrale nettverk

Nevrale nettverk (dyplæringsmodeller) krever store datasett og store beregningsressurser for trening. Tsetlin-maskinen trenger færre beregningsressurser sammenlignet med komplekse nevrale nettverk. Forskning fra 2020 viser at Tsetlin-maskinen er mer energieffektiv, ved at den bruker 5,8 ganger mindre energi enn nevrale nettverk.

Nevrale nettverk egner seg for oppgaver som prediksjon og bilde- og talegjenkjenning, identifisering av komplekse mønstre og relasjoner i data. Tsetlin-maskinen egner seg for visse typer klassifiseringsproblemer der tolkbarhet er viktig. Tsetlin-maskinen bruker setningslogikk for beslutningstaking. Den består av en samling Tsetlin-automater som representerer logiske regler. Hver Tsetlin-automat har en vektet beslutning som blir justert basert på læringsprosessen. Vektingen styrer i hvilken grad en spesifikk egenskap eller mønster påvirker beslutningen. Dette skal gi høyere grad av forståelse fordi bruken av logiske regler gjør at beslutninger kan spores tilbake til de enkelte klausulene.

Nevrale nettverk er inspirert av den menneskelige hjernen og består av mange lag med kunstige nevroner som er sammenkoblet gjennom mange noder og vekter. De er ofte komplekse og lite transparente, og ansett som «svarte bokser» på grunn av kompleksiteten og begrenset forståelse av hvordan de tar beslutninger.

Nevrale nettverk kan også utilsiktet forsterke og opprettholde skjevheter som finnes i treningsdataene. Hvis treningsdataen inneholder partisk eller diskriminerende informasjon, kan modellen lære og reprodusere slike skjevheter i dens genererte utdata. Dette kan føre til utilsiktede konsekvenser og forsterke fordommer.

På grunn av Tsetlin-maskinens transparens kan den undersøkes for skjevhet og denne kan muligens fjernes fra modellen ved å modifisere setningslogikken, i stedet for indirekte endringer fra datasiden eller via ettertrening. Dette indikerer at den er lettere å korrigere.

Tsetlin-maskinen lærer å assosiere ord med konsepter og bruker ord i logisk form for å forstå konseptet. En viktig komponent i denne prosessen er bruken av konjunktive klausuler, som er setninger eller uttrykk som kombinerer to eller flere betingelser som er tilstede eller fraværende i inngangsdataene for å kunne klassifiseres som sanne eller falske.

Et eksempel er: «jeg vil dra på stranden bare hvis det er sol og hvis jeg får fri fra jobb». Her representerer «hvis det er sol» og «hvis jeg får fri fra jobb» konjunktive klausuler som må oppfylles samtidig for at personen skal ta beslutningen om å dra på stranden. Disse klausulene brukes til å identifisere mønstre i inndata, ved å skape betingelser som må oppfylles samtidig. Videre brukes disse klausulene til å bygge opp beslutningsregler som danner grunnlaget for klassifisering. Evnen til å håndtere sammensatte betingelser gjør Tsetlin-maskinen egnet for å avgjøre om inndata tilhører en spesifikk klasse eller ikke.

Arbeidsflyten til Tsetlin-maskinen i PrevBOT-prosjektet

I PrevBOT tas det sikte på å utvikle en transparent språkmodell som kan klassifisere tilstedeværelsen av grooming i en samtale. Det første steget er å gi algoritmen generell opplæring i det norske språket. Dette gir algortimen en solid forståelse av språket, og reduserer påvirkningen av potensielt begrensende datasett i groomingspråkopplæringen. Hvis vi begrenser opplæringen til dette smale emnet, risikerer vi å ha for få eksempler tilgjengelige. En annen vesentlig grunn er at en generell forståelse av et språk legger grunnlaget for å utvikle spesialiserte ferdigheter på en mer helhetlig måte. For å trene algortimen i å beherske det norske språket generelt, er bruk av store norske datasett hensiktsmessig (Språkbanken ved Nasjonalbiblioteket tilbyr dette). Dette kan også sammenlignes med forhåndstrening i store språkmodeller.

Norsk grooming

Erfaringer fra norske straffesaker viser at overgriper og barn kommuniserer på norsk. Teknologien må følgelig baseres på norske tekstdata. En forutsetning for realisering er derfor at det må finnes tilstrekkelig mengde norske tekstdata til å kunne utvikle KI-modellen. På tidspunktet for sandkasseprosjektet er det usikkert om denne forutsetningen er oppfylt, men den vil kunne realiseres over tid, gitt at metoden er formålstjenlig.

Når algoritmens språkkunnskaper har nådd et tilstrekkelig nivå, kommer man til det andre trinnet: å lære den opp til å bli spesialist innen groomingspråkklassifisering. Etter å ha oppnådd grunnleggende norskkunnskaper, kan algortimen deretter lære ordkonteksten og relevansen til hvert ord innenfor groomingspråket. På denne måten, før man tar fatt på den spesifikke oppgaven med grooming-deteksjon, vil algortimen være i stand til å beherske språket på et generelt nivå.

På dette stadiet spiller teksten i chatloggene fra straffesakene en viktig rolle. Eksemplene må være svært spesifikke og presisise, og det skal merkes av en erfaren domeneekspert innen grooming. På bakgrunn av den generelle opplæringen i det norske spåket, sammen med kunnskapen om grooming språkklassifisering, vil algoritmen da kunne være i stand til å gjenkjenne groomingsamtaler på norsk. Nedenfor gir vi en mer teknisk beskrivelse av trinn en og to.

Første trinn: trene algoritmen i norsk

Først må de utvikle Tsetlin maskin-baserte autoenkodere som autonomt utfører ordinnbygging i store norske datasett. Treningen består i å produsere representasjoner for ord, og dette gjøres ved å basere seg på store datasett.

Tsetlin-maskinen bruker prinsipper fra setningslogikk og logiske klausuler for å ta beslutninger. Figuren under viser et eksempel på resultatene (pilene) av setningslogikk-innbygging ved bruk av Tsetlin-maskinen i et lite engelsk datasett. Tsetlin-maskinen bruker disse klausulene til å bygge opp beslutningsregler som danner grunnlaget for klassifisering.

Som illustrert, viser resultatene at ordene er korrelert med andre ord gjennom klausuler. Tar vi ordet «heart» som et eksempel, ser vi at det er relatert til «woman» og «love», samtidig som det også knyttes til «went» og «hospital». Dette eksempelet viser at ordet har ulike betydninger avhengig av konteksten. Det indikerer at Tsetlin-maskin-innbygging har kapasitet til å lære og etablere fornuftige korrelasjoner mellom ordene. Det er blant annet disse egenskapene som legger grunnlaget for bedre forklarbarhet og kanskje også manuelle justeringer.

Andre trinn: klassifisere grooming-språk

Treningsdataen må inneholde eksempler på tekst som er merket med enten grooming eller ikke-grooming. Utvalg av relevante regler, enten det er spesifikke ord, fraser eller struktur i teksten, er avgjørende for å gi algoritmen nødvendig informasjon. Algoritmen identifiserer grooming-samtaler ved å analysere språket og gjenkjenne mønstre eller indikatorer som er assosiert med risiko for grooming. Positive eksempler (grooming) og negative eksempler (ikke-grooming) brukes til å justere vektingen av klausulene.

Eksemplene skal i teorien være en integrert del av reglene til algoritmen og brukes under treningen for å hjelpe algoritmen med å forstå hva som kjennetegner grooming-samtaler. Treningsdataen som inneholder eksempler/tekster som er merket som grooming eller ikke-grooming blir altså brukt som en del av treningsprosessen. De brukes til å utvikle og justere reglene som algoritmen bruker til å identifisere grooming-samtaler. Når algoritmen trener, analyserer den de merkede eksemplene for å lære mønstre og indikatorer knyttet til grooming. Ved å sammenligne egenskapene ved positive (grooming) og negative (ikke-grooming) eksempler, justerer algoritmen gradvis vektingen av reglene eller klausulene den bruker til klassifisering. Det kan innebære å gi større vekt til ord eller setningsstrukturer som er assosiert med grooming, og mindre vekt til de som ikke er det. Ordinnbyggingen fra det første trinnet kan brukes til klassifisering.

Kombinasjonen av veiledet læring og forsterkningslæring innebærer gjentagende justering av de konjunktive klausulene. Justeringen foregår vanligvis automatisk og er basert på tidligere beslutninger. Under trening lærer algoritmen å tilpasse vektene for å gjenkjenne mønstre og gjøre riktige klassifiseringer. Det forventes at en ferdig opplært modell ikke bare kan klassifisere tekst som en potensiell grooming-samtale eller ikke, men at den også tolkes på grunn av algoritmens transparente natur. Tolkningen oppnås fra klausuler i en trent Tsetlin maskin-modell. Klausulene består av logiske regler som effektivt beskriver om språket er grooming eller ikke. For en gitt inndata-setning kan reglene hentes fra klausulene som er aktivert. Reglene kan deretter brukes for å forklare algoritmens beslutning.

Forenklet oversikt

  1. Datainnhenting

    Samle inn norsk tekst fra åpne norske kilder (Nasjonalbiblioteket) og chatlogger fra straffesaker (grooming-samtaler mellom potensielle ofre og potensielle overgripere) for å danne datasett. Datasettene bør inneholde varierte eksempler med både positive eksempler (grooming-samtaler) og negative eksempler (ikke-grooming).

  2. Dataforberedelse

    Strukturering av data slik at den egner seg for Tsetlin-maskinen, f.eks. representere tekstdata ved hjelp av vektorrepresentasjoner (vektorisering av ord). Bag-of-word (BOW)-representasjoner (binarisering av ord) kan også brukes.
  3. Mål

    Identifisere relevante egenskaper i tekst som skiller mellom grooming og ikke-grooming samtaler, for eksempel bruk av spesifikke ord, kontekstuelle nyanser/ledetråder, setningsstrukturer eller emosjonelle tonefall som er typiske for grooming-adferd.

  4. Trening

    Strukturert data brukes til trening. Under treningen justerer Tsetlin-automatene sine interne paramatere for å gjenkjenne mønstre som er karakteristiske for grooming-samtaler. Dette innebærer å tilpasse logiske regler som tar hensyn til ordvalg, kontekst og andre relevante faktorer, spesifikke ord, utrykk eller mønstre assosiert med grooming

  5. Beslutningstaking

    Etter trening skal algoritmen være i stand til å analysere og ta beslutninger om hvorvidt tekstdata inneholder indikasjoner på grooming.

  6. Tilbakemelding og finjustering

    Resultatene vurderes for å redusere falskt positiver og negativer. Modellen justeres periodisk basert på tilbakemeldinger for å forbedre nøyaktigheten over tid. Dette kan omfatte nye data, finjustering av regler eller introduksjon av nye regler for å håndtere endrede mønstre.
  7. Implementering

    Sanntidsdeteksjon for å varsle når det mistenkes grooming-mønstre. Tsetlin-maskinen gir utslag basert på sannsynligheten for at en nettsamtale inneholder elementer av grooming.

Etikk: Rammer for ansvarlig KI

Det er ikke alt som er lov, som er lurt. (Det er heller ikke nødvendigvis slik, at alt som er lurt er lov.) Etisk refleksjon kan hjelpe oss til å se klarere når slike konflikter oppstår. PHS ønsker at PrevBOT skal leve opp til prinsipper for etisk og ansvarlig kunstig intelligens, og i sandkasseprosjektet har vi prøvd å konkretisere hvordan de kan klare det.

Også for de etiske problemstillingene har vi fokusert på forskings- og utviklingsfasen av prosjektet. Samtidig er spørsmål om hva som er «etisk riktig» i utviklingsfasen, ofte avhengig av hva vi ser for oss som konsekvenser og gevinster i bruksfasen. Derfor har vi i dette kapittelet i større grad enn de foregående sett for oss alternative måter PrevBOTen kan operere på, uten at det nødvendigvis reflekterer hva PHS faktisk har planlagt.

Målet

Hvordan kan PHS og PrevBOT måles på om de holder det etiske nivået de ønsker? Hva kjennetegner en utviklingsprosess av, og et produkt med, ansvarlig kunstig intelligens?

«Ansvarlig kunstig intelligens» er ikke et beskyttet uttrykk, som du kan smykke KI-verktøyet ditt med om det oppfyller alle punkter på én spesifikk kravliste. Det er et uttrykk for kunstig intelligens som holder et visst nivå av ansvarlighet, når det kommer til hvordan systemet – både i utvikling og bruk – har konsekvenser for brukere og samfunnet.

Etisk, ansvarlig eller tillitsvekkende KI?

  • «Etisk KI» refererer primært til å justere kunstig intelligente systemer i tråd med etiske prinsipper og verdier. Det kan være å sikre at systemet ikke viderefører fordommer eller urettferdighet, og at de bidrar positivt til menneskelig velferd og rettigheter.
  • «Ansvarlig KI» går på operasjonalisering av etikk til praktiske tiltak, og å sikre at KI-systemer utvikles og brukes med en bevisst innsats for å unngå skade og misbruk. Ansvarlig KI defineres som regel med at utviklingen og bruken av KI-teknologi skjer på en måte som er ansvarlig, transparent og bærekraftig.
  • «Tillitsvekkende KI» er et begrep som ofte brukes av Den europeiske union, oversatt til «pålitelig og tillitsvekkende» i den norske KI-strategien, og sikter til at KI-systemer skal være lovlige, etiske og robuste. Det er ikke nok at teknologien bare er i tråd med lover og regler, men den skal også være utviklet og implementert på en måte som tjener brukernes og samfunnets tillit ved å være pålitelig, sikker og transparent.

Selv om det er betydelig overlapp mellom disse konseptene, ligger forskjellene ofte i vektleggingen: etisk KI fokuserer på de moralske aspektene, ansvarlig KI på ansvarlighet og operasjonalisering av denne etikken, og tillitsvekkende KI på å tjene og opprettholde offentlig tillit gjennom overholdelse av lovlige, etiske og tekniske standarder.

Flere forskjellige instanser har utformet prinsipper og kriterier for kunstig intelligens. Først og fremst finnes etiske retningslinjer for tillitsvekkende KI fra 2019, utarbeidet av en ekspertgruppe på oppdrag fra EU-kommisjonen. OECD har utviklet sine prinsipper for kunstig intelligens, som oppfordrer til innovasjon og ansvarlig vekst av KI som respekterer menneskerettighetene og demokratiske verdier. UNESCO utarbeidet i 2022 anbefalinger for etisk KI. Mens konsulentselskapet PwC utarbeidet ni prinsipper for etisk KI på oppdrag fra World Economic Forum. Etter hvert har akademiske institusjoner, tankesmier og teknologiaktører som Google og Microsoft kommet med forskjellige tilnærminger til etisk, ansvarlig og tillitsvekkende KI. Flere av disse prinsippene og retningslinjene er generelle og mest rettet mot politisk styring. Andre er mer konkrete, og dermed nyttige for utviklerne. For eksempel inneholder retningslinjene fra EU-kommisjonens ekspertgruppe en grundig sjekkliste.

Så finnes det også domenespesifikke retningslinjer for ansvarlig KI, som for eksempel innenfor helsevesenet og finanssektoren. Relevant for PrevBOT-prosjektet, er det at INTERPOL og UNICRI har utviklet prinsipper for ansvarlig innovasjon av kunstig intelligens spesielt myntet på utvikling innenfor politimyndigheter. 

IEEE har også utformet standarder for ansvarlig og etisk utvikling av kunstig intelligens. De har standarder for spesifikke utfordringer, som IEEE P7001, som fokuserer på åpenhet om autonome systemer, IEEE P7002, som tar for seg databeskyttelse og personvern, eller IEEE P7003, som er rettet mot algoritmisk skjevhet. I tillegg har de utarbeidet den mer overordnede og omfattende veiledningen Ethically Aligned Design (EAD), som fremhever nøkkelprinsipper for å sikre at utviklingen av kunstig intelligens og autonome systemer er i tråd med etiske normer og verdier.

Etikk i den nasjonale KI-strategien

I sandkasseprosjektet velger vi å se til Nasjonal strategi for kunstig intelligens, der det er definert syv etiske prinsipper for kunstig intelligens, basert på retningslinjene fra EU-kommisjonens ekspertgruppeDet PrevBOT-prosjektet bør strekke seg etter, er altså:

  1. KI-baserte løsninger skal respektere menneskets selvbestemmelse og kontroll

    Utvikling og bruk av kunstig intelligens skal bidra til et demokratisk og rettferdig samfunn ved å styrke og fremme enkeltmenneskets grunnleggende friheter og rettigheter. Den enkelte skal ha rett til ikke å være underlagt en automatisert behandling hvis beslutningen systemet fatter berører dem i vesentlig grad. Mennesker skal være inne i beslutningsprosessene for å kvalitetssikre og gi tilbakemelding i alle ledd i prosessen («human-in-the-loop»).
  2. KI-baserte systemer skal være sikre og teknisk robuste

    Kunstig intelligens skal være bygget på systemer med teknisk robuste løsninger som forebygger risiko og som bidrar til at systemene fungerer slik de er tiltenkt. Risikoen for uintenderte og uventede skader skal minimeres. Teknisk robusthet er også viktig for systemenes nøyaktighet, pålitelighet og etterprøvbarhet.
  3. KI skal ta hensyn til personvernet

    Kunstig intelligens som bygger på personopplysninger, eller som retter seg mot personer, skal følge personvernforordningen.
  4. KI-baserte systemer må være gjennomsiktige

    Beslutninger tatt av systemer basert på kunstig intelligens, skal være sporbare, forklarbare og gjennomsiktige. Det betyr at man som enkeltperson eller juridisk person skal ha mulighet til å få innsikt i hvorfor en beslutning som gjelder dem ble som den ble. Sporbarhet muliggjør både revisjon og forklaring. Gjennomsiktighet oppnås blant annet ved å gi informasjon om behandlingen til den registrerte. Gjennomsiktighet handler også om at datasystemer ikke skal utgis for å være mennesker – mennesker skal ha rett til å få vite om de samhandler med et KI-system.
  5. KI-systemer skal legge til rette for inkludering, mangfold og likebehandling

    Ved utvikling og bruk av kunstig intelligens, er det særlig viktig å være oppmerksom på at KI bidrar til inkludering og likestilling, og at diskriminering unngås. Datasett som brukes til å trene opp KI-systemer kan inneholde historiske skjevheter, være ufullstendige eller uriktige. Identifiserbare og diskriminerende skjevhet bør fjernes i innsamlingsfasen hvis det er mulig. Utvalgsskjevhet («bias») kan motvirkes ved å innføre kontrollprosesser som analysere og korrigerer systemets beslutninger i lys av formålet.
  6. KI skal være nyttig for samfunn og miljø

    Kunstig intelligens skal utvikles med hensyn til samfunnet og miljøet, og skal ikke ha negativ innvirkning på institusjoner, demokratiet og samfunnet som helhet.
  7. Ansvarlighet

    Kravet om ansvarlighet utfyller de andre kravene og innebærer at det skal innføres mekanismer som sikrer ansvarlighet for løsninger basert på KI og deres resultater, både før og etter implementering av løsningene. Alle KI-systemer skal ivareta muligheten for revisjon.

Kunstig intelligens og forskningsetikk

Den nasjonale strategien peker også på at forsking på kunstig intelligens må skje i henhold til anerkjente forskningsetiske normer. I tillegg viser strategien til at den nasjonale forskningsetiske komité for naturvitenskap og teknologi (NENT) har avgitt en egen forskningsetisk betenkning om kunstig intelligens, der de lanserer ni prinsipper for KI-forsking innenfor tre områder:

  1. Ansvar for utviklingen og bruken av autonome systemer:
    Forskning på KI skal sikre menneskeverd, lokalisere ansvar, være inspiserbar og bidra til informert samfunnsdebatt.
  2. Samfunnsovergripende konsekvenser og forskningens samfunnsansvar:
    Forskning på KI må erkjenne usikkerhet og sikre bred involvering.
  3. Stordata:
    Forskning på KI må ivareta personvern og hensyn til enkeltpersoner, sikre etterprøvbarhet og kvalitet og bidra til rettferdig tilgang til data.

Hvordan etiske problemstillinger konkret kan vurderes opp mot de relevante prinsippene fra den nasjonale strategien, demonstrerer vi mot slutten av dette kapitlet. Først vil vi prøve å kartlegge best mulig hvilke etiske problemstillinger som ligger i PrevBOT-prosjektet, og se på hvilke verktøy og avklaringer som kan legge til rette for at de etiske vurderingene blir gode.

Etiske skråplan

Før vi prøver å konkretisere hvordan de etiske rammeverkene slår ut for PrevBOT-prosjektet, tar vi et steg tilbake til det grunnleggende spørsmålet: Er det i det hele tatt riktig av Politihøgskolen (eller andre institusjoner knyttet til politimyndighetene) å forske på ny teknologi, som man allerede før start er ganske sikker på vil ha bivirkninger, men der det totale omfanget av bivirkninger ikke er lett å bedømme? Eller kan det eventuelt bli det første steget på et skråplan?

For å vurdere det gjorde sandkasseprosjektet det vi kan kalle en første steg-analyse, inspirert av den såkalte «rettferdig krig»-tradisjonen (Bellaby, 2016; Diderichsen, 2011; Kleinig, 2009; Syse, 2003), en type tenking som i dag står sentralt i etterretningsfeltet, og for så vidt maktbruk generelt.

 Vi tok ikke mål av oss å gjøre en komplett etisk analyse, men via analysen fikk vi belyst sentrale spørsmål, som forhåpentligvis kan gi PrevBOT-forskingen noen føringer når de staker ut kursen videre. Vi håper også det er nyttig for andre å se konkrete eksempler på etiske drøftinger her i rapporten.

Slave av det første steget

Filosofen Hans Jonas, kjent for å fokusere på de etiske implikasjonene av moderne teknologi og vitenskap, formulerte det slik: «Fri til å ta det første steget, men slave av de følgende stegene» (Jonas, 1983). Selv om vi har friheten til å initiere handlinger, binder de påfølgende konsekvensene av disse handlingene oss, og begrenser vår framtidige frihet. Dette understreker viktigheten av ansvarlig beslutningstaking, spesielt i lys av irreversible teknologiske inngrep i naturen og menneskelivet.

For PrevBOT vil det være relativ kort vei fra idé & behov-stadiet via prototype, design og til utviklingsfasen i det skisserte prosessløpet over. Funksjonene PHS vil putte inn i boten er nemlig i stor grad demonstrert i annen forsking. For PrevBOT-prosjektet handler det om å få de ulike delene til å fungere som helhet. For å vite om den fungerer, må man teste. I første omgang i trygge rammer som simulering. Like fullt har man tatt enda et steg på illustrasjonen over. Når boten så er utviklet og klar til testing i bruksmiljø, kan det være vanskelig ikke å ta den i bruk – på en eller annen måte – hvis samfunnet eller enkeltsaker «krever» det. Om ikke av norsk politi, så ved en kommersiell aktør eller andre.

Det er også lett å se for seg et annet «krav» som kan komme: Et krav om at PrevBOT også lagrer data om de som blir flagget, slik at de kan bli straffeforfulgt. Er det i så fall etisk riktig av politiet ikke å etterforske når de får potensielle beviser og overgripere i fanget? Kanskje ikke. Men en PrevBOT som kan brukes i etterforskingsøyemed er sannsynligvis mer inngripende - og noe ganske annet - enn en forebyggende bot. En flagging vil da få større konsekvenser for enkeltmenneskene, materialet må trolig lagres lenger og deles med andre deler av politi og påtalemakt. Det kan derfor være lurt å innrette boten slik, at det ikke setter politiet i dette etiske dilemmaet på et senere tidspunkt.

Forsking er forsking. Hvert steg i utviklingsforløpet kan by på både kjente og ukjente muligheter, og kjente og ukjente konsekvenser. Det første steget kan altså lede oss på et skråplan, der man sklir av gårde mer eller mindre bevisst, og ender et sted man i utgangspunktet ikke ønsket. Det er ikke dermed sagt at man aldri skal ta det første steget. Men det er viktig å være bevisst – allerede i idé & behov-stadiet – på de mulige konsekvensene av et endelig produkt.

«Rettferdig krig»

Til vurderingen av om man bør ta det første steget i forskingsprosjektet PrevBOT, har etikk-professor Jens Erik Paulsen ved PHS latt seg inspirere av «rettferdig krig»-tradisjonen, og løftet fram syv momenter som er relevante å se på:

  1. Legitimitet
  2. Rettmessig grunn
  3. Sinnelag
  4. Proporsjonalitet
  5. Rimelig håp om å lykkes
  6. Siste utvei
  7. Hensynet til uskyldig tredjepart

Etikk: Første steg-analyse

Med utgangspunkt i de syv momentene i forrige kapittel, vil sandkasseprosjektet vurdere om det er etisk riktig av PrevBOT-prosjektet å ta det første steget ut i forskingen.

Legitimitet

Er det legitimt at PHS utvikler teknologier som PrevBOT? Er det i det hele tatt legitimt at politimyndigheter er pådrivere i utviklingen av ny teknologi?

Politiet har blitt kritisert for å ikke henge med i den digitale transformasjonen. Høsten 2023 kom Riksrevisjonen med betydelig kritikk i en rapport, som slo fast at politiet har foreldede IT-systemer, at det er intern misnøye med digitale tjenester og verktøy, og at Justis- og beredskapsdepartementet og Politidirektoratet har manglet kunnskap om teknologi og om hvordan teknologi kan brukes for å utvikle framtidens politi- og påtaletjenester.

Lang tids forsømmelse rettferdiggjør ikke dermed uhemmet utvikling på feltet. Nettopp mangel på erfaring og kunnskap kan tilsi at politiet nå bør være ekstra oppmerksomme i sine forsøk på å utvikle (eller forske på) ny og avansert teknologi. Samtidig slår Riksrevisjonen fast at politiets manglende prioritering av digitalisering og teknologi har ført til mindre trygghet og dårligere bekjempelse av kriminalitet. Å ikke gjøre noe, kan derfor være et etisk like problematisk alternativ.

Kanskje finnes det et punkt for balansert iver (se figur under) etter å utnytte mulighetene ny teknologi byr på?

For PrevBOT-prosjektet spesifikt, er det snakk om alvorlig kriminalitet, som det er rimelig at politiet forsøker å bekjempe. Utfra omfanget av anmeldelser som kommer inn og antatte mørketall er problemet så stort, og av en slik karakter, at politiet mener man ikke kan etterforske seg ut av det. Forebygging eller en form for avverging er derfor nødvendig. Kriminalitetsforebygging skal uansett også være politiets hovedstrategi.

Det er ikke dermed sagt at et slikt system kun bør være politiets. Det kan også tenkes at hele eller deler av en ferdig utviklet PrevBOT-teknologi med fordel kan benyttes av andre aktører, at automatiserte varsler kan sendes og/eller samtaler kan brytes, uten at politiet er involvert. Altså at nettets aktører, kommersielle som offentlige, bruker PrevBOT-teknologi som en form for moderering av det som skjer på plattformene.

Det vil like fullt være legitimt at PHS står ansvarlig for utviklingen av et slikt verktøy. Med åpenhet rundt resultatene er det argumenter for at det er nettopp en institusjon koblet til politimyndighetene som står for denne forskingen.

Rettmessig grunn

Finnes det rettmessige grunner for å utvikle et slikt system? Beskyttelsesbehovet er åpenbart. Som pekt på i det innledende kapittelet, kan hver enkelt overgriper ramme både to- og tresifrede antall offer. Konsekvensene av seksuelle overgrep er et folkehelseproblem. Så det er åpenbart rettmessige grunner til å gjøre noe med problemet. Men er det gode grunner til å gjøre det på den måten PrevBOT er tenkt, ved å gripe inn i private samtaler (riktignok på åpne fora)?

Krenker det barnas autonomi om politiet følger med på og griper inn i samtaler ved mistanke om forsøk på grooming? Ja. Det reduserer de unges mulighet og evne til selv å vurdere og selv bestemme seg for hvordan de skal takle situasjonen. Det kan likevel være rettmessige grunner for å gjøre det. Det er tross alt mindreårige det er snakk om, som også har rett på beskyttelse.

Gruppen PrevBOT er ment å beskytte, mindreårige på nett, er slett ingen homogen gruppe. Det er stor variasjon i hvor godt foreldre passer på og veileder barna om nettvett. Det er også stor variasjon i alder på de som skal beskyttes. Mange av de mindreårige, som befinner seg på plattformer der grooming forekommer, er nesten myndige, mens noen er helt ned i 10-årsalderen. Det er stor variasjon i seksuell utvikling, nysgjerrighet og erfaring. Det er også en viss variasjon i kunnskap om, og erfaring med, å håndtere forsøk på manipulasjon. Så i sum er det altså et visst spenn i sårbarhet. De mest sårbare kan kjennetegnes av dårlig oppfølging hjemme, lav digital kompetanse og høy grad av risikosøken.

FNs barnekonvensjon slår fast at barn har rett på beskyttelse. Artikkel 34 handler eksplisitt om barnas rett til å beskyttes mot seksuell utnyttelse. Mens konvensjonens artikkel 16 handler om retten til, og vern om, et privatliv. Artikkel 12 handler om respekt for barnas synspunkter, og anerkjenner barnas rett til å være aktive deltakere i beslutningsprosesser som påvirker dem. Barna har altså rett på en slags autonomi, men denne friheten virker – både i ord og praksis – å være underordnet kravet til beskyttelse.

Les gjerne: «Barnet – et menneske uten krav på fulle menneskerettigheter?» av Paul M. Opdal

For at PrevBOT ikke skal oppleves som et vilkårlig inngrep i privatlivet, er det viktig at boten kan gi reell beskyttelse. Det er ikke nok å peke på omfanget av den seksuelle utnyttelsen som skal bekjempes. Her må vi analysere selve situasjonen der boten (eller botens operatør) skal gripe inn i barnets nettaktivitet, og måle graden av trussel på den ene siden opp mot graden av sårbarhet på den andre. Graden av sårbarhet vil, som nevnt, variere. Men for mange unge vil sårbarheten, i form av lite erfaring med å gjenkjenne forsøk på manipulering, gjerne i kombinasjon med seksuell nysgjerrighet og/eller usikkerhet, være stor. Trusselen, i form av fare for å bli forsøkt groomet og konsekvensene av eventuelle overgrep, er også stor. Ingen av partene i disse samtalene er spesielt godt skikket til å tenke langsiktig (på hhv konsekvenser for andre og konsekvenser for en selv). At en overgriper kan møte et offer i et et chatrom, som er mer eller mindre ukontrollert, er åpenbart et problem. Et verktøy som avskjærer slike møter, vil gi en reell beskyttelse.

Seksuelle overgrep generelt, og grooming spesielt, er et problem av slikt omfang og kompleksitet, at ett tiltak alene neppe får bukt med det. Men PrevBOT kan utvilsomt være et nyttig redskap, og grunnene til å utvikle det synes rettmessige.

Sinnelag

Et tredje aspekt i første steg-analysen dreier seg om intensjonen for utviklingen av en PrevBOT. Dette beror i praksis på en vurdering av sinnelaget. Kan vi anta at ideen bygger på, og utviklingen vil skje, med respekt for integriteten/menneskeverdet til de partene teknologien er rettet mot? Er vi trygge på at intensjonen med PrevBOT er å ville kriminaliteten til livs, ikke personene og gruppene som sådan? Dette er det politiet og Politihøgskolen selv som  må kjenne på og vurdere.

Vi kan både mistenke og forstå, at det er fristende for politiet å la boten også samle beviser for å starte etterforsking, basert på flaggende samtaler. Det er også med i tidlige skisser av PrevBOTen. En slik versjon kan også være forenlig med et godt sinnelag og et ærlig formål om å bekjempe kriminaliteten. Det er riktignok mer åpenbart at det potensielle sinnelagsproblemet ivaretas med en rent forebyggende PrevBOT, som nøyer seg med å avdekke og avskjære.

Proporsjonalitet

Prinsippet om proporsjonalitet innebærer at politiet ikke skal «ta i bruk noe sterkere middel før mildere midler har vært forgjeves forsøkt» (politiinstruksen § 3-1). Og gevinsten ved å avverge overgrep må veies opp mot ulempene utviklingen og bruken av en PrevBOT innebærer.

Sandkasseprosjektet har ikke undersøkt om det finnes andre, mildere midler, som politiet bør prøve før PrevBOT. Om boten i denne sammenheng vil være et særlig sterkt middel, kommer an på hvordan de designer den. En bevissamlende PrevBOT er nok et kraftigere middel, enn en rent forebyggende bot. Dette tilsier at en bevissamlende bot først (eventuelt) kan forsvares om en rent forebyggende bot er forgjeves forsøkt.

Vi må også vurdere om bruken av et PrevBOT-verktøy vil være proporsjonalt med problemet som skal bekjempes. Er det fare for å skyte spurv med kanoner? Seksuell utnyttelse og overgrep mot barn er ingen «spurv». Det er alvorlig kriminalitet og et folkehelseproblem. Vi må likevel forvente at verktøyet er treffsikkert, og at bruken ikke rammer svært mange mennesker som verken står i fare for å bli ofre eller overgripere. Er det behov for en slik «masseovervåking» for å avverge kriminaliteten man vil til livs? Eller sagt på en annen måte: kan PrevBOTen utformes slik at den minimerer inngrepet i personvernet til «massen»?

Kan man sørge for at flaggede samtaler, som etter planen skal bli lagret for å gjøre modellen stadig bedre og språklig oppdatert, ikke blir lagret lenger enn strengt nødvendig? I situasjonene der politiet har intervenert med en advarsel, vil det kanskje være dokumentasjonskrav knyttet til de elektroniske sporene som ga grunnlaget. Men unødvendig store mengder persondata som lagres unødvendig lenge, er ikke bra for personvernet. Oppdateringer kan for eksempel skje relativt hyppig, både for å unngå et stort lager av logger, men også for å sikre at PrevBOT fungerer best mulig. Prosjektet kan også vurdere om det kun er de loggene der en botoperatør har grepet inn, som skal lagres, i stedet for alle som blir flagget. Det vil gi en menneskelig kvalitetssikring, som både reduserer støy i etterlæringsmaterialet og styrker personvernet.

Det er viktig at proporsjonalitet ligger langt framme i bevisstheten gjennom hele forskings- og utviklingsløpet. Som del av en først steg-analyse, vurderer vi at prosjektet er i tråd med prinsippet.

Rimelig håp om å lykkes

Å ta et første steg, kan best forsvares om det er et rimelig håp om å lykkes. Teknologisk er det såpass godt bevist at maskiner kan gjenkjenne spesielle samtaletrekk og gjøre sinnsstemningsanalyse, at vi trygt kan si at det er rimelig håp om å lykkes med å lage en bot som kan oppdage og flagge groomingforsøk. Men for å sikre oss at det ikke blir et første steg på et skråplan, må vi gjøre oss opp en mening om en teknisk fungerende PrevBOT vil ha rimelig håp om å lykkes i praksis med å forhindre CSEA.

Rent teknisk er det for eksempel viktig, at systemet er hurtig nok til å kunne avverge før samtalen tas over i lukkede fora. Det handler både om botens evne til å oppdage og flagge mistenkelige samtaler tidlig nok, men også om politiets nettpatruljer har kapasitet til å følge opp all flagging fra PrevBOTen, og gripe inn raskt nok der det trengs. Om det er det siste det står på, vil kanskje veien være kort til å gjøre PrevBOTen, som er planlagt som en beslutningsstøtte for ekte, levende nettpatruljer, om til et helautomatisk verktøy. Det vil i så fall bety strammere krav både juridisk og etisk, der deler av vurderingen vil gå på om behandlingen verktøyet gjør har rettsvirkning for eller på tilsvarende måte i betydelig grad påvirker den enkelte.

Så kan man diskutere om en automatisk pop-up-advarsel er såpass inngripende? Ikke i seg selv, kanskje. Men om du i en advarsel med politiet som avsender blir «stemplet» som potensiell overgriper eller potensielt offer, vil det nok oppleves inngripende for mange, selv om det ikke skal få rettslige konsekvenser. Så ordlyden i advarslene, og om det er det potensielle offeret, den potensielle overgriperen eller begge, som advares, vil kreve omtanke.

PrevBOTs mulighet for å lykkes er slett ikke bare et teknisk eller organisatorisk spørsmål. Minst like avgjørende for om det vil virke etter intensjonen: Vil potensielle overgripere la seg stoppe av en advarsel som spretter opp på skjermen? Dersom politiet er åpne om hvordan verktøyet fungerer, som vel er en forutsetning om PrevBOT skal kunne kalles ansvarlig KI (jf. prinsippet om transparens), vil de godt informerte vite at å gi blanke i advarselen ikke vil påvirke faren for å bli tatt. Kan det tenkes at de farligste overgriperne vil være kaldblodige nok til å trosse advarsler og chatte videre?

Hvordan vil så det potensielle offeret oppleve en advarsel om at hen muligens blir forsøkt groomet? Som nevnt er de potensielle ofrene slett ingen ensartet gruppe. Effekten av en advarsel vil nok avhenge av situasjonen. Forsøk på grooming kan forekomme på chat- eller spillplattformer ment for generell sosialisering. Dette er steder de unge kanskje opplever som en trygg hjemmebane, der de er mindre på vakt og kan bli overrumplet av smiger og grooming-forsøk. Der vil kanskje en advarsel kunne være en vekker med god effekt.

I den andre ytterkanten finnes mindreårige som allerede har trosset advarsler, og har «sneket» seg inn på pornografiske nettsider med 18-årsgrenser. Dersom du blir forsøkt groomet i en slik kontekst, når du selv lyver på alderen, når du selv er ute etter å pushe (seksuelle) grenser: Vil du bry deg om en advarsel om at du blir forsøkt groomet?

Professor Elisabeth Staksrud ved Institutt for medier og kommunikasjon ved UiO har fulgt med på barns nettbruk siden 90-tallet. Hennes forsking viser, at de som utsettes for seksuelle overgrep etter å ha møtt personer på internett, som regel har en anelse om at de møter en voksen som er ute etter noe seksuelt. En advarsel om nettopp den faren vil altså ikke bringe noe nytt til torgs. Det betyr ikke nødvendigvis at den ikke vil ha effekt. En advarsel med politiet som avsender, kan få alvoret til å synke inn. Det er like fullt ikke opplagt at slike advarsler vil ha like god effekt på alle. Og kanskje minst på de mest sårbare?

De potensielle overgriperne er nok også en lite homogen gruppe, både i alder og «aggresjon». Noen er serieovergripere med en bevisst plan og metode for å lokke til seg offer. Andre glir kanskje mer ubevisst forbi sine normale, moralske skrupler, og har «plutselig» gjort ting digitalt hen neppe ville gjort i det analoge liv. For disse potensielle overgriperne, vil kanskje en advarsel fra politiet være effektiv.

Les gjerne: Dette er de norske nettovergriperne (aftenposten.no)

PrevBOT vil neppe oppnå 100 % effekt i å avverge overgrep på de plattformene den skal operere, selv der boten har detektert grooming og forsøket har blitt prøvd stoppet på et vis. Men det er rimelig å tro at den vil kunne stoppe en del. Usikkerheten knyttet til de chattendes reaksjoner på advarsler og politiets inngripen tilsier, at det vil være viktig med videre forsking på hvordan verktøyet virker i praksis, straks det tas i bruk.

I sandkasseprosjektet har vi også diskutert bruken av ordene «offer» og «overgriper». Det er ikke sikkert de involverte ser på seg selv som mulige ofre og potensielle overgripere, og slike uttrykk kan virke fremmedgjørende. Ordbruken i politiets avskjæringsforsøk kan derfor være avgjørende for om PrevBOT har rimelig håp om å lykkes.

Én ting er om de chattende reagerer på advarslene. En annen ting er om de i det hele tatt tror at de er ekte. Hvordan skal unge, som på skolen lærer å være kritiske nettbrukere, stole på at det faktisk er politiet som griper inn? Hva om det er advarselen i seg selv de blir kritiske til? Dette har forhåpentligvis politiets nettpatruljer erfaring med å håndtere. Det er uansett et mulig utfall, som er viktig å ta med i utviklingen av prosjektet.

Dersom det er godt kjent blant unge at PrevBOT eksisterer, vil det selvsagt hjelpe på problemstillingen over. Og nettopp det – at det er allment kjent at boten og politiet følger med på nett – kan ha en effekt i seg selv.

Det kan riktignok lede til kriminalitetsforflytning, altså at groomingen flytter over på arenaer der PrevBOT ikke har tilgang. Om problemet så flytter seg til nettets mørkeste kroker, vil det uansett bety at både offer og overgripere i betydelig større grad må oppsøke situasjonene bevisst. Nå plukkes nye ofre til en viss grad opp på «åpen gate». Om problemet forflytter seg vil «gatene» i det minste være trygge for flertallet. Og problemet blir redusert, om ikke helt eliminert.

Vissheten om at PrevBOT følger med kan, på den andre siden, gi en falsk trygghet. Om de stoler blindt på at «storebror» griper inn mot alt som er mistenkelig, kan det gjøre dem mer sårbare for forsøk PrevBOTen ikke klarer å fange opp? Her er det relevant at de aller fleste overgrep begås av jevnaldrende. Samtidig er det planlagt at PrevBOTen skal detektere stor aldersforskjell mellom de chattende, uten at det er spesifisert hva som skal kvalifisere til «stor aldersforskjell». Forsking viser at dømte groomere stort sett er menn mellom 25 og 45. Vil en samtale mellom en mann i midten av 20-årene og en jente på 15-16 bli definert som stor aldersforskjell? Og vil den være like lett å avsløre for PrevBOTen, som om mannen var 40? Jo større avstand PrevBOT krever for å gripe inn, jo færre saker vil den oppdage. Og jo flere jevnaldrende-forsøk som går under PrevBOT-radaren, jo falskere trygghet er det for de som tenker at PrevBOT gjør «rommet» sikkert.

For å oppsummere PrevBOT-prosjektets sjanse for å lage et effektivt verktøy, er det altså en rekke momenter som påvirker om det vil kunne lykkes. Av de mange mulige utfallene, er det riktignok mye som kan løses i designet av verktøyet og bruken av det. PrevBOT vil neppe oppdage eller kunne avverge alle grooming-forsøk, men den vil forhåpentligvis stoppe en del. Så håpet om å lykkes er rimelig nok til å forsvare et første steg ut i PrevBOT-forskingen.

«Siste utvei»

Hvis det kun finnes én måte å avverge denne typen kriminalitet på, en siste utvei, kan det være at kravet til proporsjonalitet kan justeres. I denne sammenhengen er det nok ikke relevant. PrevBOT er verken den eneste eller den siste utveien i kampen mot denne type kriminalitet.

Som nevnt under punktet om proporsjonalitet er politiet mer eller mindre forpliktet til å prøve en rent forebyggende variant av PrevBOT, før de eventuelt utvikler et verktøy som også samler bevis og legger til rette for etterforsking.

Det er heller ikke sikkert en bevissamlende bot vil være den aller siste utveien. Om det skulle bli aktuelt å gå videre på det sporet, vil det kreve en kartlegging og sammenligning med andre metoder.

Hensynet til tredjepart

Det siste punktet i denne første steg-analysen, handler om hensynet til «uskyldige» brukere og andre som ikke nødvendigvis får eller burde få nærkontakt med en PrevBOT i aksjon.

På den positive siden er det nok mange som vil ønske et slikt verktøy velkomment. Foreldre vil sette pris på at noe blir gjort. Politikerne vil være takknemlige for tiltak som kan gjøre samfunnet tryggere. Om et fysisk rom var kriminalitetsbelastet i like stor grad som nettet, ville vi forventet at politiet sendte uniformerte patruljer dit eller tok tak i problemet på et eller annet vis.

Men dette «et eller annet vis» er ikke nødvendigvis en PrevBOT. På den negative siden kan et slikt verktøy føre til nedkjølingseffekt. Bare vissheten om at politiet har et slikt verktøy som følger med, lagrer og eventuelt griper inn i vår aktivitet, når vi lever våre liv i åpne, digitale rom, kan føre til at vi i mindre grad føler oss fri og ønsker å bruke disse arenaene. En slik nedkjølingseffekt vil kunne bli forsterket om PrevBOT i praksis viser seg å gripe inn i harmløs hengivenhet mellom kjærester eller samtykkekompetente nettbrukere.

Derfor vil det være avgjørende hvor PrevBOTen brukes, og hvordan den stilles inn. Hvor effektiv skal den være? Hvor sikker skal den være på, at det som pågår er grooming med (høy) risiko for å ende i seksuell utnyttelse? Skal den nøye seg med å advare mot og skremme bort de mest opplagte serieovergriperne? Eller skal den ha lavere terskel for å gripe inn i digitale forsøk på å utfordre hverandre seksuelt, med fare for å gi en rekke «falskt positive» flagginger?

En nedkjølingseffekt kan riktignok også komme ved fravær av en PrevBOT. Om ingenting blir gjort, og nettet fortsetter å oppleves som et stadig mer lovfritt og farlig rom, er det grunn til å tro at mange vil skygge unna i større grad. Foreldre vil kanskje sette strengere grenser for barnas nettbruk? Det er kanskje ikke noe galt i det i seg selv, men det er en fare for at det er de mest sårbare som da vil bli igjen på nettet.

Å ikke ta opp kampen mot kriminaliteten på nett, framstår med andre ord også som negativt for følelsen av frihet og muligheten til å ha et privatliv på nettet.

Alt i alt konkluderer sandkasseprosjektet med at kriteriene i første steg-analysen er oppfylt, og at det er etisk riktig å sette i gang forsking på PrevBOT.

Veien videre

Sandkasseprosjektet har vurdert og skissert hvordan PHS lovlig kan forske på et slikt KI-verktøy. Grønt lys for PrevBOT-forsking kan riktignok være lite verdt, om verktøyet som forskes på og utvikles ikke vil være lovlig i bruk.

I bruk vil et slikt verktøy ikke komme unna å behandle (sensitive) personopplysninger. Og – alt etter hvordan man innretter det – vil det kunne oppleves temmelig inngripende i personvernet til både offer og overgripere, og tilfeldige personer som får sin chat analysert av PrevBOT mens man er på nettet.

Det vil nok være smart å være tidlig ute med en plan for vurderinger av lovligheten ved et slikt verktøy i bruk. Det kan definitivt være tema for et nytt sandkasseprosjekt.

PrevBOT-prosjektet er fortsatt i en tidlig fase, og veien videre avhenger av mange valg som må tas. Sett fra et personvernperspektiv er det spesielt interessant om de holder fast på at det er et verktøy som skal forebygge i form av å avskjære forsøk på grooming. PrevBOT-prosjektet er nå tydelige på at det er det de ønsker. Samtidig er det krefter som på veien fra idé til bruksklart KI-verktøy kan prøve å påvirke, for at verktøyet også skal kunne samle bevis mot og jakte på overgripere. Datatilsynet anbefaler prosjektet tidlig å identifisere bruk av PrevBOT de vurderer som uetisk og uønsket, og i utviklingsfasen jobbe for å stenge dører for nettopp slik bruk.

Ønske om frihet og ønske om trygghet blir gjerne framstilt som motstridende mål. PrevBOT-prosjektet er riktignok et godt eksempel på at frihet, trygghet og personvern er gjensidig avhengig av hverandre, og at det handler om å finne balansen. De mindreårige har krav på autonomi og et privatliv, men uten et visst nivå av trygghet på nettet, vil de ikke kunne utøve sin autonomi og sine friheter. Når verktøyet etter hvert skal designes mer i detalj, blir det viktig for prosjektet å søke etter dette balansepunktet.

Tillit er avgjørende for et prosjekt som ønsker å være i tråd med både regelverk og retningslinjer for ansvarlig kunstig intelligens. Å legge vekt på transparens og involvering av relevante interessenter gjennom forskingsprosjektet, danner et godt grunnlag for det.

I løpet av sandkasseprosessen har LLM (Large Language Models) rukket å få sitt folkelige gjennombrudd, og SLM (Small Language Models) har meldt sin snarlige ankomst. Det samme har LAM (Large Action Models). Nye muligheter dukker opp, og sandkasseprosjektet ser at PrevBOT på flere måter kan bidra til å gjøre internettet og hverdagen tryggere for sårbare grupper.

For eksempel kan teknologien fra et vellykket forskingsprosjekt brukes i apper som kjøres lokalt på telefoner og laptoper. Som behandler det som er synlig på skjermen, heller enn å operere på nettstedenes domener. Der du kan stille inn hvem som eventuelt skal varsles, i tillegg til den som sitter ved skjermen og blir forsøkt groomet.

PrevBOT kan ende opp med å ikke bare bli ett verktøy, men danne grunnlaget for flere forskjellige tiltak, som til sammen gir effektivt vern mot nettbasert grooming.