Kunsten å anonymisere data for gjenbruk

Deling og gjenbruk av data kan spare tid for forskere og gi bedre forskning ved at man får et rikere datagrunnlag. Men hva med persondata, de må vel slettes ved prosjektslutt? Det later til å ha spredt seg en misforståelse i forskningsmiljøene om at personvern og deling av data står i konflikt.

Publisert

At data skal deles så åpent som mulig, og så lukket som nødvendig, er et veletablert prinsipp som vi blant annet finner i Den nasjonale strategien for tilgjengeliggjøring og deling av forskningsdata.

Strategien gir retningslinjer for hvordan offentlig finansierte data skal legges til rette for gjenbruk. Det finnes flere legitime hensyn som kan begrense hvor åpent data bør deles, deriblant personvern.

Dette kan skape et inntrykk av at personvern står i konflikt med deling av data – men er det egentlig sant?

Deling i tråd med personvern

NSDs mandat er å sikre fri og åpen tilgang til forskningsdata gjennom et bredt tilbud av data og støttetjenester. Vi følger mange forskningsprosjekter fra de starter opp til data skal arkiveres. I oppstartsfasen møter vi på forskere som utarbeider samtykkeerklæringer hvor de oppgir at persondata skal slettes ved prosjektslutt.

Som forsker skal du på den ene siden sørge for at respondentenes personvern ivaretas, mens det på den andre siden forventes at dataene skal deles.

Som forsker skal du på den ene siden sørge for at respondentenes personvern ivaretas, mens det på den andre siden forventes at dataene skal deles.

NSDs oppgave er å muliggjøre forskning innenfor rammene av regelverket. Det innebærer blant annet å finne handlingsrommet mellom personvernhensyn og gjenbruk av data, slik at data kan deles så åpent som mulig. Det finnes flere grep som kan sikre at data om personer kan deles på en hensiktsmessig måte.

Anonymiserte data kan deles

Først og fremst er det viktig å formidle at personidentifiserende data kan anonymiseres! Ved å anonymisere data vil ikke lenger respondentene kunne identifiseres i datamaterialet. Dette oppnår man blant annet ved å slette eller gruppere variabler og fjerne utstikkere.

Anonymisering av data gjør at man unngår å forholde seg til personvernlovgivning ved deling av data – dette baner opp for at data kan deles mer åpent. Anonyme data kan deles fritt under åpne lisenser som for eksempel Creative Commons og NLOD (Norsk lisens for offentlige data).

Gjenbruk gir flere muligheter

Forskningsdataarkivet til NSD består hovedsakelig av anonymiserte data med stor gjenbruksverdi. Disse dataene har ulike tilgangsrestriksjoner satt av forskeren som deponerte dem. Dersom disse dataene kun hadde vært tilgjengelig som persondata ville restriksjonene vært strengere – og data hadde vært mer lukket enn nødvendig.

Siden anonymiseringen har gjort data mer åpent, brukes det mer. Hvert år blir data fra arkivet vårt gjenbrukt av flere hundre forskingsprosjekter.

Ved å gjøre dine data tilgjengelig vil finansieringen av forskningsprosjektet og datainnsamlingen ha stor nytteverdi for andre forskningsprosjekter.

Ved å gjøre dine data tilgjengelig vil finansieringen av forskningsprosjektet og datainnsamlingen ha stor nytteverdi for andre forskningsprosjekter. Du vil også bli sitert av andre forskere, og det kan åpne dører for spennende samarbeid.

Pass opp for indirekte identifisering

Ettersom du fortsatt leser artikkelen antar jeg det betyr at du er overbevist om at anonymisering vil la deg dele dine data mer åpent. Vær imidlertid obs på at anonymisering av individdata kan være krevende.

Det er viktig å fjerne eller grovkategorisere bakgrunnsopplysninger i tillegg til direkte identifiserende opplysninger; Den 62 år gamle biskopen i Lillesand vil fortsatt kunne identifiseres selv om navnet er fjernet. Anonymiserte data inneholder derimot ikke opplysninger som på noen måte kan knyttes til personer.

Bruk et sertifisert forskningsdataarkiv

Argumentet mot anonymisering er at det kan «ødelegge» datasettet. Et datasett uten bakgrunnsvariabler har selvsagt lite gjenbruksverdi i forskning. Hva er da poenget med å dele det åpent?

Løsningen er å bruke et sertifisert forskningsdataarkiv. Det er av to enkle grunner:

  1. for mye anonymisering kan ødelegge gjenbruksverdien til data og
  2. for lite anonymisering kan bety at data ikke er anonymt

Et CoreTrustSeal-sertifisert forskningsdataarkiv vil ha kompetansen og løsningene for å bevare begge deler. CoreTrustSeal tildeles pålitelige datainfrastrukturer etter søknad. En uavhengig instans vurderer arkivet opp mot en rekke krav og går god for arkivets pålitelighet og troverdighet.

Hjelper deg å beholde gjenbruksverdien

Ved å arkivere i sertifiserte forskningsdataarkiv, vil du vite at data blir kvalitetssikret, kuratert og tilrettelagt før de publiseres. Data blir arkivert i tråd med FAIR-prinsippene (Findable, Accessable, Interoperable og Reusable) og langtidspreservering blir ivaretatt. Dersom dataarkivet ikke tilbyr dette vil gjenbruksverdien synke fort og drastisk.

Det er en kunst å anonymisere data uten å redusere kvaliteten. Eksempelvis kan et personidentifiserende datasett gjøres om til flere ulike anonymiserte datasett slik at det kan brukes av flere forskningsprosjekter.

«Ved å arkivere i sertifiserte forskningsdataarkiv, vil du vite at data blir kvalitetssikret, kuratert og tilrettelagt før de publiseres.

Denne løsningen anvender NSD f.eks. på NOKUTs Studiebarometer - en nasjonal spørreundersøkelse om studentenes opplevde studiekvalitet. Ettersom utvalget kun består av studenter er det ikke mange bakgrunnsvariabler som skal til før respondentene kan identifiseres i datamaterialet. Derfor har NOKUT valgt å gjøre

Studiebarometeret tilgjengelig i tre anonymiserte varianter hos NSD. Det gjør at dataene beholder mest mulig av verdien, samtidig som man sikrer at personene ikke kan identifiseres.

Smarte løsninger kan dermed sikre at data ikke blir unødvendig lukket, for å verne om gjenbruksverdien. Det er fort gjort å se seg blind på et stort datasett hvor summen av en rekke variabler gjør at man kan knytte opplysningene opp til personer. Et forskningsdataarkiv skal kunne tilby løsninger som lar deg arkivere og dele data på en hensiktsmessig måte: «så åpent som mulig, så lukkede som nødvendig».

Vær obs på hvor du velger å laste opp data

Det finnes flere initiativer for arkivering av forskningsdata som ikke tilbyr kvalitetssikring eller kuratering. Uten dette risikerer man at persondata kommer på avveie. Konsekvensene av brudd på personvernloven kan være betydelige – særlig om det er snakk om sensitive personopplysninger (kalt «særlige kategorier» i lovverket) og/eller store datamengder.

Bruk datahåndteringsplan og ta gode beslutninger før datainnsamlingen

For å være best mulig i stand til å dele persondata i tråd med lovverket må man som forsker ta riktige avgjørelser tidlig i forskningsprosessen. En datahåndteringsplan er et verktøy for håndtering av forskningsdata som hjelper deg med å ta gode valg gjennom hele forskningsprossessen – fra innsamling, bearbeiding og analysering, til lagring, arkivering og deling av dataene.

Når det kommer til deling av data blir alt mye lettere med en veltenkt plan fra starten. NSD har utviklet en datahåndteringsplan som støtter deg i å gjøre valgene, basert på dataene du skal samle inn.

En datahåndteringsplan er et verktøy for håndtering av forskningsdata som hjelper deg med å ta gode valg gjennom hele forskningsprossessen

Anonymisering er ikke den eneste veien til deling av data. En datahåndteringsplan kan hjelpe deg med å utforme samtykkeerklæringer som lar persondata deles med andre forskere. Dette vil være særlig sentralt for kvalitative data hvor anonymisering er svært ressurskrevende.

God planlegging gir gode data – og mer data tilgjengelig for gjenbruk!

Powered by Labrador CMS