Åpne dører til rotete rom

En fortelling om den krevende åpenheten, eller hvorfor åpen forskning handler om mye mer enn å publisere artikler i åpne tidsskrift.

Publisert

I fjor sommer var jeg på et internasjonalt seminar om åpen forskning. Under lunsjen kom jeg i snakk med en av de få forskerne som deltok (de fleste andre til stede var bibliotekarer og andre representanter fra administrasjons- og forskningsstøtte ved universitets- og høgskolesektoren). Hun fortalte at hun var den eneste av sine kolleger som reiste hit, de fleste prioriterte fagseminarer og konferanser som mer direkte angikk deres egen forskning. Hun hadde selv heller ikke reflektert så mye rundt dette med åpenhet i forskning, inntil hun nylig havnet i en situasjon der det ble tydelig for henne at åpenhet handler om mye mer enn å publisere artikler i åpne tidsskrift.

Jeg har i denne historien endret på noen av detaljene for å bevare de omtalte personenes anonymitet, men hendelsene er i høyeste grad basert på realiteten.

Forskeren var doktorgradsstipendiat innenfor helse og samfunnsforskning og la vekt på tverrfaglighet i forskningen sin. Spesialfeltet hennes var helse, velferd og ulikhet, og hun brukte gjerne data fra flere ulike fagfelt i analysene sine. Hun fortalte at hun i månedene før seminaret hadde vært i kontakt med en pensjonert medisinprofessor angående en artikkel han hadde publisert i et stort og velrennomert tidsskrift tidlig på 2000-tallet. Hun tenkte at datamaterialet som lå til grunn for funnene og konklusjonene i artikkelen kunne være nyttig for forskningen hennes. Hun ville derfor gjerne ha tilgang til dataene.

Så hun sendte professoren en forespørsel på epost. I svaret virket han positiv og velvillig, men han påpekte også at alt hun trengte av informasjon egentlig var å finne i artikkelen han hadde skrevet. Det var bare å lese artikkelen, så ville hun finne alle svarene der. Hun sendte en ny mail der hun tydeligere prøvde å presisere at hun mente datagrunnlaget for funnene og konklusjonene hans, altså selve datamaterialet, datasettene. I svaret sitt foreslo professoren at de gjerne kunne møtes og drøfte artikkelen og funnene hans, og han inviterte henne til et lite møte på kontoret som han fremdeles disponerte på fakultetet. Dagen etter møtte hun opp. Døren hans var åpen inn til et kontor som var fullt av bøker, mapper og papir, stablet rundt omkring i hyller og på bord og stoler, og på gulvet langs veggene. På pulten og i vinduskarmen lå det hauger av oppslåtte bøker omgitt av meterhøye stabler av gulnede aviser, tidsskrifter og enda flere permer, mapper og papirer.

De snakket om forskningen hans og om den nevnte artikkelen. Da de kom inn på datagrunnlaget måtte han innrømme at han ikke hadde helt oversikt om det i det hele tatt eksisterte lenger. Han hadde lagret materialet på en CD for lenge siden, den var muligens på kontoret en plass, han visste ikke helt hvor, eller om han hadde tid til å lete. Det var også mulig at den var kastet eller forsvunnet. Men, sa han til henne, funnene og konklusjonene var jo publisert, alt var å finne i artikkelen. Eller, hadde han foreslått, hun kunne jo bare spørre ham nå når hun var der, han svarte gjerne på alle spørsmål hun måtte ha.

Møtet varte ikke så veldig mye lenger, og hun gikk derfra noen minutter senere. Uten noe data, men med et løfte fra professoren om at han skulle prøve å lete litt mer etter dataene og eventuelt komme tilbake til henne.

Doktorgradsstipendiaten fikk noen uker senere tilsendt en konvolutt med en CD i posten, avsender var medisinprofessoren. I og med at laptopen hennes ikke hadde CD-ROM måtte hun skaffe seg en ekstern CD-ROM-spiller får å få lest innholdet. Når hun etterhvert fikk lest av materialet, viste det seg det seg at CD-en inneholdt flere hundre filer i et format hun ikke kjente til, og som hun heller ikke fikk åpnet i noen av programmene hun pleide å bruke. Etter litt googling fant hun ut at filformatet var laget i et program som ikke lenger var tilgjengelig eller mulig å få tak i.

Med hjelp fra en kollega fikk hun etter hvert likevel eksportert og åpnet filene i kjent programvare. På CD-en fant hun en mengde mapper med navn som data1, data2 og data3 og hver av disse mappene inneholdt navnløse filer (de var bare nummerert fra 1 og oppover). Når hun åpnet filene var det svært vanskelig å forstå hva datasettene inneholdt informasjon om; variablene (kolonnene) i datasettene var enten uten navn, eller de var, slik hun oppfattet det, relativt vilkårlig nummerert. Det slo henne at innholdet på CDen var like kaotisk organisert som kontoret til den pensjonerte professoren.

Igjen tok hun kontakt med professoren. Denne gang for å spørre om hva de ulike datasettene faktisk inneholdt. Hun spurte om det eksisterte en kodebok eller om informasjonen om datasettene på andre måter var skrevet ned noe sted. Han svarte at det hadde vært en forskningsgruppe som hadde jobbet med datamaterialet, blant annet hadde en del av hans egne studenter og doktorgradsstipendiater vært involvert i datainnsamlingen og analysene. Han visste ikke om de hadde skrevet ned informasjon om de forskjellige datasettene. Han hadde ikke lenger kontaktinformasjonen deres, så han hadde heller ikke mulighet til å sende forespørselen videre.

Doktorgradsstipendiaten begynte å erkjenne at datamaterialet hun satt på var ubrukelig. Mangel på dokumentasjon gjorde at materialet var uforståelig, og dermed også helt uten nytteverdi for enhver forsker som måtte ønske å gjenbruke dataene – inkludert professoren som var ansvarlig for materialet.

Så åpent som mulig, så lukket som nødvendig

Dette og lignende scenarier oppstår med jevne mellomrom i forskermiljøene. Oppmerksomheten rundt åpen forskning og åpne data har riktignok økt betydelig de siste årene, men for mange er det fremdeles knyttet en del usikkerhet til hva åpenhet i praksis innebærer.

Åpenhet i forskning handler ikke bare om å publisere artikler i åpne tidsskrift. Det handler også om å gjøre forskningsdataene som ligger til grunn for forskningen tilgjengelig.

Åpenhet og tilgjengelighet i forskning handler heller ikke bare om etterprøvbarhet og å gi andre forskere mulighet til å avdekke feil i datamaterialet. Å gjøre data tilgjengelig gir mulighet for at ytterligere informasjon og kunnskap kan trekkes ut av datamaterialet, enten ved å bruke andre metoder og teknikker i analysene, eller ved å integrere materialet med andre datasett.

Datamateriale som har blitt samlet inn av forskere til et spesifikt formål og et spesifikt prosjekt, kan ha bruksområder og bruksverdi som de opprinnelige skaperne ikke har forutsett.

Men for at gjenbruk skal være mulig, er ikke åpenhet og deling i seg selv tilstrekkelig. Forskningsdata bør håndteres og tilrettelegges slik at verdiene i dataene kan utnyttes best mulig. Dette er et av grunnprinsippene i KDs nasjonale strategi for tilgjengeliggjøring og deling av data, der det heter at forskningsdata ikke bare må håndteres slik at de er søkbare og gjenfinnbare. De må også dokumenteres og behandles slik at de er reelt gjenbrukbare. Det vil blant annet si at de må utstyres med gode metadata, og med lisenser og gjenbruksbetingelser som gjør det klart hvordan dataene kan eller eventuelt ikke kan brukes.

Samtidig er det viktig å understreke at ikke alle forskningsdata kan eller bør gjøres tilgjengelige for andre. Det er ofte veldig gode grunner til at deling av data bør begrenses, eller ikke deles i det hele tatt. Personvernhensyn eller forretningsmessige og kommersielle hensyn kan være eksempler på dette. I slike tilfeller er det imidlertid enda viktigere at forskere og forskningsinstitusjoner har gode løsninger for at dataene blir håndtert på en sikker og trygg måte. Forskningsdata skal være så åpne som mulig, men så lukkede som nødvendig.

God planlegging gir gode data

En datahåndteringsplan er et nyttig verktøy for håndtering av forskningsdata. Planen skal hjelpe forskere til å holde orden på forskningsdata og forskningsprosessen, og til å holde “kontoret” ryddig. En gjennomarbeidet datahåndteringsplan bidrar til at forskningsdata kan håndteres sikkert, lovlig og strukturert underveis i forskningsprosessen – og at de kan gjenbrukes og forstås i framtiden.

NSD – Norsk senter for forskningsdata arbeider for åpenhet i forskning, og for å gjøre data om mennesker og samfunn tilgjengelig for forskere og studenter. Vårt oppgraderte datahåndteringsverktøy er et ledd i dette arbeidet. Planen er interaktiv og kan deles med andre prosjektdeltakere. Verktøyet gir deg veiledning basert på hvilke data du skal samle inn og håndtere.

Her finner du datahåndteringsverktøyet: https://dmp.nsd.no/ Verktøyet er fritt tilgjengelig for alle forskere, innen alle fagfelt, på alle nivåer.