Manglende statistikkunnskaper gir dårlig forskning

Dette er en utvidet versjon av debatt-innlegget "Norske forskere er for dårlige på statistikk" i Aftenposten 05.03.15.

Forskning viser at det er foruroligende dårlig bruk av statistikk i vitenskapelige arbeider, og som en konsekvens settes det nå spørsmålstegn ved sannhetsgehalten i en betydelig andel av publiserte studier. Ting tyder på at statistikkunnskapene også blant norske forskere er for dårlige. Hva kan vi som forskere gjøre for å forsikre oss om at det vi formidler faktisk er korrekt?

 

Statistikk på avveie

Professor John Ioannidis ved Stanford University skapte furore i 2005 da han publiserte en artikkel som proklamerte at brorparten av medisinske forskningsresultater er feil. Et av hovedproblemene er at vitenskapen i for stor grad lener seg på statistisk hypotesetesting og p-verdier mente Ioannidis, og fikk støtte fra også andre vitenskapsfolk. Med tiden har dette problemet blitt stadig tydeligere, blant annet gjennom studier som viser at kun en brøkdel av forskningsfunn kan replikeres. Da forskere ved det amerikanske legemiddelfirmaet Amgen for få år siden forsøkte å replikere 53 publiserte studier de mente var landemerker innen basal kreftforskning og hematologi lyktes de i kun 6 av tilfellene. Og kun måneder tidligere hadde forskere fra Bayer, en annen legemiddelgigant, kun klart å replikere en fjerdedel av 67 studier innen legemiddelutvikling. Dette reflekterer et generelt problem - det er feil i en mye større andel av publiserte arbeider enn man tidligere har vært klar over. Dette rokker ved et av vitenskapens viktigste fundamenter, nemlig at forskningsfunn skal være etterprøvbare. En betydelig årsak til dette er manglende forståelse for- og feil bruk av statistikk.

For et tiår siden tok to spanske forskere for seg et tilfeldig utvalg artikler fra Nature og British Medical Journal (BMJ), to prestisjetunge vitenskapelige tidsskrifter, og fant at henholdsvis 38% og 25% inneholdt én eller flere statistiske feil. Og kanskje enda viktigere, flere av p-verdiene var feilkalkulert. Som en konsekvens mente de at noen av artiklene hadde trukket regelrett gale konklusjoner fra resultatene sine. Det er ille. Og dette gjelder selvsagt ikke bare medisinsk forskning utenfor våre landegrenser. Et eksempel fra kjønnsforskningen i Norge er diskutert i et interessant innlegg av Professor Christer Thrane i Aftenposten for en måned siden. Man bør kunne forvente at forskere har et minimumsnivå av statistikkunnskaper for å begrense slike uheldige feil. Sannheten er at det er store huller i selv basiskunnskapene.

En uhøytidelig survey av statistikkunnskapene blant de ansatte ved UiOs fakulteter utført av USIT (Universitetets senter for informasjonsteknologi) i 2005 viste at over halvparten av de spurte kun mestret enklere statistikk eller mindre. Ikke engang nok til å dekke egne statistikkbehov. Dette gir en pekepinn på hvor nivået ligger. Og enda verre; etter å ha gjennomgått kursprogrammene ved de største norske universitetene er det tydelig at det er påfallende lite obligatorisk statistikkundervisning ved Ph.D.-utdanningene. Et fåtall av fakultetene har grunnleggende statistikk som en del av sine basiskurs, men noen timers undervisning er langt fra nok til å virkelig sette seg inn i statistiske metoder og forstå hvordan man skal unngå fallgruvene når man analyserer dataene sine. Så lenge man evner å plotte inn noen tall i et statistikkprogram og trykke enter er man kvalifisert.

 

Stor ståhei for liten p-verdi

Statistikk er en matematisk gren som, hvis anvendt riktig, er nyttig for å anslå validiteten av forskningsresultater. Ulike statistiske tester kan benyttes for å bearbeide data. Felles for disse er at tall mates inn, regnes på, og ut i andre enden kommer en såkalt p-verdi. En p-verdi sier noe om sannsynligheten for at en observasjon, for eksempel forekomsten av meslinger i en populasjon, er avhengig av en gitt faktor slik som vaksinasjonsraten, eller om det er tilfeldig. Hvis p er mindre enn 0.05 – en tilfeldig valgt grenseverdi i seg selv – er det mindre enn 5% sjanse for at observasjonen (tilfeller av meslinger) skulle inntruffet dersom det ikke finnes noen reell effekt (av vaksinasjonsraten), og resultatet anses som "statistisk signifikant". På bakgrunn av dette vil man altså anta at det sannsynligvis er en sammenheng mellom vaksinasjonsrate og forekomst av meslinger. Dette utelukker på ingen måte at observasjonen faktisk er tilfeldig. Av 100 tenkte studier vil 5 av dem, med en grenseverdi for p på 0.05, gi et statistisk signifikant resultat selvom det egentlig ikke er sant. Såkalte falske positive. Og motsatt; hvis en test viser en ikke-signifikant effekt betyr ikke det at det ikke finnes en. Det kan for eksempel tenkes at populasjonsutvalget var for lite til å oppdage en liten men signifikant effekt, eller at den statistiske testen som ble benyttet ikke var den mest egnede. Dette kalles falske negative.

Dessverre er feil bruk av statistiske tester og mistolking av p-verdier et relativt utbredt problem. Og kjernen er manglende forståelse for testenes formål og begrensninger; hvilke forutsetninger som kreves for de ulike statistiske testene, hva som faktisk måles, og hvordan en p-verdi skal tolkes. For eksempel er en vanlig misoppfattelse at en p-verdi på 0.05 betyr at det er 95% sjanse for at hypotesen (altså at en observasjon er avhengig av en gitt faktor) er sann. Resultatet er at altfor kjappe slutninger trekkes og at tiltroen til hypotesen blir overdrevent høy.

 

Variabilitet er viktig

En annen kilde til forvirring er hvordan variabilitet i data både skal håndteres og fremstilles. Eksperimentelle data har naturlig variabilitet, uansett om man måler kroppstemperatur hos pasienter, pH-verdi i kjemiske løsninger eller karakternivå hos elever i skolen. Selv om gjennomsnittsverdiene for to sammenligningsgrupper kan være veldig ulike, vil stor variabilitet i dataene gjøre det mindre sannsynlig at det finnes en reell forskjell.

Variabilitet uttrykkes visuelt gjennom såkalte error bars i grafer. Men hva disse representerer er ikke alltid entydig; standardavvik (standard deviation, SD) som reflekterer variasjonen i målingene, standardfeil (standard error of the mean, SE eller SEM) som sier noe om hvor nært gjennomsnittet av målingene forventes å ligge det sanne populasjonsgjennomsnittet, eller konfidensintervall (confidence interval, CI) som definerer et grenseområde innenfor hvilket den reelle populasjonsverdien sannsynligvis ligger. Spesielt SD og SE brukes inkonsekvent og forbyttes ofte i rapporteringen av resultater.

Normalisering av data (for eksempel at man regner om tallene slik at kontrollgruppen får verdien 100%, og testgruppene uttrykkes relativt til denne) er en enkel måte å presentere resultater oversiktlig og forståelig for leseren. Men her må man holde tunga rett i munnen. Et gjengangerproblem er at verdiene fra kontrollgruppen mister sin variabilitet, siden de alltid settes likt. Ikke bare forsvinner da error bars fullstendig fra denne gruppen i grafen, men hypotesetesting basert på slike normaliserte data vil gi en annen p-verdi enn for unormaliserte data. Dette er fordi de fleste slike tester forutsetter at sammenligningsgruppene har lik varians (og ofte at de er normalfordelte), noe som da ikke lenger er tilfelle. En enkel måte å omgå dette på er å normalisere ved å dele alle observasjonsverdier i et forsøk på gjennomsnittsverdien av kontrollgruppen. Vips så er problemet løst!

 

Korrelasjon er ikke det samme som kausalitet

Mennesker som drikker vann dør. Betyr det at drikkevann er en ledende dødsårsak? Nei, selvfølgelig ikke. Korrelasjon betyr ikke nødvendigvis kausalitet. Og slike feilslutninger dukker opp rett som det er i forskningsartikler. For eksempel konkluderte forfatterene av en Nature-artikkel fra 1999 at kunstig belysning om natten i barndommen kunne forårsake nærsynthet, basert på korrelasjon mellom disse variablene. Dette ble derimot forkastet noen år senere da det ble funnet at foreldrene til mange av studiedeltagerene også var nærsynte, og at det derfor var snakk om arvelighet fremfor miljømessig påvirkning.

Og mens vi er inne på temaet må vi selvsagt tilbake til vaksineproblematikken. I 1998 ble den beryktede artikkelen til Andrew Wakefield som koblet MMR-vaksinen til autisme utgitt. Men selvom dette senere har blitt ettertrykkelig tilbakevist er det fremdeles betydelig skepsis blant enkelte foreldre. Sannheten er at symptomer på autisme ofte blir tydelige først rundt samme alder som vaksinen blir gitt, derav korrelasjonen. Konsekvensene av slike feilslutninger ser vi nå.

 

Utfordringer i hopetall

Problemene strekker seg selvsagt langt utover de grunnleggende statistikktemaene jeg har berørt her. Annet hodebry inkluderer confirmation bias (en forventning om hvorvidt en hypotese er sann kan påvirke både studiedesign, datamaterialet og dets tolkning), publikasjonsskjevhet (det er stort sett studier med positive funn som publiseres, noe som spesielt påvirker meta-analyser hvor data fra mange enkeltstudier slås sammen), og manglende forståelse for at det ligger i statistikkens natur at enkelte funn vil være usanne - statisk sett. Metoder for å begrense slike falske positive, slik som False Discovery Rate (FDR), økt statistisk power og bruk av hypotesetester for multiple sammenligninger bør i større grad på dagsordenen. Men et skarve blogginnlegg kan dessverre ikke ta for seg alt, og spesielt ikke i den dybden det fortjener.

 

Veien videre

Heldigvis har tidsskriftene (i allefall de beste) blitt bedre på å kvalitetssikre data – lange skjemaer skal fylles ut og statistiske metoder skal dokumenteres. Og i prinsippet skal systemet med fagfellevurdering av vitenskapelig arbeid fange opp både statistiske og andre feil før det kommer på trykk. Dessverre er ikke virkeligheten så enkel. Studier viser at til og med grove feil slipper gjennom nettet. Å klandre fagfellene (som forventes å bruke en betydelig andel av tiden sin på slike aktiviteter, ubetalt) for slett arbeid blir for enkelt. Vi har et ansvar som forskere å gjøre vårt beste for å kvalitetssikre vår egen forskning!

Det er i prinsippet to umiddelbare løsninger for å forbedre situasjonen. Den ene er å innføre nettopp utvidet obligatorisk statistikkundervisning for Ph.D.-studenter uavhengig av fakultetstilhørighet. Den andre er å i større grad involvere statistikere i analysearbeidet.

Det er uansett ikke dumt å gjøre noen generelle overveielser før man setter i gang med et forsøk eller dataanalyse:

  • Hva er formålet med studien?
  • Hvilken metode skal brukes?
  • Hvor mange målinger/verdier trenger vi for å få et svar vi kan generalisere fra (statistical power)?
  • Hvilken statistisk test er passende?
  • Hvordan skal dataene normaliseres?
  • Hvordan skal dataene fremstilles grafisk for å best formidle budskapet samtidig som det ivaretar den statistiske integriteten?

 

"Big data" – stort ansvar

Vi lever i en tid hvor enorme mengder data genereres kontinuerlig, og dette vil kun akselerere i fremtiden. Økt fokus på statistisk analyse er således en essensiell investering for å sikre at dette analyseres og kommuniseres riktig!

 

Powered by Labrador CMS