Bruk og misbruk av statistikk

Man støter stadig på ordet statistikk. Dyadebloggen har brukt ordet mange ganger.

I samfunnsdebatten brukes og misbrukes det. Dyadebloggen omtalte tidligere hvordan NRK Dagsrevyen (mis-) brukte statistikk over et par måneder for å vise at veitrafikken var blitt tryggere. Samtidig viste vi hvordan man kunne bruke større statistisk materiale for å vise at det var en langsiktig trend at veitrafikken faktisk var blitt tryggere

Statistikk er ikke for amatører

Statistikk er et eget universitetsfag, men kan lett misbrukes som et argument i debatter, eller for å vise tendensiøse data i en graf. Særlig det siste er lett å misbruke. Grafer er mer oversiktlige, illustrerende og mindre krevende å forstå enn tabeller, men også lettere å misbruke.  A-Magasinet 7. februar hadde en lang og morsom artikkel om historier fra fastlegekontorer. (Krever abonnement). Der var det også laget en informasjonsside med overskriften: «Et stadig sykere folk», illustrert med flere grafer som skulle illustrere poenget. Bakgrunnsdataene er tilgjengelig her . Siden grafene muligens bare er tilgjengelig for abonnenter gjengir jeg en av dem her, slik den er vist i A-Magasinet.

Dette er andelen av befolkningen som går på uføretrygd slik A-magasinet fremstiller det:

Uføretrygd II
Andelen uføretrygdede i Norge i Aftenpostens graf
Uføretrygd I
Andel uføretrygdede i Norge – hele bildet

 

Det øverste bildet viser at det er en ganske tydelig økning i antall uføretrygdede. Det neste bildet er faktisk det samme, men har starter y-aksen på null. Og alle som sammenligner de to bildene vil si at de er forskjellige. Men forskjellen består i at på det nederste bildet er hele y-aksen med, men på det øverste er den trunkert (avkortet). Det er samme virkelighet de to bildene formidler, men hvis man ser overfladisk på dem kan det se forskjellig ut.

Dette er et eksempel på at man bør se på grafer med en viss skepsis, og se hva de egentlig viser. Men det er ikke uvanlig at grafer vises med avkortede akser, særlig hvis man bruker den for å få fram et poeng eller støte et argument. Så det kan være lurt å se (minst) to ganger på en grafisk fremstilling, og spørre seg selv om dette egentlig er troverdig. Nå skal det sies at Aftenposten allerede dagen etter hadde en notis om at grafikken var litt uheldig og at dette var rettet i e-avisen. Dette gjaldt en oversikt over antall konsultasjoner hos fastleger, hvor man hadde fremstilt en økning på 0,3% fra 2017 til 2018 som om den var kjempestor. Det kom også et debattinnlegg som kritiserte Aftenposten for misvisende bruk av grafikk. Aftenposten beklager på nettet at grafene viste feil bilde av utviklingen, og hevder at disse er nå rettet. Men den jeg har brukt som eksempel her er ikke rettet.

Statistikk er likevel nyttig

Men det finne også andre måter å bruke statistikk på. Så mens vi er i gang tar jeg et helt annet eksempel på statistisk behandling av et fenomen der det finnes rikelig med data.

Januarvarme

En gjentakende nyhet i mediene i slutten av januar var at det lå an til rekordvarme, i alle fall på Blindern. Og det ble det. Det har aldri før, i alle fall i nyere tid, vært varmere i januar på Blindern enn i 2020. Men hvor uvanlig var temperaturen? Jeg fant ut at jeg skulle undersøke hvor usannsynlig det var at jeg skulle få oppleve noe slikt. Nærmere bestemt, tenkte jeg at jeg skulle undersøke hvor sannsynlig det var at jeg skulle oppleve en slik januartemperatur i min levetid til nå. Derfor lastet jeg ned middeltemperaturene for januar på Blindern fra eKlima fra 1942, som var det første året jeg opplevde januar måned og til 2020. Grafisk framstilt ble resultatet som vist nedenfor:

Januartemperatur

Dette ser ganske forvirrende ut, og er ikke brukbart til noe som helst, bortsett fra at det viser at temperaturen har variert mye fra år til år, og at temperaturen i januar 2020 (2,7 grader) var marginalt høyere enn den nest høyeste temperaturen som er fra 1989 (2,4 grader). Så for å få dette litt mer ryddig kan vi sortere alle temperaturene fra lavest til høyest, og da kan det vises slik:

Kummulativ temperatur

Her trengs det en forklaring. Dette gir en oversikt over den prosentvise fordelingen av temperaturene i det aktuelle tidsrommet. Hvis du velger et punkt på den horisontale aksen, går opp til kurven, og så til venstre finner du den prosentdelen av temperaturene som var lavere enn den du valgte på den horisontale aksen. Velger du f.eks. -6 grader finner du at 20% av januartemperaturene siden 1942 var lavere  enn – 6 grader. Går du fra null og oppover finner du at 90% av temperaturene var under null. I 10% av januarmånedene var det altså varmegrader.  Men dette besvarer foreløpig ikke det spørsmålet jeg startet med: «hva er sannsynligheten for at jeg skulle oppleve en januartemperatur så høy som årets?»

Heldigvis er det noen flinke matematikere som har arbeidet med dette i nesten 300 år. Det viser seg at data av denne typen ofte følger en statistisk fordeling som er kjent som normalfordeling. Dette er en matematisk funksjon som gjør at den statistiske fordelingen av en variabel kan beskrives med to parametere, gjennomsnittsverdi og standardavvik, som er et mål for variasjonen. Hvis man har en masse tall som viser seg å følge en slik fordeling, kan man beskrive datasettet med to parametere. Legger vi inn denne i grafen, ser vi at i dette tilfellet kan temperaturen beskrives svært nøyaktig med normalfordelingsfunksjonen.

Normalfordeling
Kummulativ fordeling av januartemperaturer sammen med den tilsvarende normalfordelingen

Normalfordelingskurven er implementert i Excel slik at den lett kan beregnes. Og da finner jeg at sannsynligheten for at gjennomsnittstemperaturen på Blindern i januar skulle være minst 2,7 grader er 1,6%. Altså en ganske liten sannsynlighet. Men hva betyr dette egentlig for det spørsmålet jeg ville finne svar på, «Hvor sannsynlig er det at jeg i løpet de 79 gangene jeg har gjennomlevd en januarmåned minst én gang skulle oppleve dette?» Her er det enklere å stille det motsatte spørsmålet. Hvor sannsynlig er det at januartemperaturen ikke skulle overstige 2,7 grader i løpet av disse 79 årene. Det kan beregnes på følgende måte:

Sannsynligheten for at temperaturen et år ikke skulle overstige 2,7 grader er 100%-1,6% = 98,4% = 0,984. Sannsynligheten for at temperaturen IKKE skulle overstige dette i løpet av 79 år 0,984 opphøyd i 79-ende potens (multiplisert med seg selv 79 ganger). Det er 0,280, eller 28%. Sannsynligheten for at temperaturen skulle bli så høy minst ett år i løpet av 79 år er da 100%-28%=72%. Hvis jeg hadde vært jurist ville jeg sagt at det er overveiende sannsynlig at jeg ville oppleve denne temperaturen i løpet av min levetid (til nå). For jurister betyr «overveiende sannsynlig» mer enn 50% sannsynlig.

Å spå om fremtiden

Det er som kjent vanskelig å spå – især om fremtiden. Det kan derfor være fristende å bruke slik statistikk til å forutsi fremtiden. Brukt på den måten finner man at sannsynligheten for tilsvarende høy januartemperatur i løpet av de neste ti årene er 15%. Det er ikke en overveiende sannsynlighet, men det utelukker ikke at vi kan oppleve enda høyere januartemperaturer de neste årene. Men med de pågående globale klimaforandringene bør man være tilbakeholden med å spå være lang tid framover.

Hvis du er interessert i å lese mer om sannsynligheter, usikkerheter og risikovurderinger kan du finne en nedlastbar rapport her.

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut /  Endre )

Google-bilde

Du kommenterer med bruk av din Google konto. Logg ut /  Endre )

Twitter-bilde

Du kommenterer med bruk av din Twitter konto. Logg ut /  Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut /  Endre )

Kobler til %s