Statistikk, trafikkulykker og samfunnsrisiko

I Dagsrevyen onsdag 31. juli var det en gladnyhet. I år har bare 14 mennesker mistet livet i trafikken i Norge i juni og juli, mens i 2016 var det 37 trafikkdrepte. Dette ser jo strålende ut, slik grafen nedenfor viser.

NRK1
Skjermdump fra Dagsrevyen 31. juli 2019

Men betyr dette egentlig at veitrafikken er blitt tryggere, slik veidirektøren ga uttrykk for i Dagsrevyen? Bør man ikke være litt forsiktig med å trekke bastante konklusjoner fra enkelte data. Og NRK sier også at når 54 hittil i år har mistet livet i trafikken kan det bety færre enn 100 drepte i år.

NRK2
Skjermdump fra Dagsrevyen 31. juli 2019

Statistikk er vanskelig

Ingen av utsagnene ovenfor er direkte feil. Men når konklusjonen på grunnlag av tallene for to måneder er at man kan komme ned på under hundre drepte i år blir jeg litt i tvil. Hva hvis man hadde sett på to andre måneder? Statens vegvesen har statistikk over antall trafikkdrepte pr. måned.  Jeg hentet oversikten over disse fra 2014 til juli 2019, og laget en tilsvarende sammenstilling over antall drepte i april og mai. Da fikk jeg følgende graf.

Trafikk2
Trafikkdrepte i Norge i april-mai og juni-juli 2019

Ved å se på tallene for april og mai for de siste seks årene blir bildet et helt annet. Da ville Dagsrevyen, når mai-tallene var klare, ha trukket den konklusjonen at nå har trafikkdøden økt. Man ville sagt: «I år ble 23 personer drept i trafikken i april og mai, mot bare 17 for ett og to år siden, 16 i 2016 og bare 15 i 2015.» Da ville man eventuelt kontaktet Veidirektøren og bedt om kommentarer til at trafikkdøden øker.

Dette illustrerer et vanlig problem når personer med liten forståelse av statistiske data prøver å trekke konklusjoner av utilstrekkelige data. De forstår ikke at slike variasjoner fra dag til dag, eller måned til måned eller år til år er beheftet med tilfeldigheter. Man må ha tilstrekkelig mange datapunkter for å trekke konklusjoner, og fortsatt er det usikkerheter. Men usikkerhetene reduseres jo flere punkter man har. Det er ikke uvanlig at ufullstendig og manglende statistiske data brukes i offentlige diskusjoner, og det er ikke alltid at man forstår at empiriske data er beheftet med usikkerheter. Dette er f.eks. et vanlig problem i debatt med klimafornektere, som gjerne finner fram til enkeltmålinger fra flere år tilbake hvor det ble målt globale temperaturer som var like høye eller høyere enn dagens. De bruker så dette som et argument for at global oppvarming har stoppet opp, eller til og med blitt reversert.

Derfor er rådet at hvis du kommer i diskusjon med noen som argumenterer med at «det er statistisk bevist at…», så bør du i alle fall spørre etter datagrunnlaget.

Sannsynligheter betegner usikkerheter

Når det gjelder hendelser som skjer tilfeldig, men med en viss lovmessighet, slik som trafikkulykker, er det mulig å si noe om sannsynligheten for et visst antall. De siste fem årene har det i gjennomsnitt vært 11, 7 dødsfall i trafikken i måneden i juni og juli. Det høyeste tallet var 22 og det laveste tallet var 4.  Men det har variert mye fra år til år.

For denne typen hendelser, som skjer tilfeldig og uavhengig av hverandre, utviklet den franske matematikeren Siméon Denis Poisson (1781-1840) et uttrykk for sannsynligheten for at et visst antall hendelser skulle skje i et visst tidsrom, når man visste det gjennomsnittlige antallet. Denne formelen har gyldighet også i dag, og ved å bruke den på antall dødsfall i måneden når gjennomsnittet er 11,7 får vi at vi kan forvente at tallet for en fremtidig måling vil ligge mellom 5 og 18. Mindre variasjoner enn dette er innenfor det normale, og gir ikke grunnlag for å trekke konklusjoner på grunnlag av enkelte tall.

Påliteligheten øker med datamengden

Dette innlegget startet med trafikk, så det passer også å slutte med et eksempel på hvordan man kan bruke trafikkdata til pålitelige vurderinger. Diagrammet nedenfor viser data fra SSB over dødsfall i trafikken de siste 20 årene.

Årlig antall døde
Antall dødsfall i trafikkulykker siste 20 år

Som man ser, er det en ganske jevn nedgang, og det er lagt inn en trendlinje, som er en rett linje som minimaliserer avstanden til de enkelte datapunktene. Stigningen på denne linjen er -11,6 dødsfall/år. Dette gir et rimelig estimat for utviklingen basert på et tilstrekkelig antall data. Og en nærmere undersøkelse viser at det er 99% sannsynlig at det «riktige» tallet er mellom -13 og -10. Skulle denne trenden fortsette, kan det være riktig å tro at vi kommer ned i null trafikkdrepte om ti år. Men det er nok litt optimistisk. Det går ikke an å eliminere all risiko og samtidig leve et liv som er verdt å leve.

Men plukker vi data fra noen få av de 20 årene, kan vi finne noe helt annet. Ser vi på dataene fra 2005 til 2008 finner vi tilsynelatende en økning på 8,4 dødsfall/år. Men en nærmere undersøkelse viser at det er 95% sannsynlighet for at det «riktige» tallet er mellom en økning på 26 pr. år, og en reduksjon på 9,5 pr. år. Med andre ord – det går ikke an å trekke noen konklusjoner fra en så begrenset datamengde. Men det kan sikkert være noen som gjør det.

Mer om statistikk og samfunnsrisiko

Hvis det er noen som skulle være interessert i lese mer om sannsynlighet brukt i forbindelse med samfunnsrisiko kan dere gå hit. Der finnes en rapport som kan lastes ned i PDF-format.

 

 

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut /  Endre )

Google-bilde

Du kommenterer med bruk av din Google konto. Logg ut /  Endre )

Twitter-bilde

Du kommenterer med bruk av din Twitter konto. Logg ut /  Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut /  Endre )

Kobler til %s