Hoppa till innehåll →

Lögn, förbannad lögn och statistik

Bilden ovan visar antalet förluster för varje SHL-lag under perioden 6/12 – 26/12. Statistiken talar sitt tydliga språk; Oskarshamn har stora problem medan Brynäs är oerhört formstarka och har alltså inte förlorat en match under den här perioden. Eller hur?

Exemplet är medvetet fånigt för att illustrera hur lätt det är att förleda den oinsatte med statistik. För om du inte har någon koll på Svenska Hockeyligan så är det precis så du skulle tolka diagrammet. Det är bara den lilla detaljen att senast Brynäs spelade en hockeymatch var den 5/12. Alla lagets matcher därefter har ställts in på grund av Covid-19.

Statistiken ljuger inte. Det jag har satt ihop i diagrammet är objektivt korrekt. Ändå ger det en skev bild av verkligheten. Detta kombinerat med att statistik kan kokas ner till lättbegripliga diagram (en bild säger mer än tusen ord, ni vet) gör att statistik är förrädiskt och bör hanteras med försiktighet. Att kvantifiera och ta fram data är oerhört värdefulla metoder för att kunna trenda, utvärdera och analysera. Men bakom varje färglad visuell representation av datat finns (förhoppningsvis) en stor mängd kompetent utvärdering av informationen. Det är när statistiken frikopplas från den bakomliggande kompetensen som den blir farlig, och med all världens information tillgänglig kan vem som helst med tillgång till Google och rött bälte i Excel sammanställa och presentera i stort sett vad som helst. Exhibit A.

Eftersom hela poängen med diagram är att visualisera och redovisa komplexa samband för andra är de idiotvänliga. Vem som helst kan förstå vad ett diagram visar. Därför kan man också vilken dag som helst i veckan logga in på Twitter eller Facebook och se folk slå varandra i huvudet med diagram som de anser bevisar deras egen ståndpunkt. Men hur många av diagramviftarna har satt sig in i hur statistiken har tagits fram, hur man har mätt, hur man har verifierat eller uteslutit vissa faktorer? Och ju mer komplexa samband desto större är också risken att resultat blir olika beroende på hur man mäter. Vissa saker, som hockey, är förhållandevis enkelt att mäta. Åtminstone så länge man räknar vinster och förluster, eller enskilda spelares produktion i form av mål och assist. Men även där blir det snart mer komplext. Det finns en uppsjö av statistiska underlag som brukar kallas för ”advanced stats” som försöker mäta enskilda spelares bidrag till lagets framgång utöver mer än bara mål och assist. Trots allt är det en lagsport och spelare gör andra saker som att till exempel förhindra att motståndarna gör mål, eller skapar tillfällen för det egna laget. Jag ska inte gå in djupare på det utan kan bara konstatera att det är underhållande att se glada amatörer kasta siffror och diagram på varandra på hockeyforumen. Glöm inte popcornen.

Förstå då hur komplext det blir när man försöker kvantifiera information om grupper av människor, utifrån kön, ålder, sexuell läggning, religiös åskådning, ursprungsland, etcetera. Nog för att ett hockeylag också är en grupp människor, men det klassas inte som en folkgrupp. Och tur är väl det, för annars finns det data på att på Brynäs är en synnerligen underlägsen folkgrupp, om än med en vacker folkdräkt.

Att kvantifiera enligt ovanstående är en oerhört svår balansgång mellan att å ena sidan sammanställa information på makronivå (gruppen) och samtidigt ta hänsyn till det som sker på mikronivå (individen). Jag har stor tilltro till att de seriösa forskare och statistiker som ägnar sig åt sådant också är fullt medvetna om problematiken och är försiktiga med att dra slutsatser. Men det är här problemet med frikoppling från bakgrund blir ett problem, för när den sortens data hamnar i händerna på amatörer så tappar man bort komplexiteten. Då får man statistik som bevisar att människor från land A har högre IQ än människor från land B, men utan bakgrundskunskap som att människor från land B i hög utsträckningar har lidit av undernäring som barn vilket hämmat hjärnans utveckling samt att dessa ägnar så mycket tid åt att försöka överleva från dag till dag att de helt enkelt inte har tid, energi eller pengar kvar åt saker som tränar hjärnan. Förutsatt att något sådant ens finns att köpa alltså.

Sådana diagram blir vapen i händerna på radikala grupper, men även på nyttiga idioter. De kan användas medvetet illvilligt, men kanske ännu oftare felanvänds de av ren okunskap. I båda fallen blir resultatet att människor övertygas om något som kanske inte är sant, vilket bidrar till att felslut blir ”fakta” som i värsta fall blir beslutslunderlag.

Ett annat problem med den sortens statistik är just att det tar bort individen ur ekvationen. När statistiken väl sammanställs och presenteras i glada färger tappar vi bort att varje stapel består av en massa människor som klumpats ihop tämligen godtyckligt. När man till exempel rapporterar valresultat och redovisar hur röster fördelas enligt kön eller åldersgrupper är det lätt att glömma att det inom dessa grupper finns enorma skillnader. Kvinna, 25-34, ensamstående med tre barn i Åmål och deltidsarbetande inom vården har föga gemensamt med Kvinna, 25-34, gift och barnlös på Lidingö och vd för ett företag med drygt hundra anställda. Annat än att de båda är kvinnor mellan 25 och 34 år. Men det kanske inte är just ålder och kön som är avgörande för hur dessa två röstade.

Vilket leder vidare till en annan problematik att ta upp: Avgränsning. Förändras staplarna om man korrigerar åldersindelningen? Är det mer relevant att dela in efter inkomst, och i så fall; hur ska man dra gränserna där? Var stoppar man i så fall Kvinna 25:34:s äkta make som inte har någon inkomst på pappret utan ägnar sin tid åt att försöka skriva en bok om gräshoppor? Detta är problematiskt, förutsatt att man är intellektuellt hederlig.

För den som inte har sådan skrupler är avgränsningen mer en möjlighet än ett hinder. Genom att kreativt utesluta de datapunkter som inte passar in i den slutsats man vill nå kan man effektivt och övertygande bevisa lite vad som helst. Det finns en anledning till att jag valde att använda statistik från perioden 6/12 – 26/12 i mitt exempel, och den anledningen är att jag då slipper ta med Brynäs förlust från den 5/12 och skyndar mig att få ut det här innan nästa förmodade förlust den 28/12 eftersom dessa datapunkter skulle kvadda mitt diagram och därmed min poäng.

Nu är ju hela poängen förvisso att pedagogiskt visa på hur statistisk och diagram kan feltolkas och missbrukas, men min poäng kunde ju lika gärna ha varit att Brynäs är bäst, ingen protest, och om digrammet frigörs från såväl den här utläggningen som kunskap om ishockey är det inte längre möjligt att avgöra vad som är vad.

Eller så kan vi ta en titt på den här lilla filmen. När man tar ut data om hur folk kör ur olycksstatistiken finns föraren av den vita bilen inte med. Hen är en säker förare, medan de båda lastbilschaufförerna, statistiskt sett, är ena jävla klåpare…


Andra bloggar om: statistik

Publicerat i Politik Samhälle Sport

%d bloggare gillar detta: