Standardavvikelse är ett begrepp som ofta används inom ekonomi.
Så vad är det?
När vi arbetar med en kvantitativ datamängd är en av de första sakerna vi vill veta hur det ”typiska” elementet i mängden ser ut, eller var mitten av mängden är.
Vi gör detta genom att hitta ett medelvärde eller en median, eller något annat relaterat mått på genomsnittet.
Men att känna till mitten av mängden säger oss inte allt. Vi vill också veta mer om den övergripande formen på våra data.
Standardavvikelsen är ett mått på hur utspridd en datamängd är. Det används i ett stort antal tillämpningar. Inom finansbranschen används ofta standardavvikelser för prisuppgifter som ett mått på volatilitet. I opinionsundersökningar är standardavvikelser en viktig del av beräkningen av felmarginaler.
Först ska vi titta på vad en standardavvikelse mäter.
Tänk på två små företag med fyra anställda vardera. I det ena företaget tjänar två anställda 19 dollar i timmen och de andra två tjänar 21 dollar. I det andra företaget tjänar två anställda 15 dollar i timmen, en tjänar 24 dollar och den sista tjänar 26 dollar:
I båda företagen är genomsnittslönen 20 dollar i timmen, men fördelningen av timlönerna är tydligt olika. På företag A är alla fyra anställdas löner tätt samlade kring detta genomsnitt, medan det på företag B finns en stor spridning mellan de två anställda som tjänar 15 dollar och de andra två anställda.
Standardavvikelsen är ett mått på hur långt ifrån enskilda mätningar tenderar att ligga från medelvärdet i en datamängd. Standardavvikelsen för företag A:s anställda är 1, medan standardavvikelsen för företag B:s löner är ungefär 5. I allmänhet gäller att ju större standardavvikelsen för en datamängd är, desto mer utspridda är de enskilda punkterna i den datamängden.
Tekniskt sett är det mer komplicerat
Den tekniska definitionen av standardavvikelse är något komplicerad. Först ska du för varje datavärde ta reda på hur långt värdet är från medelvärdet genom att ta skillnaden mellan värdet och medelvärdet. Därefter kvadrerar du alla dessa skillnader. Ta sedan medelvärdet av dessa kvadrerade skillnader. Slutligen tar du kvadratroten av detta medelvärde.
Anledningen till att vi går igenom en så komplicerad process för att definiera standardavvikelsen är att detta mått förekommer som en parameter i ett antal statistiska och probabilistiska formler, framför allt normalfördelningen.
Normalfördelningen är ett oerhört viktigt verktyg inom statistiken. Formen på en normalfördelning är en klockformad kurva, som den på bilden.
Denna kurva visar, grovt sett, hur sannolikt det är att en slumpmässig process som följer en normalfördelning kommer att anta ett visst värde längs den horisontella axeln. Värden nära toppen, där kurvan är högst, är mer sannolika än värden längre bort, där kurvan ligger närmare den horisontella axeln.
Normalfördelningar förekommer i situationer där ett stort antal oberoende men likartade slumpmässiga händelser inträffar. Saker som höjder hos människor i en viss population tenderar att i stort sett följa en normalfördelning.
Standardavvikelser är viktiga här eftersom formen på en normalkurva bestäms av dess medelvärde och standardavvikelse. Medelvärdet talar om var den mellersta, högsta delen av kurvan ska ligga. Standardavvikelsen talar om hur smal eller bred kurvan kommer att vara. Om du känner till dessa två tal vet du allt du behöver veta om formen på din kurva.
Vid omvänd tanke ger normalfördelningar oss också ett bra sätt att tolka standardavvikelser. I varje normalfördelning finns det fasta sannolikheter för intervall kring medelvärdet, baserade på multiplar av fördelningens standardavvikelse.
I synnerhet bör ungefär två tredjedelar av mätningarna av en normalfördelad storhet falla inom en standardavvikelse från medelvärdet, 95 % av mätningarna inom två standardavvikelser från medelvärdet, och 99.7% inom tre standardavvikelser från medelvärdet.
Denna illustration av normalkurvan listar dessa värden:
Anta att det finns ett standardiserat prov som hundratusentals elever gör. Om testets frågor är väl utformade bör elevernas resultat vara ungefärligt normalfördelade. Säg att medelpoängen på provet är 100, med en standardavvikelse på 10 poäng. Regeln som nämns ovan innebär att ungefär två tredjedelar av eleverna bör ha poäng mellan 90 och 110, 95 % av eleverna bör ligga mellan 80 och 120, och nästan alla elever – 99,7 % – bör ha poäng inom tre standardavvikelser från medelvärdet.
Några frågor?