Flickr via Google Images

Standardipoikkeama on käsite, jota heitetään usein finanssialalla.

Mitä se sitten on?

Kun työskentelemme kvantitatiivisen datajoukon kanssa, yksi ensimmäisistä asioista, jotka haluamme tietää, on se, miltä joukon ”tyypillinen” elementti näyttää tai missä joukon keskikohta on.

Tehdäksemme tämän löydämme keskiarvon tai mediaanin tai jonkun muun siihen liittyvän keskiarvomittarin.

Mutta joukon keskikohdan tunteminen ei kerro meille kaikkea. Haluamme myös tietää enemmän aineistomme yleisestä muodosta.

Keskihajonta on mitta siitä, kuinka hajallaan aineisto on. Sitä käytetään valtavassa määrässä sovelluksia. Rahoituksessa hintadatan keskihajontaa käytetään usein volatiliteetin mittarina. Mielipidemittauksissa keskihajonnat ovat keskeinen osa virhemarginaalien laskemista.

Katsotaan ensin, mitä keskihajonta mittaa.

Tarkastellaan kahta pienyritystä, joilla kummallakin on neljä työntekijää. Toisessa yrityksessä kaksi työntekijää tienaa 19 dollaria tunnissa ja kaksi muuta 21 dollaria. Toisessa yrityksessä kaksi työntekijää tienaa 15 dollaria tunnissa, yksi 24 dollaria ja viimeinen 26 dollaria:

Business Insider/Andy Kiersz

Kummassakin yrityksessä keskipalkka on 20 dollaria tunnissa, mutta tuntipalkkojen jakauma on selvästi erilainen. Yrityksessä A kaikkien neljän työntekijän palkat ovat tiukasti tuon keskiarvon ympärillä, kun taas yrityksessä B kahden 15 dollaria ansaitsevan työntekijän ja kahden muun työntekijän välillä on suuri hajonta.

Keskihajonta on mitta, joka kertoo, kuinka kaukana yksittäiset mittaustulokset yleensä ovat aineiston keskiarvosta. Yrityksen A työntekijöiden keskihajonta on 1, kun taas yrityksen B palkkojen keskihajonta on noin 5. Yleisesti ottaen mitä suurempi on datajoukon keskihajonta, sitä enemmän yksittäiset pisteet ovat hajallaan kyseisessä joukossa.

Teknisesti se on monimutkaisempaa

Tekninen määritelmä keskihajonnalle on hieman monimutkainen. Ensin selvitetään jokaisesta data-arvosta, kuinka kaukana arvo on keskiarvosta ottamalla arvon ja keskiarvon erotus. Neliöi sitten kaikki nämä erot. Sitten otetaan näiden neliöityjen erojen keskiarvo. Lopuksi otetaan neliöjuuri tästä keskiarvosta.

Syy siihen, että käytämme näin monimutkaista prosessia keskihajonnan määrittelemiseksi, on se, että tämä mitta esiintyy parametrina useissa tilastollisissa ja todennäköisyyskaavoissa, erityisesti normaalijakaumassa.

Wikimedia Commons

Normaalijakauma on erittäin tärkeä työkalu tilastotieteessä. Normaalijakauman muoto on kellonmuotoinen käyrä, kuten kuvassa.

Tämä käyrä osoittaa karkeasti ottaen, kuinka todennäköistä on, että normaalijakaumaa noudattava satunnaisprosessi saa tietyn arvon vaaka-akselilla. Arvot lähellä huippua, jossa käyrä on korkeimmillaan, ovat todennäköisempiä kuin kauempana olevat arvot, joissa käyrä on lähempänä vaaka-akselia.

Normaalijakaumat esiintyvät tilanteissa, joissa tapahtuu suuri määrä toisistaan riippumattomia, mutta samankaltaisia satunnaisia tapahtumia. Asiat, kuten ihmisten pituudet tietyssä populaatiossa, noudattavat yleensä suunnilleen normaalijakaumaa.

Keskihajonnat ovat tässä tärkeitä, koska normaalikäyrän muoto määräytyy sen keskiarvon ja keskihajonnan perusteella. Keskiarvo kertoo, missä käyrän keskimmäisen, korkeimman osan pitäisi olla. Keskihajonta kertoo, kuinka kapea tai leveä käyrä on. Jos tiedät nämä kaksi lukua, tiedät kaiken, mitä sinun tarvitsee tietää käyrän muodosta.

Kääntämällä tämän ajatuksen toisinpäin, normaalijakaumat antavat meille myös hyvän tavan tulkita keskihajontoja. Missä tahansa normaalijakaumassa on kiinteät todennäköisyydet keskiarvon ympärillä oleville väleille, jotka perustuvat jakauman keskihajonnan kertalukuihin.

Erityisesti noin kaksi kolmasosaa normaalijakautuneen suureen mittauksista pitäisi sijoittua yhden keskihajonnan sisälle, 95 % mittauksista kahden keskihajonnan sisälle ja 99.7 % kolmen keskihajonnan sisällä keskiarvosta.

Tässä normaalikäyrän kuvituksessa on lueteltu nämä arvot:

Dan Kernler, via Wikimedia Commons

Oletetaan, että on olemassa standardoitu koe, jonka tekevät sadattuhannet oppilaat. Jos kokeen kysymykset on suunniteltu hyvin, oppilaiden pisteiden pitäisi olla suunnilleen normaalisti jakautuneita. Oletetaan, että kokeen keskiarvo on 100 pistettä ja keskihajonta 10 pistettä. Edellä mainittu sääntö tarkoittaa, että noin kahdella kolmasosalla opiskelijoista pitäisi olla pistemäärät 90-110 välillä, 95 prosentilla opiskelijoista pitäisi olla pistemäärät 80-120 välillä ja lähes kaikilla opiskelijoilla – 99,7 prosentilla – pitäisi olla pistemäärät kolmen keskihajonnan sisällä keskiarvosta.

Onko kysyttävää?

Mitä?

Vastaa

Sähköpostiosoitettasi ei julkaista.