Kvartiili

joulu 1, 2021

Tilastotieteessä ja tilastollisessa analyysissä on olemassa menetelmiä, joiden avulla voidaan tarkastaa poikkeamat. Poikkeamat voivat olla seurausta kiinnostuksen kohteena olevan prosessin sijainnin (keskiarvo) tai mittakaavan (vaihtelu) muutoksesta. Poikkeamat voivat myös olla osoitus otospopulaatiosta, jonka jakauma ei ole normaali, tai saastuneesta populaatiotietoaineistosta. Kuvailevan tilastotieteen perusajatuksena on siis, että kun havaitsemme poikkeaman, meidän on selitettävä tämä arvo analysoimalla tarkemmin poikkeaman syytä tai alkuperää. Äärimmäisissä havainnoissa, jotka eivät ole harvinaisia, on analysoitava tyypilliset arvot. Kvartiilien tapauksessa voidaan käyttää kvartiilien välistä vaihteluväliä (Interquartile Range, IQR) tietojen luonnehtimiseen silloin, kun tiedoissa voi olla vinouksia aiheuttavia ääriarvoja; kvartiilien välinen vaihteluväli on suhteellisen vankka tilasto (jota kutsutaan joskus myös ”kestävyydeksi”) verrattuna vaihteluväliin ja keskihajontaan. On olemassa myös matemaattinen menetelmä, jolla voidaan tarkistaa poikkeavuudet ja määrittää ”aidat”, ylä- ja alarajat, joista poikkeavuudet tarkistetaan.

Kun ensimmäinen ja kolmas kvartiili ja interkvartiiliväli on määritetty edellä esitetyllä tavalla, lasketaan aidat seuraavalla kaavalla:

Alempi aita = Q 1 – 1.5 ( I Q R ) {\displaystyle {\text{Lower fence}}=Q_{1}-1.5(\mathrm {IQR} )\,}

Upper fence = Q 3 + 1.5 ( I Q R ) , {\displaystyle {\text{Upper fence}}=Q_{3}+1.5(\mathrm {IQR} ),\,}

Boxplot Diagram with Outliers

joissa Q1 ja Q3 ovat ensimmäinen ja kolmas kvartiili. Alempi aita on datan ”alaraja” ja ylempi aita on datan ”yläraja”, ja mitä tahansa näiden määriteltyjen rajojen ulkopuolella olevaa dataa voidaan pitää outlierina. Kaikki, mikä on alemman aidan alapuolella tai ylemmän aidan yläpuolella, voidaan katsoa tällaiseksi tapaukseksi. Aidat tarjoavat ohjeen, jonka avulla voidaan määritellä poikkeama, joka voidaan määritellä myös muilla tavoin. Aidat määrittelevät ”vaihteluvälin”, jonka ulkopuolella poikkeama on olemassa; tapa kuvitella tämä on aidan raja, jonka ulkopuolella ovat ”ulkopuoliset” toisin kuin poikkeamat. On tavallista, että alempi ja ylempi aita sekä outlierit esitetään boxplotilla. Boxplotissa vain pystysuorat korkeudet vastaavat visualisoitua tietokokonaisuutta, kun taas laatikon vaakasuoralla leveydellä ei ole merkitystä. Boxplotissa aidan ulkopuolella olevat poikkeamat voidaan merkitä millä tahansa symbolivalinnalla, kuten ”x” tai ”o”. Aidoista käytetään joskus myös nimitystä ”whiskers”, kun taas koko graafista visualisointia kutsutaan ”box-and-whisker”-plotiksi.

Kun havaitsee poikkeaman aineistossa laskemalla kvartiilien väliset vaihteluvälit ja boxplot-ominaisuudet, voi olla yksinkertaista pitää sitä virheellisesti todisteena siitä, että populaatio ei ole normaalista poikkeava tai että otos on kontaminoitunut. Tämän menetelmän ei kuitenkaan pitäisi korvata hypoteesitestiä perusjoukon normaalisuuden määrittämiseksi. Poikkeamien merkitys vaihtelee otoskoon mukaan. Jos otos on pieni, on todennäköisempää, että kvartiilien väliset vaihteluvälit ovat epärepresentatiivisen pieniä, mikä johtaa kapeampiin aitoihin. Siksi olisi todennäköisempää löytää tietoja, jotka on merkitty poikkeaviksi.

Vastaa

Sähköpostiosoitettasi ei julkaista.