Muuttujan normaalijakauman testaamiseen on olemassa monia menetelmiä. Tässä artikkelissa selvitetään, mitä niistä kannattaa käyttää!
1.1. Johdanto
Ensimmäinen menetelmä, jonka lähes kaikki tuntevat, on histogrammi. Histogrammi on datan visualisointi, joka näyttää muuttujan jakauman. Se antaa meille esiintymistiheyden arvoa kohti aineistossa, mistä jakaumissa on kyse.
Histogrammi on hyvä tapa visualisoida nopeasti yksittäisen muuttujan jakauma.
1.2. Histogrammi. Tulkinta
Oheisessa kuvassa kaksi histogrammia esittävät normaalijakauman ja epänormaalijakauman.
Vasemmalla näytteen jakauma (harmaalla) poikkeaa hyvin vähän teoreettisesta kellokäyräjakaumasta (punainen viiva).
Oikealla näemme histogrammissa aivan erilaisen muodon, joka kertoo suoraan, että kyseessä ei ole normaalijakauma.
1.3. Normaalijakauma. Toteutus
Histogrammi voidaan luoda helposti pythonissa seuraavasti:
1.4. histogrammi. Johtopäätökset
Histogrammi on loistava tapa visualisoida nopeasti yksittäisen muuttujan jakauma.
2.1. Histogrammi. Johdanto
Box Plot on toinen visualisointitekniikka, jota voidaan käyttää epänormaalien otosten havaitsemiseen. Box Plot piirtää muuttujan 5-numeroisen yhteenvedon: minimi, ensimmäinen kvartiili, mediaani, kolmas kvartiili ja maksimi.
Boxplot on loistava tapa visualisoida useiden muuttujien jakaumia samanaikaisesti.
2.2. Tulkinta
Boxplot on loistava visualisointitekniikka, koska se mahdollistaa useiden boxplottien piirtämisen vierekkäin. Kun saamme tämän hyvin nopean yleiskuvan muuttujista, saamme käsityksen jakaumasta ja ”bonuksena” saamme täydellisen 5-numeroisen yhteenvedon, joka auttaa meitä myöhemmässä analyysissä.
Sinun tulisi tarkastella kahta asiaa:
Onko jakauma symmetrinen (kuten normaalijakauma)?
Onko jakauman leveys (vastakohta pistemäisyydelle) normaalijakauman leveydelle sopiva? Tätä on vaikea nähdä laatikkodiagrammista.