Kvartil

Pro 1, 2021

V oboru statistiky a statistické analýzy existují metody, kterými se zjišťují odlehlé hodnoty. Odlehlé hodnoty mohou být důsledkem posunu v místě (průměru) nebo v měřítku (variabilitě) sledovaného procesu. Odlehlé hodnoty mohou být také důkazem toho, že vzorek populace má nenormální rozdělení nebo že soubor dat populace je kontaminovaný. V důsledku toho, jak je základní myšlenkou popisné statistiky, musíme při setkání s odlehlou hodnotou tuto hodnotu vysvětlit další analýzou příčiny nebo původu odlehlé hodnoty. V případě extrémních pozorování, která nejsou vzácným jevem, je třeba analyzovat typické hodnoty. V případě kvartilů lze k charakterizaci dat použít mezikvartilové rozpětí (IQR), pokud se mohou vyskytnout extrémy, které data zkreslují; mezikvartilové rozpětí je ve srovnání s rozsahem a směrodatnou odchylkou poměrně robustní statistikou (někdy se také nazývá „odolnost“). Existuje také matematická metoda pro kontrolu odlehlých hodnot a určení „plotů“, horní a dolní hranice, od které se kontrolují odlehlé hodnoty.

Po určení prvního a třetího kvartilu a mezikvartilového rozpětí, jak je uvedeno výše, se pak vypočítají ploty podle následujícího vzorce:

Dolní plot = Q 1 – 1.5 ( I Q R ) {\displaystyle {\text{Dolní plot}}=Q_{1}-1,5(\mathrm {IQR} )\,}

Horní plot = Q 3 + 1,5 ( I Q R ) , {\displaystyle {\text{Horní plot}}=Q_{3}+1.5(\mathrm {IQR} ),\,}

Boxplot Diagram with Outliers

kde Q1 a Q3 jsou první, resp. třetí kvartil. Spodní ohraničení je „dolní hranice“ a horní ohraničení je „horní hranice“ dat a jakákoli data ležící mimo tyto definované hranice lze považovat za odlehlé hodnoty. Za takový případ lze považovat cokoli, co se nachází pod dolním plotem nebo nad horním plotem. Ploty poskytují vodítko, podle kterého lze definovat odlehlou hodnotu, kterou lze definovat i jinými způsoby. Ploty definují „rozsah“, mimo který odlehlá hodnota existuje; způsob, jak si to představit, je hranice plotu, mimo kterou jsou „outsideři“ na rozdíl od odlehlých hodnot. Je běžné, že dolní a horní hranice spolu s odlehlými hodnotami jsou znázorněny krabicovým grafem. U boxplotu odpovídají vizualizovanému souboru dat pouze vertikální výšky, zatímco horizontální šířka boxu je irelevantní. Odlehlé hodnoty nacházející se mimo ohrady v boxplotu lze označit libovolným symbolem, například „x“ nebo „o“. Ploty se někdy označují také jako „whiskers“, zatímco celý vizuální graf se nazývá „box-and-whisker“ plot.

Při zjištění odlehlých hodnot v souboru dat pomocí výpočtu mezikvartilových rozpětí a vlastností boxplotu může být jednoduché je mylně považovat za důkaz, že populace není normální nebo že vzorek je kontaminovaný. Tato metoda by však neměla nahradit test hypotézy pro určení normality populace. Významnost odlehlých hodnot se liší v závislosti na velikosti vzorku. Pokud je vzorek malý, je pravděpodobnější, že získáme mezikvartilové rozsahy, které jsou nereprezentativně malé, což vede k užším ohraničením. Proto by bylo pravděpodobnější najít údaje, které jsou označeny jako odlehlé hodnoty.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.