Kvartil

dec 1, 2021

Der findes metoder til at kontrollere, om der findes outliers inden for statistik og statistisk analyse. Outliers kan være et resultat af et skift i placeringen (middelværdien) eller i omfanget (variabiliteten) af den pågældende proces. Outliers kan også være tegn på en prøvepopulation, der har en ikke-normal fordeling, eller på et forurenet datasæt for en population. Som det er den grundlæggende idé i deskriptiv statistik, skal vi derfor, når vi støder på en outlier, forklare denne værdi ved yderligere analyse af årsagen eller oprindelsen til outlieren. I tilfælde af ekstreme observationer, som ikke er en sjælden forekomst, skal de typiske værdier analyseres. I tilfælde af kvartiler kan interkvartilområdet (IQR) anvendes til at karakterisere dataene, når der kan være ekstremiteter, der skævvrider dataene; interkvartilområdet er en relativt robust statistik (også undertiden kaldet “modstand”) sammenlignet med intervallet og standardafvigelsen. Der findes også en matematisk metode til at kontrollere for outliers og bestemme “hegn”, øvre og nedre grænser, hvorfra man kan kontrollere for outliers.

Efter bestemmelse af første og tredje kvartil og interkvartilintervallet som skitseret ovenfor beregnes hegn ved hjælp af følgende formel:

Nedre hegn = Q 1 – 1.5 ( I Q R ) {\displaystyle {\text{Nedre hegn}}=Q_{1}-1,5(\mathrm {IQR} )\,}

Øvre hegn = Q 3 + 1,5 ( I Q R ) , {\displaystyle {\text{Øvre hegn}}=Q_{3}+1.5(\mathrm {IQR} ),\,}

Boxplotdiagram med outliers

hvor Q1 og Q3 er henholdsvis den første og tredje kvartil. Det nederste hegn er den “nedre grænse” og det øverste hegn er den “øvre grænse” for data, og alle data, der ligger uden for disse definerede grænser, kan betragtes som en outlier. Alt, hvad der ligger under det nedre hegn eller over det øvre hegn, kan betragtes som et sådant tilfælde. Hegnene udgør en retningslinje for definitionen af en outlier, som kan defineres på andre måder. Hegnene definerer et “område”, uden for hvilket der findes en outlier; man kan forestille sig dette som en grænse for et hegn, uden for hvilket der findes “outsidere” i modsætning til outliers. Det er almindeligt, at de nederste og øverste hegn sammen med outliers repræsenteres af en boxplot. For et boxplot er det kun de lodrette højder, der svarer til det visualiserede datasæt, mens den vandrette bredde af boksen er irrelevant. Outliers, der befinder sig uden for hegnet i en boxplot, kan markeres med et symbol efter eget valg, f.eks. et “x” eller et “o”. Hegnene omtales undertiden også som “whiskers”, mens hele det visuelle plot kaldes et “box-and-whisker”-plot.

Når man spotter en outlier i datasættet ved at beregne interkvartilintervaller og boxplot-funktioner, kan det være enkelt fejlagtigt at opfatte det som et bevis på, at populationen ikke er normal, eller at prøven er forurenet. Denne metode bør imidlertid ikke erstatte en hypotesetest til bestemmelse af populationens normalitet. Betydningen af outliers varierer afhængigt af stikprøvens størrelse. Hvis stikprøven er lille, er det mere sandsynligt, at man får interkvartilintervaller, der ikke er repræsentativt små, hvilket fører til smallere hegn. Derfor vil det være mere sandsynligt at finde data, der er markeret som outliers.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.