Quartil

Dez 1, 2021

Im Bereich der Statistik und der statistischen Analyse gibt es Methoden, mit denen Ausreißer festgestellt werden können. Ausreißer können das Ergebnis einer Verschiebung in der Lage (Mittelwert) oder in der Skala (Variabilität) des interessierenden Prozesses sein. Ausreißer können auch ein Hinweis auf eine Stichprobenpopulation mit einer nicht normalen Verteilung oder auf einen kontaminierten Populationsdatensatz sein. Folglich müssen wir, wie es der Grundgedanke der deskriptiven Statistik ist, wenn wir auf einen Ausreißer stoßen, diesen Wert durch eine weitere Analyse der Ursache oder des Ursprungs des Ausreißers erklären. Bei extremen Beobachtungen, die nicht selten vorkommen, müssen die typischen Werte analysiert werden. Im Falle von Quartilen kann der Interquartilsbereich (IQR) zur Charakterisierung der Daten verwendet werden, wenn es Extremwerte gibt, die die Daten verzerren; der Interquartilsbereich ist eine relativ robuste Statistik (manchmal auch als „Widerstand“ bezeichnet) im Vergleich zum Bereich und zur Standardabweichung. Es gibt auch eine mathematische Methode, um auf Ausreißer zu prüfen und „Zäune“ zu bestimmen, obere und untere Grenzen, von denen aus auf Ausreißer geprüft wird.

Nach der Bestimmung des ersten und dritten Quartils und des Interquartilsbereichs, wie oben beschrieben, werden die Zäune nach folgender Formel berechnet:

Unterer Zaun = Q 1 – 1.5 ( I Q R ) {\displaystyle {\text{Unterer Zaun}}=Q_{1}-1.5(\mathrm {IQR} )\,}

Oberer Zaun = Q 3 + 1.5 ( I Q R ) , {\displaystyle {\text{Oberer Zaun}}=Q_{3}+1.5(\mathrm {IQR} ),\,}

Boxplot-Diagramm mit Ausreißern

wobei Q1 und Q3 das erste bzw. dritte Quartil sind. Der untere Zaun ist die „Untergrenze“ und der obere Zaun ist die „Obergrenze“ der Daten, und alle Daten, die außerhalb dieser definierten Grenzen liegen, können als Ausreißer betrachtet werden. Alles, was unterhalb des unteren Zauns oder oberhalb des oberen Zauns liegt, kann als ein solcher Fall betrachtet werden. Die Fences bieten einen Leitfaden für die Definition eines Ausreißers, der auch auf andere Weise definiert werden kann. Die Fences definieren einen „Bereich“, außerhalb dessen ein Ausreißer existiert; man kann sich dies wie die Grenze eines Zauns vorstellen, außerhalb dessen sich „Außenseiter“ im Gegensatz zu Ausreißern befinden. Üblicherweise werden der untere und der obere Zaun zusammen mit den Ausreißern in einem Boxplot dargestellt. Bei einem Boxplot entsprechen nur die vertikalen Höhen dem visualisierten Datensatz, während die horizontale Breite der Box irrelevant ist. Ausreißer, die sich außerhalb der Fences in einem Boxplot befinden, können durch ein beliebiges Symbol, wie z. B. ein „x“ oder „o“, gekennzeichnet werden. Die Zäune werden manchmal auch als „Whisker“ bezeichnet, während die gesamte Darstellung als „Box-and-Whisker“-Plot bezeichnet wird.

Wenn man einen Ausreißer im Datensatz durch die Berechnung der Interquartilsbereiche und Boxplot-Merkmale entdeckt, könnte man dies fälschlicherweise als Beweis dafür ansehen, dass die Population nicht normal ist oder dass die Stichprobe kontaminiert ist. Diese Methode sollte jedoch nicht an die Stelle eines Hypothesentests zur Bestimmung der Normalität der Grundgesamtheit treten. Die Bedeutung der Ausreißer hängt von der Größe der Stichprobe ab. Wenn die Stichprobe klein ist, ist es wahrscheinlicher, dass die Interquartilsbereiche nicht repräsentativ klein sind, was zu engeren Zäunen führt. Daher ist es wahrscheinlicher, Daten zu finden, die als Ausreißer gekennzeichnet sind.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.