W dyscyplinie statystyki i analizy statystycznej istnieją metody, dzięki którym można sprawdzić, czy występują wartości odstające. Wartości odstające mogą być wynikiem przesunięcia w lokalizacji (średnia) lub w skali (zmienność) procesu zainteresowania. Wartości odstające mogą być również dowodem na to, że populacja próbna ma rozkład nienormalny lub że zbiór danych populacji jest zanieczyszczony. W związku z tym, zgodnie z podstawową ideą statystyki opisowej, napotykając wartość odstającą, musimy ją wyjaśnić poprzez dalszą analizę przyczyny lub pochodzenia wartości odstającej. W przypadku obserwacji skrajnych, które nie są rzadkim zjawiskiem, należy przeanalizować wartości typowe. W przypadku kwartyli, do scharakteryzowania danych może być użyty przedział międzykwartylowy (IQR), gdy mogą występować wartości skrajne, które przechylają dane; przedział międzykwartylowy jest stosunkowo solidną statystyką (czasami nazywaną również „odpornością”) w porównaniu z zakresem i odchyleniem standardowym. Istnieje również matematyczna metoda sprawdzania wartości odstających i określania „ogrodzeń”, górnych i dolnych granic, od których należy sprawdzać wartości odstające.
Po określeniu pierwszego i trzeciego kwartyla oraz zakresu międzykwartylowego, jak przedstawiono powyżej, następnie oblicza się ogrodzenia za pomocą następującego wzoru:
Dolne ogrodzenie = Q 1 – 1.5 ( I Q R ) { {displaystyle {text{Lower fence}}=Q_{1}-1.5(\mathrm {IQR} )},}
Upper fence = Q 3 + 1.5 ( I Q R ) , {displaystyle {text{Upper fence}}=Q_{3}+1.5(ymathrm {IQR} ),}
gdzie Q1 i Q3 są odpowiednio pierwszym i trzecim kwartylem. Dolny płot to „dolna granica”, a górny płot to „górna granica” danych, a wszelkie dane leżące poza tymi zdefiniowanymi granicami mogą być uznane za wartości odstające. Wszystko, co znajduje się poniżej dolnego lub powyżej górnego progu, może być uznane za taki przypadek. Odstępstwa stanowią wskazówkę, za pomocą której można zdefiniować wartość odstającą, która może być zdefiniowana w inny sposób. Ogrodzenia definiują „zakres”, poza którym istnieje wartość odstająca; można to sobie wyobrazić jako granicę ogrodzenia, poza którą znajdują się „osoby postronne”, w przeciwieństwie do wartości odstających. Często zdarza się, że dolne i górne ogrodzenia wraz z wartościami odstającymi są przedstawiane za pomocą wykresu typu boxplot. W przypadku boxplot, tylko pionowe wysokości odpowiadają wizualizowanemu zestawowi danych, podczas gdy pozioma szerokość pudełka jest nieistotna. Wartości odstające znajdujące się poza ogrodzeniem w boxplot mogą być oznaczone dowolnym symbolem, takim jak „x” lub „o”. Czasami ogrodzenia są również określane jako „whiskers”, podczas gdy cała wizualizacja wykresu jest nazywana wykresem „box-and-whisker”.
Przy zauważeniu wartości odstających w zbiorze danych poprzez obliczenie przedziałów międzykwartylowych i cech boxplot, może być łatwo błędnie postrzegać je jako dowód, że populacja nie jest normalna lub że próbka jest zanieczyszczona. Metoda ta nie powinna jednak zastępować testu hipotezy w celu określenia normalności populacji. Znaczenie wartości odstających różni się w zależności od wielkości próby. Jeżeli próba jest mała, wówczas bardziej prawdopodobne jest uzyskanie przedziałów międzykwartylowych, które są niereprezentatywnie małe, co prowadzi do węższych przedziałów. Dlatego bardziej prawdopodobne byłoby znalezienie danych, które są oznaczone jako wartości odstające.
.