Il existe des méthodes permettant de vérifier la présence de valeurs aberrantes dans la discipline des statistiques et de l’analyse statistique. Les valeurs aberrantes pourraient être le résultat d’un déplacement de l’emplacement (moyenne) ou de l’échelle (variabilité) du processus d’intérêt. Les valeurs aberrantes peuvent également être la preuve d’un échantillon de population ayant une distribution non normale ou d’un ensemble de données de population contaminées. Par conséquent, comme le veut l’idée de base de la statistique descriptive, lorsque l’on rencontre une valeur aberrante, il faut expliquer cette valeur par une analyse plus approfondie de la cause ou de l’origine de l’aberration. Dans le cas d’observations extrêmes, qui ne sont pas rares, les valeurs typiques doivent être analysées. Dans le cas des quartiles, l’écart interquartile (IQR) peut être utilisé pour caractériser les données lorsqu’il peut y avoir des extrémités qui biaisent les données ; l’écart interquartile est une statistique relativement robuste (aussi parfois appelée « résistance ») par rapport à l’étendue et à l’écart type. Il existe également une méthode mathématique pour vérifier les valeurs aberrantes et déterminer les « clôtures », limites supérieures et inférieures à partir desquelles on vérifie les valeurs aberrantes.
Après avoir déterminé les premier et troisième quartiles et l’écart interquartile comme indiqué ci-dessus, on calcule ensuite les clôtures à l’aide de la formule suivante :
Clôture inférieure = Q 1 – 1.5 ( I Q R ) {\displaystyle {\text{Lower fence}=Q_{1}-1.5(\mathrm {IQR} )}
Upper fence = Q 3 + 1.5 ( I Q R ) , {\displaystyle {\text{Upper fence}=Q_{3}+1.5(\mathrm {IQR} ),\,}
où Q1 et Q3 sont respectivement les premier et troisième quartiles. La clôture inférieure est la « limite inférieure » et la clôture supérieure est la « limite supérieure » des données, et toute donnée située en dehors de ces limites définies peut être considérée comme une valeur aberrante. Tout ce qui se trouve en dessous de la limite inférieure ou au-dessus de la limite supérieure peut être considéré comme un tel cas. Les limites fournissent une ligne directrice pour définir une valeur aberrante, qui peut être définie d’autres manières. Les clôtures définissent une « plage » à l’extérieur de laquelle se trouve une valeur aberrante ; on peut se représenter cela comme la limite d’une clôture, à l’extérieur de laquelle se trouvent les « étrangers » par opposition aux valeurs aberrantes. Il est courant que les limites inférieures et supérieures, ainsi que les valeurs aberrantes, soient représentées par un diagramme en boîte. Dans un boxplot, seules les hauteurs verticales correspondent à l’ensemble des données visualisées, tandis que la largeur horizontale de la boîte n’a aucune importance. Les valeurs aberrantes situées à l’extérieur des limites d’un boxplot peuvent être marquées par un symbole de votre choix, tel qu’un « x » ou un « o ». Les clôtures sont parfois aussi appelées « moustaches » tandis que l’ensemble du visuel du tracé est appelé tracé « boîte et moustaches ».
Lorsque l’on repère une valeur aberrante dans l’ensemble de données en calculant les écarts interquartiles et les caractéristiques du boxplot, il peut être simple de la considérer à tort comme une preuve que la population n’est pas normale ou que l’échantillon est contaminé. Cependant, cette méthode ne doit pas se substituer à un test d’hypothèse pour déterminer la normalité de la population. La signification des valeurs aberrantes varie en fonction de la taille de l’échantillon. Si l’échantillon est petit, il est plus probable d’obtenir des écarts interquartiles non représentatifs, ce qui conduit à des clôtures plus étroites. Par conséquent, il serait plus probable de trouver des données marquées comme aberrantes.