Hay métodos para comprobar los valores atípicos en la disciplina de la estadística y el análisis estadístico. Los valores atípicos pueden ser el resultado de un cambio en la ubicación (media) o en la escala (variabilidad) del proceso de interés. Los valores atípicos también pueden ser la evidencia de una muestra de población que tiene una distribución no normal o de un conjunto de datos poblacionales contaminados. En consecuencia, como es la idea básica de la estadística descriptiva, cuando se encuentra un valor atípico, hay que explicar este valor mediante un análisis posterior de la causa u origen del mismo. En los casos de observaciones extremas, que no son un hecho infrecuente, hay que analizar los valores típicos. En el caso de los cuartiles, se puede utilizar el rango intercuartil (IQR) para caracterizar los datos cuando puede haber extremos que sesgan los datos; el rango intercuartil es un estadístico relativamente robusto (también llamado a veces «resistencia») en comparación con el rango y la desviación estándar. También existe un método matemático para comprobar los valores atípicos y determinar los «cercos», límites superior e inferior a partir de los cuales se comprueban los valores atípicos.
Después de determinar el primer y tercer cuartil y el rango intercuartílico como se ha indicado anteriormente, se calculan los cercos mediante la siguiente fórmula:
Cerco inferior = Q 1 – 1.5 ( I Q R ) {\displaystyle {\text{Valla inferior}}=Q_{1}-1,5(\mathrm {IQR} )},}
Valla superior = Q 3 + 1,5 ( I Q R ) , {\displaystyle {\text{Valla superior}}=Q_{3}+1.5(\mathrm {IQR} ),\}
donde Q1 y Q3 son el primer y tercer cuartil, respectivamente. La valla inferior es el «límite inferior» y la valla superior es el «límite superior» de los datos, y cualquier dato que se encuentre fuera de estos límites definidos puede considerarse un valor atípico. Todo lo que esté por debajo de la valla inferior o por encima de la valla superior puede considerarse un caso de este tipo. Los límites proporcionan una pauta para definir un valor atípico, que puede definirse de otras maneras. Los límites definen un «rango» fuera del cual existe un valor atípico; una forma de imaginarlo es el límite de una valla, fuera de la cual hay «extraños» en contraposición a los valores atípicos. Es habitual que los límites inferior y superior, junto con los valores atípicos, se representen mediante un diagrama de caja. En un boxplot, sólo las alturas verticales corresponden al conjunto de datos visualizados, mientras que la anchura horizontal de la caja es irrelevante. Los valores atípicos situados fuera de las vallas en un boxplot pueden marcarse con cualquier símbolo, como una «x» o una «o». Las cercas a veces también se denominan «bigotes», mientras que el gráfico completo se denomina gráfico de «caja y bigotes».
Cuando se detecta un valor atípico en el conjunto de datos mediante el cálculo de los rangos intercuartílicos y las características del boxplot, puede ser sencillo considerarlo erróneamente como una prueba de que la población no es normal o de que la muestra está contaminada. Sin embargo, este método no debe sustituir a una prueba de hipótesis para determinar la normalidad de la población. La importancia de los valores atípicos varía en función del tamaño de la muestra. Si la muestra es pequeña, es más probable que se obtengan rangos intercuartílicos que no sean representativos, lo que conduce a cercos más estrechos. Por lo tanto, sería más probable encontrar datos marcados como atípicos.