Existem métodos de verificação de outliers na disciplina de estatística e análise estatística. Os outliers podem ser resultado de uma mudança na localização (média) ou na escala (variabilidade) do processo de interesse. Os outliers também podem ser evidência de uma população de amostra que tenha uma distribuição não normal ou de um conjunto de dados populacionais contaminados. Consequentemente, como é a ideia básica da estatística descritiva, quando encontramos um outlier, temos de explicar este valor através de uma análise mais aprofundada da causa ou origem do outlier. Em casos de observações extremas, que não são uma ocorrência infrequente, os valores típicos devem ser analisados. No caso dos quartis, a Faixa Interquartil (IQR) pode ser utilizada para caracterizar os dados quando existem extremidades que enviesam os dados; a Faixa Interquartil é uma estatística relativamente robusta (também chamada às vezes de “resistência”) em comparação com a faixa e o desvio padrão. Há também um método matemático para verificar outliers e determinar “cercas”, limites superiores e inferiores a partir dos quais verificar outliers.
Após determinar o primeiro e terceiro quartis e a faixa interquartil como descrito acima, então as cercas são calculadas usando a seguinte fórmula:
Cerca inferior = Q 1 – 1.5 ( I Q R ) {\i1}estilo de exibição {\i1}=Q_{\i1}-1,5(\i1}mathrm {\iQR}} \,}
Cerca superior = Q 3 + 1,5 ( I Q R ) , {\i1}estilo de exibição {\i1}=Q_{\i1}+1.5(\mathrm {IQR} ),\,}
Onde Q1 e Q3 são o primeiro e terceiro quartis, respectivamente. A cerca inferior é o “limite inferior” e a cerca superior é o “limite superior” dos dados, e quaisquer dados que se encontrem fora destes limites definidos podem ser considerados um outlier. Qualquer coisa abaixo da vedação inferior ou acima da vedação superior pode ser considerada um caso desses. As vedações fornecem uma diretriz para definir um outlier, que pode ser definido de outras maneiras. As cercas definem um “intervalo” fora do qual existe um outlier; uma maneira de imaginar isso é um limite de uma cerca, fora do qual há “outsiders” em oposição aos outliers. É comum que as cercas inferiores e superiores, juntamente com os outliers, sejam representadas por um boxplot. Para um boxplot, apenas as alturas verticais correspondem ao conjunto de dados visualizados, enquanto a largura horizontal da caixa é irrelevante. Os outliers localizados fora das cercas em um boxplot podem ser marcados como qualquer escolha de símbolo, tal como um “x” ou “o”. As cercas são às vezes também referidas como “bigodes”, enquanto todo o gráfico visual é chamado de gráfico “box-and-wisker”.
Ao identificar um outlier no conjunto de dados através do cálculo dos intervalos interquartis e características do boxplot, pode ser simples visualizá-lo erroneamente como evidência de que a população não é normal ou que a amostra está contaminada. No entanto, este método não deve ser um teste de hipótese para determinar a normalidade da população. O significado dos outliers varia de acordo com o tamanho da amostra. Se a amostra for pequena, então é mais provável que se obtenham intervalos interquartis que não sejam representativos, levando a cercas mais estreitas. Portanto, seria mais provável encontrar dados que sejam marcados como aberrantes.