Nella disciplina della statistica e dell’analisi statistica ci sono metodi con cui controllare i valori anomali. I valori anomali potrebbero essere il risultato di uno spostamento nella posizione (media) o nella scala (variabilità) del processo di interesse. I valori anomali potrebbero anche essere la prova di una popolazione campione che ha una distribuzione non normale o di una serie di dati di popolazione contaminata. Di conseguenza, come è l’idea di base della statistica descrittiva, quando si incontra un outlier, dobbiamo spiegare questo valore con un’ulteriore analisi della causa o origine dell’outlier. Nei casi di osservazioni estreme, che non sono un evento infrequente, si devono analizzare i valori tipici. Nel caso dei quartili, l’Interquartile Range (IQR) può essere usato per caratterizzare i dati quando ci possono essere estremità che distorcono i dati; l’intervallo interquartile è una statistica relativamente robusta (a volte chiamata anche “resistenza”) rispetto al range e alla deviazione standard. C’è anche un metodo matematico per controllare i valori anomali e determinare i “recinti”, limiti superiori e inferiori da cui controllare i valori anomali.
Dopo aver determinato il primo e il terzo quartile e l’intervallo interquartile come indicato sopra, si calcolano i recinti usando la seguente formula:
Recinto inferiore = Q 1 – 1.5 ( I Q R ) {\displaystyle {\text{Lower fence}}=Q_{1}-1.5(\mathrm {IQR} )\,}
Upper fence = Q 3 + 1.5 ( I Q R ) , {displaystyle {\text{Upper fence}}=Q_{3}+1.5(\mathrm {IQR} ),\,}
dove Q1 e Q3 sono rispettivamente il primo e il terzo quartile. Il recinto inferiore è il “limite inferiore” e il recinto superiore è il “limite superiore” dei dati, e qualsiasi dato che si trova al di fuori di questi limiti definiti può essere considerato un outlier. Qualsiasi cosa al di sotto del recinto inferiore o al di sopra del recinto superiore può essere considerato un caso del genere. I limiti forniscono una linea guida con cui definire un outlier, che può essere definito in altri modi. I recinti definiscono un “range” al di fuori del quale esiste un outlier; un modo per immaginarlo è il confine di un recinto, al di fuori del quale ci sono “outsider” in contrapposizione a outlier. È comune che i recinti inferiori e superiori insieme ai valori anomali siano rappresentati da un boxplot. Per un boxplot, solo le altezze verticali corrispondono al set di dati visualizzato, mentre la larghezza orizzontale della scatola è irrilevante. I valori anomali situati al di fuori delle recinzioni in un boxplot possono essere marcati con qualsiasi simbolo, come una “x” o una “o”. I recinti sono a volte indicati anche come “baffi” mentre l’intero grafico è chiamato un grafico “box-and-whisker”.
Quando si individua un outlier nel set di dati calcolando gli intervalli interquartili e le caratteristiche boxplot, potrebbe essere semplice considerarlo erroneamente come prova che la popolazione non è normale o che il campione è contaminato. Tuttavia, questo metodo non dovrebbe prendere il posto di un test di ipotesi per determinare la normalità della popolazione. L’importanza degli outlier varia a seconda della dimensione del campione. Se il campione è piccolo, allora è più probabile ottenere intervalli interquartili non rappresentativi, che portano a recinti più stretti. Pertanto, sarebbe più probabile trovare dati che sono contrassegnati come outlier.