Esistono molti metodi per testare se una variabile ha una distribuzione normale. In questo articolo, scoprirete quale usare!
1.1. Introduzione
Il primo metodo che quasi tutti conoscono è l’istogramma. L’istogramma è una visualizzazione di dati che mostra la distribuzione di una variabile. Ci dà la frequenza di occorrenza per valore nel set di dati, che è ciò di cui si occupano le distribuzioni.
L’istogramma è un ottimo modo per visualizzare rapidamente la distribuzione di una singola variabile.
1.2. Interpretazione
Nell’immagine qui sotto, due istogrammi mostrano una distribuzione normale e una distribuzione non normale.
A sinistra, c’è una deviazione molto piccola della distribuzione del campione (in grigio) dalla distribuzione teorica a campana (linea rossa).
A destra, vediamo una forma molto diversa nell’istogramma, che ci dice direttamente che questa non è una distribuzione normale.
1.3. Implementazione
Un istogramma può essere creato facilmente in python come segue:
1.4. Conclusione
L’istogramma è un ottimo modo per visualizzare rapidamente la distribuzione di una singola variabile.
2.1. Introduzione
Il Box Plot è un’altra tecnica di visualizzazione che può essere usata per rilevare campioni non normali. Il Box Plot traccia il riassunto di 5 numeri di una variabile: minimo, primo quartile, mediana, terzo quartile e massimo.
Il boxplot è un ottimo modo per visualizzare le distribuzioni di più variabili allo stesso tempo.
2.2 Interpretazione
Il boxplot è una grande tecnica di visualizzazione perché permette di tracciare molti boxplot uno accanto all’altro. Avere questa panoramica molto veloce delle variabili ci dà un’idea della distribuzione e come “bonus”, otteniamo il riassunto completo di 5 numeri che ci aiuterà in ulteriori analisi.
Si dovrebbero guardare due cose:
La distribuzione è simmetrica (come la distribuzione normale)?
L’ampiezza (opposta alla puntualità) corrisponde all’ampiezza della distribuzione normale? Questo è difficile da vedere su un box plot.