- Plusieurs méthodes existent pour tester si une variable a une distribution normale. Dans cet article, vous découvrirez laquelle utiliser !
- 1.1. Introduction
- 1.2. Interprétation
- 1.3. Mise en œuvre
- 1.4. Conclusion
- 2.1. Introduction
- 2.2 Interprétation
- 2.3. Mise en œuvre
- 2.4. Conclusion
- 3.1. Introduction
- 3.2. Interprétation
- 3.3. Mise en œuvre
- 3.4. Conclusion
- Test de Kolmogorov Smirnov
- 4.2. Interprétation
- 4.3. Mise en œuvre
- 4.4. Conclusion
- Test de Lilliefors
- 5.2. Interprétation
- 5.3. Implémentation
- 5.4. Conclusion
- Test de Shapiro Wilk
- 6.2. Interprétation
- 6.3. Mise en œuvre
- 6.4. Conclusion
- Conclusion – quelle approche utiliser !
Plusieurs méthodes existent pour tester si une variable a une distribution normale. Dans cet article, vous découvrirez laquelle utiliser !
1.1. Introduction
La première méthode que presque tout le monde connaît est l’histogramme. L’histogramme est une visualisation de données qui montre la distribution d’une variable. Il nous donne la fréquence d’occurrence par valeur dans l’ensemble de données, ce qui est le but des distributions.
L’histogramme est un excellent moyen de visualiser rapidement la distribution d’une seule variable.
1.2. Interprétation
Dans l’image ci-dessous, deux histogrammes montrent une distribution normale et une distribution non normale.
- À gauche, il y a très peu de déviation de la distribution de l’échantillon (en gris) par rapport à la distribution théorique en cloche (ligne rouge).
- À droite, nous voyons une forme tout à fait différente dans l’histogramme, nous indiquant directement qu’il ne s’agit pas d’une distribution normale.
1.3. Mise en œuvre
Un histogramme peut être créé facilement en python comme suit:
1.4. Conclusion
L’histogramme est un excellent moyen de visualiser rapidement la distribution d’une seule variable.
2.1. Introduction
Le Box Plot est une autre technique de visualisation qui peut être utilisée pour détecter les échantillons non normaux. Le Box Plot trace le résumé en 5 nombres d’une variable : minimum, premier quartile, médiane, troisième quartile et maximum.
Le boxplot est un excellent moyen de visualiser les distributions de plusieurs variables en même temps.
2.2 Interprétation
Le boxplot est une excellente technique de visualisation car il permet de tracer de nombreux boxplots les uns à côté des autres. Avoir cette vue d’ensemble très rapide des variables nous donne une idée de la distribution et en « bonus », nous obtenons le résumé complet en 5 chiffres qui nous aidera dans les analyses ultérieures.
Vous devez regarder deux choses :
- La distribution est-elle symétrique (comme l’est la distribution normale) ?
- La largeur (opposée à la ponctualité) correspond-elle à la largeur de la distribution normale ? C’est difficile à voir sur un box plot.
2.3. Mise en œuvre
Un boxplot peut être facilement mis en œuvre en python comme suit :
2.4. Conclusion
Le boxplot est un excellent moyen de visualiser les distributions de plusieurs variables en même temps, mais un écart de largeur/pointage est difficile à identifier en utilisant les box plots.
3.1. Introduction
Avec les QQ plots, nous commençons à entrer dans les choses plus sérieuses, car cela demande un peu plus de compréhension que les méthodes décrites précédemment.
Le QQ Plot est l’abréviation de Quantile vs Quantile Plot, ce qui est exactement ce qu’il fait : tracer les quantiles théoriques contre les quantiles réels de notre variable.
Le QQ Plot nous permet de voir la déviation d’une distribution normale beaucoup mieux que dans un Histogramme ou un Box Plot.
3.2. Interprétation
Si notre variable suit une distribution normale, les quantiles de notre variable doivent être parfaitement alignés avec les quantiles normaux « théoriques » : une ligne droite sur le QQ Plot nous indique que nous avons une distribution normale.