Existen muchos métodos para probar si una variable tiene una distribución normal. En este artículo, descubrirá cuál debe utilizar.
1.1. Introducción Introducción
El primer método que casi todo el mundo conoce es el histograma. El histograma es una visualización de datos que muestra la distribución de una variable. Nos da la frecuencia de aparición por valor en el conjunto de datos, que es de lo que tratan las distribuciones.
El histograma es una gran manera de visualizar rápidamente la distribución de una sola variable.
1.2. Interpretación
En la imagen siguiente, dos histogramas muestran una distribución normal y una distribución no normal.
A la izquierda, hay muy poca desviación de la distribución de la muestra (en gris) respecto a la distribución teórica de la campana (línea roja).
A la derecha, vemos una forma bastante diferente en el histograma, lo que nos indica directamente que no se trata de una distribución normal.
1.3. Implementación
Un histograma se puede crear fácilmente en python de la siguiente manera:
1.4. Conclusión
El histograma es una gran manera de visualizar rápidamente la distribución de una sola variable.
2.1. Introducción
La gráfica de caja es otra técnica de visualización que puede utilizarse para detectar muestras no normales. El Box Plot traza el resumen de 5 números de una variable: mínimo, primer cuartil, mediana, tercer cuartil y máximo.
El boxplot es una gran manera de visualizar las distribuciones de múltiples variables al mismo tiempo.
2.2 Interpretación
El boxplot es una gran técnica de visualización porque permite trazar muchos boxplots uno al lado del otro. Tener esta visión general muy rápida de las variables nos da una idea de la distribución y, como «bonus», obtenemos el resumen completo de 5 números que nos ayudará en el análisis posterior.
Debe fijarse en dos cosas:
¿Es la distribución simétrica (como lo es la distribución Normal)?
¿Corresponde la anchura (opuesta a la puntualidad) a la anchura de la distribución normal? Esto es difícil de ver en un diagrama de caja.