Phase 2 : Développement du modèle
Durant la phase 1 de ce projet, nous avons étudié la variable significative pour prédire la variable PluieDemain. Après avoir imputé les données manquantes et vérifié la corrélation, nous avons déterminé que 8 variables étaient les prédicteurs les plus significatifs : Humidité9h, Humidité3h, Nuage9h, Nuage3h, Vitesse du vent, Temp3h, Différence d’humidité, et Différence de température. En incluant la variable de réponse, RainTomorrow, dans notre liste, nous avons créé un nouvel ensemble de données.
Nous avons ensuite divisé l’ensemble de données avec 70% des données formant un ensemble d’entraînement et 30% allant dans un ensemble de test. Nous avons utilisé 3 techniques différentes de construction de modèles pour déterminer laquelle serait la plus précise : les arbres de classification, les forêts aléatoires et les réseaux neuronaux. Nous avons également étudié l’importance de nos variables sélectionnées dans les modèles de forêt aléatoire et de réseau neuronal.
Comme nous pouvons le voir ci-dessus, l’humidité semble être l’un des prédicteurs les plus forts dans notre modèle de forêt aléatoire. Cependant, le réseau neuronal accorde plus d’importance à la différence de température, l’humidité ayant une importance bien moindre dans le modèle. Dans les deux modèles, la couverture nuageuse semble tenir une importance significative tandis que la vitesse des rafales de vent semble modérément faible.
L’arbre de classification
Notre premier arbre de classification a été construit sans spécifier le paramètre de complexité afin d’explorer quelle valeur peut fonctionner le mieux. La valeur cp optimale pour cet arbre a fini par être d’environ 0,221, que nous avons ensuite utilisée pour construire un nouvel arbre.
Le réseau neuronal
Le modèle final a consisté à créer un réseau neuronal. Nous avons à nouveau utilisé la validation croisée à 10 k fois pour développer deux réseaux, un modèle de base avec des paramètres spécifiés et un réseau optimal. Le réseau de base a été créé avec une taille de 12 et une décroissance de 0,1. Faire des prédictions sur l’ensemble de formation avec notre modèle de base a montré une précision d’environ 0,841, tandis que les prédictions sur l’ensemble de test étaient autour de 0,844.
Nous avons ensuite permis à RStudio de rechercher la taille optimale de 1-12 et la décroissance entre 0,1-0,5. Un modèle avec une taille de 5 et une décroissance de 0,5 a été déterminé comme ayant la meilleure précision à environ 0,843, comme on le voit ci-dessous.
Construire à nouveau des prédictions avec l’ensemble de test a calculé une précision autour de 0.8401, tandis que la prédiction sur l’ensemble de test a donné une précision d’environ 0,8431, chacune avec une valeur p significative proche de 0,