Pourra-t-il pleuvoir demain ?

Phase 2 : Développement du modèle

Durant la phase 1 de ce projet, nous avons étudié la variable significative pour prédire la variable PluieDemain. Après avoir imputé les données manquantes et vérifié la corrélation, nous avons déterminé que 8 variables étaient les prédicteurs les plus significatifs : Humidité9h, Humidité3h, Nuage9h, Nuage3h, Vitesse du vent, Temp3h, Différence d’humidité, et Différence de température. En incluant la variable de réponse, RainTomorrow, dans notre liste, nous avons créé un nouvel ensemble de données.

Nous avons ensuite divisé l’ensemble de données avec 70% des données formant un ensemble d’entraînement et 30% allant dans un ensemble de test. Nous avons utilisé 3 techniques différentes de construction de modèles pour déterminer laquelle serait la plus précise : les arbres de classification, les forêts aléatoires et les réseaux neuronaux. Nous avons également étudié l’importance de nos variables sélectionnées dans les modèles de forêt aléatoire et de réseau neuronal.

Variables significatives ordonnées par importance prédite sur la variable RainTomorrow

Comme nous pouvons le voir ci-dessus, l’humidité semble être l’un des prédicteurs les plus forts dans notre modèle de forêt aléatoire. Cependant, le réseau neuronal accorde plus d’importance à la différence de température, l’humidité ayant une importance bien moindre dans le modèle. Dans les deux modèles, la couverture nuageuse semble tenir une importance significative tandis que la vitesse des rafales de vent semble modérément faible.

L’arbre de classification

Notre premier arbre de classification a été construit sans spécifier le paramètre de complexité afin d’explorer quelle valeur peut fonctionner le mieux. La valeur cp optimale pour cet arbre a fini par être d’environ 0,221, que nous avons ensuite utilisée pour construire un nouvel arbre.

Prédire la pluie de demain en utilisant un arbre de classification élagué

Le réseau neuronal

Le modèle final a consisté à créer un réseau neuronal. Nous avons à nouveau utilisé la validation croisée à 10 k fois pour développer deux réseaux, un modèle de base avec des paramètres spécifiés et un réseau optimal. Le réseau de base a été créé avec une taille de 12 et une décroissance de 0,1. Faire des prédictions sur l’ensemble de formation avec notre modèle de base a montré une précision d’environ 0,841, tandis que les prédictions sur l’ensemble de test étaient autour de 0,844.

Nous avons ensuite permis à RStudio de rechercher la taille optimale de 1-12 et la décroissance entre 0,1-0,5. Un modèle avec une taille de 5 et une décroissance de 0,5 a été déterminé comme ayant la meilleure précision à environ 0,843, comme on le voit ci-dessous.

Recherche de la taille optimale du réseau et du taux de décroissance

Construire à nouveau des prédictions avec l’ensemble de test a calculé une précision autour de 0.8401, tandis que la prédiction sur l’ensemble de test a donné une précision d’environ 0,8431, chacune avec une valeur p significative proche de 0,

Prédire la pluie de demain en utilisant un réseau neuronal ajusté

Great Journey

Pourra-t-il pleuvoir demain ?

Phase 2 : Développement du modèle

Related Post

Comment garnir un garde-manger avec tout ce dont vous avez besoin

Quel a été le premier monument national des États-Unis ?

Boules protéinées au chocolat et au beurre de cacahuète

Laisser un commentaire Annuler la réponse

You missed

Comment garnir un garde-manger avec tout ce dont vous avez besoin

Quel a été le premier monument national des États-Unis ?

Boules protéinées au chocolat et au beurre de cacahuète

Étirements pour les coiffes des rotateurs et les douleurs à l’épaule

Great Journey