Phase 2 : Développement du modèle

Durant la phase 1 de ce projet, nous avons étudié la variable significative pour prédire la variable PluieDemain. Après avoir imputé les données manquantes et vérifié la corrélation, nous avons déterminé que 8 variables étaient les prédicteurs les plus significatifs : Humidité9h, Humidité3h, Nuage9h, Nuage3h, Vitesse du vent, Temp3h, Différence d’humidité, et Différence de température. En incluant la variable de réponse, RainTomorrow, dans notre liste, nous avons créé un nouvel ensemble de données.

Nous avons ensuite divisé l’ensemble de données avec 70% des données formant un ensemble d’entraînement et 30% allant dans un ensemble de test. Nous avons utilisé 3 techniques différentes de construction de modèles pour déterminer laquelle serait la plus précise : les arbres de classification, les forêts aléatoires et les réseaux neuronaux. Nous avons également étudié l’importance de nos variables sélectionnées dans les modèles de forêt aléatoire et de réseau neuronal.

Variables significatives ordonnées par importance prédite sur la variable RainTomorrow

Comme nous pouvons le voir ci-dessus, l’humidité semble être l’un des prédicteurs les plus forts dans notre modèle de forêt aléatoire. Cependant, le réseau neuronal accorde plus d’importance à la différence de température, l’humidité ayant une importance bien moindre dans le modèle. Dans les deux modèles, la couverture nuageuse semble tenir une importance significative tandis que la vitesse des rafales de vent semble modérément faible.

L’arbre de classification

Notre premier arbre de classification a été construit sans spécifier le paramètre de complexité afin d’explorer quelle valeur peut fonctionner le mieux. La valeur cp optimale pour cet arbre a fini par être d’environ 0,221, que nous avons ensuite utilisée pour construire un nouvel arbre.

Prédire la pluie de demain en utilisant un arbre de classification élagué

Prédire la pluie de demain sur l’ensemble d’entraînement a donné une précision d’environ 0,828. Comparé à la précision du modèle naïf de 0,78, et compte tenu d’une valeur p de près de 0, ce modèle semblait être un modèle de bonne qualité. Nous avons ensuite fait des prédictions sur l’ensemble de données de test, ce qui a donné une précision d’environ 0,824. Les deux prédictions montrant une plus grande précision que le modèle naïf, l’arbre de classification peut être viable pour prédire RainTomorrow.

La forêt aléatoire

Améliorant la méthode de l’arbre de classification, nous avons ensuite construit une forêt aléatoire avec une validation croisée de 10 k-fold et 50 arbres. L’élaboration de prédictions sur l’ensemble d’entraînement avec notre forêt aléatoire a donné une précision de 0,9991, soit presque 100 %. Bien que la valeur p soit idéale (pratiquement 0), le fait que notre modèle ait obtenu des prédictions presque parfaites soulève des inquiétudes. Dans le monde réel, les modèles parfaitement exacts n’existent pas. Nous avons ensuite testé la prédiction sur l’ensemble de test, ce qui a donné une précision de seulement 0,84 avec une p-value tout aussi significative. Cela indiquait que notre forêt aléatoire était surajustée à l’ensemble de formation et ne serait pas un modèle solide pour les prédictions futures.

Prédire la pluie de demain avec un modèle de forêt aléatoire

Le réseau neuronal

Le modèle final a consisté à créer un réseau neuronal. Nous avons à nouveau utilisé la validation croisée à 10 k fois pour développer deux réseaux, un modèle de base avec des paramètres spécifiés et un réseau optimal. Le réseau de base a été créé avec une taille de 12 et une décroissance de 0,1. Faire des prédictions sur l’ensemble de formation avec notre modèle de base a montré une précision d’environ 0,841, tandis que les prédictions sur l’ensemble de test étaient autour de 0,844.

Nous avons ensuite permis à RStudio de rechercher la taille optimale de 1-12 et la décroissance entre 0,1-0,5. Un modèle avec une taille de 5 et une décroissance de 0,5 a été déterminé comme ayant la meilleure précision à environ 0,843, comme on le voit ci-dessous.

Recherche de la taille optimale du réseau et du taux de décroissance

Construire à nouveau des prédictions avec l’ensemble de test a calculé une précision autour de 0.8401, tandis que la prédiction sur l’ensemble de test a donné une précision d’environ 0,8431, chacune avec une valeur p significative proche de 0,

Prédire la pluie de demain en utilisant un réseau neuronal ajusté
.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.