Durante la fase 1 di questo progetto, abbiamo studiato le variabili significative nel predire la variabile RainTomorrow. Dopo aver imputato i dati mancanti e controllato la correlazione, abbiamo determinato 8 variabili per essere i predittori più significativi: Humidity9am, Humidity3pm, Cloud9am, Cloud3pm, WindGustSpeed, Temp3pm, HumidityDiff e TempDiff. Includendo la variabile di risposta, RainTomorrow, nella nostra lista abbiamo creato un nuovo set di dati.
Abbiamo poi diviso il set di dati con il 70% dei dati che formano un set di allenamento e il 30% che va in un set di test. Abbiamo usato 3 diverse tecniche di costruzione di modelli per determinare quale sarebbe stato più accurato: alberi di classificazione, foreste casuali e reti neurali. Abbiamo anche studiato l’importanza delle nostre variabili selezionate nella foresta casuale e nei modelli di rete neurale.