Durante a fase 1 deste projecto, estudámos a variável significativa na previsão da variável RainTomorrow. Após imputarmos os dados em falta e verificarmos a correlação, determinamos 8 variáveis como sendo as preditoras mais significativas: Humidity9am, Humidity3pm, Cloud9am, Cloud3pm, WindGustSpeed, Temp3pm, HumidityDiff, e TempDiff. Incluindo a variável resposta, RainTomorrow, em nossa lista criamos um novo conjunto de dados.
Dividimos então o conjunto de dados com 70% dos dados formando um conjunto de treinamento e 30% indo para um conjunto de testes. Usamos 3 técnicas diferentes de construção de modelos para determinar qual seria a mais precisa: árvores de classificação, florestas aleatórias e redes neurais. Também estudamos a importância das nossas variáveis selecionadas nos modelos de floresta aleatória e redes neurais.