Primavera amanhã?

Jan 9, 2022

Fase 2: Desenvolvimento do Modelo

Durante a fase 1 deste projecto, estudámos a variável significativa na previsão da variável RainTomorrow. Após imputarmos os dados em falta e verificarmos a correlação, determinamos 8 variáveis como sendo as preditoras mais significativas: Humidity9am, Humidity3pm, Cloud9am, Cloud3pm, WindGustSpeed, Temp3pm, HumidityDiff, e TempDiff. Incluindo a variável resposta, RainTomorrow, em nossa lista criamos um novo conjunto de dados.

Dividimos então o conjunto de dados com 70% dos dados formando um conjunto de treinamento e 30% indo para um conjunto de testes. Usamos 3 técnicas diferentes de construção de modelos para determinar qual seria a mais precisa: árvores de classificação, florestas aleatórias e redes neurais. Também estudamos a importância das nossas variáveis selecionadas nos modelos de floresta aleatória e redes neurais.

Variáveis significativas ordenadas pela importância prevista na variável RainTomorrow

Como podemos ver acima, a umidade parece ser um dos preditores mais fortes no nosso modelo de floresta aleatória. Entretanto, a rede neural dá mais importância à diferença de temperatura, sendo que a umidade tem uma importância muito menor no modelo. Em ambos os modelos, a cobertura de nuvens parece ter importância significativa enquanto a velocidade da rajada de vento parece moderadamente baixa.

A Árvore de Classificação

Nossa primeira árvore de classificação foi construída sem especificar o parâmetro de complexidade, a fim de explorar qual valor pode funcionar melhor. O valor óptimo de cp para esta árvore acabou por ser cerca de 0,221, que depois utilizámos para construir uma nova árvore.

>

>

>

Previsão do RainTomorrow utilizou uma árvore de classificação podada

Previsão do RainTomorrow no conjunto de treino resultou numa precisão de cerca de 0,828. Em comparação com a precisão ingênua do modelo de 0,78, e considerando um p-valor de quase 0, este modelo parecia ser um modelo de boa qualidade. Em seguida, fizemos previsões no conjunto de dados de teste, o que resultou em uma precisão de cerca de 0,824. Com ambas as previsões mostrando maior precisão do que o modelo ingênuo, a árvore de classificação pode ser viável para prever o RainTomorrow.

The Random Forest

Melhorando o método da árvore de classificação, construímos então uma floresta aleatória com validação cruzada de 10 k dobrados e 50 árvores. Desenvolver previsões sobre o conjunto de treinamento com nossa floresta aleatória resultou em uma precisão de 0,9991, quase 100%. Embora o valor de p seja ideal em praticamente 0, o fato de nosso modelo ter predições quase perfeitas levanta preocupações. No mundo real, modelos perfeitamente precisos não existem. Testamos então as previsões no conjunto de testes, o que resultou em uma precisão de apenas 0,84 com um p-valor similarmente significativo. Isto indicava que a nossa floresta aleatória estava sobreajustada ao conjunto de treino e não seria um modelo forte para previsões futuras.

>

>

Previsão do RainTomorrow com um modelo de floresta aleatória

A rede neural

O modelo final envolveu a criação de uma rede neural. Mais uma vez usamos uma validação cruzada de 10 k para desenvolver duas redes, um modelo básico com parâmetros especificados e uma rede ótima. A rede básica foi criada com um tamanho de 12 e decadência de 0,1. Fazer previsões no conjunto de treinamento com o nosso modelo básico mostrou uma precisão de cerca de 0,841, enquanto as previsões no conjunto de testes foram cerca de 0,844,

Permitimos então que o RStudio procurasse o tamanho ótimo de 1-12 e decaimento entre 0,1-0,5. Um modelo com tamanho 5 e decaimento 0,5 foi determinado para ter a melhor precisão em torno de 0,843, como visto abaixo.

Procura do tamanho ótimo da rede e taxa de decaimento

Provisões de construção novamente com o conjunto de testes calculado uma precisão em torno de 0.8401, enquanto a previsão no conjunto de testes resultou numa precisão de cerca de 0,8431, cada um com um valor p significativo próximo de 0,

Previsão do RainTomorrow usando uma rede neural ajustada

Deixe uma resposta

O seu endereço de email não será publicado.