Ik zocht naar de beste manier om dit uit te leggen en stuitte op een pagina die dat heel aardig doet. Ik geef deze man liever de eer voor de uitleg. Voor het geval de link voor sommigen niet werkt heb ik hieronder wat informatie opgenomen.
Eenvoudig gezegd: de #R^2# waarde is eenvoudigweg het kwadraat van de correlatiecoëfficiënt #R#.
De correlatiecoëfficiënt ( #R# ) van een model (zeg met variabelen #x# en #y#) neemt waarden aan tussen #-1# en #1#. Het beschrijft hoe #x# en #y# gecorreleerd zijn.
- Als #x# en #y# perfect samenvallen, dan is deze waarde positief #1#
- Als #x# stijgt terwijl #y# daalt op precies de tegenovergestelde manier, dan is deze waarde #-1#
- #0# zou een situatie zijn waarin er geen correlatie is tussen #x# en #y#
Deze #R# waarde is echter alleen nuttig voor een eenvoudig lineair model (alleen een #x# en #y#). Zodra we meer dan één onafhankelijke variabele beschouwen (nu hebben we #x_1#, #x_2#, …), is het erg moeilijk om te begrijpen wat de correlatiecoëfficiënt betekent. Het is niet zo duidelijk welke variabele wat bijdraagt tot de correlatie.
Daar komt de #R^2# waarde in het spel. Het is eenvoudig het kwadraat van de correlatiecoëfficiënt. Deze waarde ligt tussen #0# en # 1#, waarbij waarden dicht bij # 1# meer correlatie impliceren (positief of negatief gecorreleerd) en # 0# geen correlatie impliceert. Een andere manier om het te zien is als de fractionele variatie in de afhankelijke variabele die het resultaat is van alle onafhankelijke variabelen. Als de afhankelijke variabele zeer afhankelijk is van al zijn onafhankelijke variabelen, zal de waarde dicht bij #1# liggen. Dus #R^2# is veel nuttiger omdat het ook kan worden gebruikt om multivariate modellen te beschrijven.
Als je een discussie wilt over enkele van de wiskundige begrippen die betrokken zijn bij het relateren van de twee waarden, zie dit .