Determinatiecoëfficiënt

In de statistiek is een determinatiecoëfficiënt, veelal aangeduid met R 2 {\displaystyle R^{2}} , een maat voor het deel van de variabiliteit dat wordt verklaard door het statistisch model. Er bestaan verschillende definities voor een determinatiecoëfficiënt. In het geval van lineaire regressie is er een eenduidige definitie. Bij enkelvoudige lineaire regressie is de determinatiecoëfficiënt gelijk aan het kwadraat van de multipele correlatiecoëfficiënt.

Lineaire regressie

Bij enkelvoudige lineaire regressie gaat men uit van het model dat de waarnemingen ( x i , y i ) {\displaystyle (x_{i},y_{i})} afkomstig zijn van stochastische variabelen die voldoen aan:

Y i = α + β x i + U i {\displaystyle Y_{i}=\alpha +\beta x_{i}+U_{i}}

De schattingen van de parameters α {\displaystyle \alpha } en β {\displaystyle \beta } zijn a {\displaystyle a} en b {\displaystyle b} , waarmee als benadering voor y i {\displaystyle y_{i}} berekend wordt:

y ^ i = a + b x i {\displaystyle {\hat {y}}_{i}=a+bx_{i}}

Als gevolg van de gebruikte kleinste-kwadratenmethode geldt:

y ^ i = y i {\displaystyle \sum {\hat {y}}_{i}=\sum y_{i}}

en

( y i y ^ i ) y ^ i = 0 {\displaystyle \sum (y_{i}-{\hat {y}}_{i}){\hat {y}}_{i}=0}

Het totaal S S T {\displaystyle SST} (Sum of Squares Total) van de kwadratische afwijkingen van het gemiddelde:

S S T = ( y i y ¯ ) 2 {\displaystyle SST=\sum (y_{i}-{\overline {y}})^{2}}

kan voor een deel S S E {\displaystyle SSE} (Sum of Squares Explained)

S S E = ( y ^ i y ¯ ) 2 {\displaystyle SSE=\sum ({\hat {y}}_{i}-{\overline {y}})^{2}}

verklaard worden als gevolg van de regressie. De rest, S S R {\displaystyle SSR} (Sum of Squares Residual), is het gevolg van storing:

S S T = ( y i y ¯ ) 2 = ( y i y ^ i + y ^ i y ¯ ) 2 = {\displaystyle SST=\sum (y_{i}-{\overline {y}})^{2}=\sum (y_{i}-{\hat {y}}_{i}+{\hat {y}}_{i}-{\overline {y}})^{2}=}
= ( y ^ i y ¯ ) 2 + 2 ( y ^ i y ¯ ) ( y i y ^ i ) + ( y i y ^ i ) 2 = {\displaystyle =\sum ({\hat {y}}_{i}-{\overline {y}})^{2}+2\sum ({\hat {y}}_{i}-{\overline {y}})(y_{i}-{\hat {y}}_{i})+\sum (y_{i}-{\hat {y}}_{i})^{2}=}

Omdat de middelste som gelijk is aan 0:

= ( y ^ i y ¯ ) 2 + ( y i y ^ i ) 2 = S S E + S S R {\displaystyle =\sum ({\hat {y}}_{i}-{\overline {y}})^{2}+\sum (y_{i}-{\hat {y}}_{i})^{2}=SSE+SSR}

De determinatiecoëfficiënt is gedefinieerd als:

R 2 = S S E S S T = ( y ^ i y ¯ ) 2 ( y i y ¯ ) 2 = 1 S S R S S T = 1 ( y i y ^ i ) 2 ( y i y ¯ ) 2 {\displaystyle R^{2}={\frac {SSE}{SST}}={\frac {\sum ({\hat {y}}_{i}-{\overline {y}})^{2}}{\sum (y_{i}-{\overline {y}})^{2}}}=1-{\frac {SSR}{SST}}=1-{\frac {\sum (y_{i}-{\hat {y}}_{i})^{2}}{\sum (y_{i}-{\overline {y}})^{2}}}}

De correlatiecoëfficiënt tussen y ^ {\displaystyle {\hat {y}}} en y {\displaystyle y} is:

r y ^ , y = ( y ^ i y ¯ ) ( y i y ¯ ) S S E S S T {\displaystyle r_{{\hat {y}},y}={\frac {\sum ({\hat {y}}_{i}-{\overline {y}})(y_{i}-{\overline {y}})}{\sqrt {SSE\cdot SST}}}}

Nu is

( y i y ^ i ) y ^ i = 0 {\displaystyle \sum (y_{i}-{\hat {y}}_{i}){\hat {y}}_{i}=0} ,

dus

y i y ^ i = y ^ i 2 {\displaystyle \sum y_{i}{\hat {y}}_{i}=\sum {\hat {y}}_{i}^{2}} ,

zodat

( y ^ i y ¯ ) ( y i y ¯ ) = ( y i y ¯ ) 2 = S S E {\displaystyle \sum ({\hat {y}}_{i}-{\overline {y}})(y_{i}-{\overline {y}})=\sum (y_{i}-{\overline {y}})^{2}=SSE}

Daaruit volgt

r y ^ , y = S S E S S E S S T = R {\displaystyle r_{{\hat {y}},y}={\frac {SSE}{\sqrt {SSE\cdot SST}}}=R}