Coefficiente di determinazione

Abbozzo statistica
Questa voce sull'argomento statistica è solo un abbozzo.
Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.

In statistica, il coefficiente di determinazione, più comunemente R2, è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Intuitivamente, esso è legato alla frazione della varianza non spiegata dal modello.

Definizione

La definizione più generale è la seguente:

R 2 = 1 R S S T S S , {\displaystyle R^{2}=1-{\frac {RSS}{TSS}},}

con R S S {\displaystyle RSS} devianza residua (Residual Sum of Squares):

R S S = i = 1 n e i 2 = i = 1 n ( y i y ^ i ) 2 {\displaystyle RSS=\sum _{i=1}^{n}e_{i}^{2}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}}

T S S {\displaystyle TSS} devianza totale (Total Sum of Squares):

T S S = i = 1 n ( y i y ¯ ) 2 {\displaystyle TSS=\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}

dove:

y ^ i {\displaystyle {\hat {y}}_{i}} sono i dati stimati dal modello,
y i {\displaystyle y_{i}} sono i dati osservati,
y ¯ = 1 n i = 1 n y i {\displaystyle {\overline {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}} è la media dei dati osservati.


Adjusted R2

L'adjusted R 2 {\displaystyle R^{2}} (o R 2 ¯ {\displaystyle {\bar {R^{2}}}} ) (meglio conosciuto in Italiano come R 2 {\displaystyle R^{2}} corretto o aggiustato) è una variante dell' R 2 {\displaystyle R^{2}} semplice.

Mentre R 2 {\displaystyle R^{2}} semplice è utilizzato per l'analisi di regressione lineare semplice come principale indice di bontà della curva di regressione, R 2 {\displaystyle R^{2}} corretto viene utilizzato per l'analisi di regressione lineare multipla. Esso serve a misurare la frazione di devianza spiegata, cioè la proporzione di variabilità di Y {\displaystyle Y} "spiegata" dalla variabile esplicativa X {\displaystyle X} . All'aumentare del numero di variabili esplicative (o predittori) X {\displaystyle X} , aumenta anche il valore di R 2 {\displaystyle R^{2}} , per cui spesso è utilizzato al suo posto R 2 ¯ {\displaystyle {\bar {R^{2}}}} , che serve a misurare la frazione di varianza spiegata.

Il coefficiente R ¯ 2 {\displaystyle {\bar {R}}^{2}} può essere negativo e vale sempre la disuguaglianza R ¯ 2 R 2 {\displaystyle {\bar {R}}^{2}\leq R^{2}} .

R ¯ 2 = 1 n 1 n k 1 R S S T S S , {\displaystyle {\bar {R}}^{2}=1-{n-1 \over n-k-1}\cdot {\frac {RSS}{TSS}},}

dove:

  • n {\displaystyle n} è il numero delle osservazioni;
  • k {\displaystyle k} è il numero dei regressori.

R2 e Correlazione lineare

Se si ha a disposizione la correlazione tra due variabili discrete, ρ X , Y {\displaystyle \rho _{X,Y}} , (o indice di correlazione di Pearson) si può determinare il coefficiente di determinazione, elevando semplicemente al quadrato la correlazione. Viceversa, se si ha a disposizione R 2 {\displaystyle R^{2}} , si può determinare la correlazione, facendo la radice quadrata.

R 2 = ρ X , Y 2 ρ X , Y = R 2 {\displaystyle {\displaystyle R^{2}=\rho _{X,Y}^{2}\Leftrightarrow \rho _{X,Y}={\sqrt {R^{2}}}}}

dove:

  • ρ X , Y {\displaystyle \displaystyle \rho _{X,Y}} è la correlazione tra le variabili X {\displaystyle X} e Y {\displaystyle Y} , ottenibile dividendo la covarianza tra le due variabili e il prodotto dei loro scarti quadratici medi ρ X , Y = ( σ X , Y σ X σ Y ) {\displaystyle \displaystyle \rho _{X,Y}=\left({\frac {\sigma _{X,Y}}{\sigma _{X}\cdot \sigma _{Y}}}\right)} .

La formula empirica di questo modello è il seguente:

R 2 = E S S T S S , {\displaystyle R^{2}={\frac {ESS}{TSS}},}

dove E S S = i = 1 n ( y ^ i y ¯ ) 2 {\displaystyle ESS=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}} è la devianza spiegata dal modello (Explained Sum of Squares). Questa definizione è possibile poiché, per regressioni lineari semplici, la devianza può essere scomposta come E S S = T S S R S S {\displaystyle ESS=TSS-RSS} .

R2 varia tra {\displaystyle -\infty } e 1: quando è 0 il modello utilizzato offre una spiegazione dei dati non migliore del valore medio ( R S S = T S S {\displaystyle RSS=TSS} ); quando è 1 il modello spiega perfettamente i dati. Un modello peggiore della media ( R S S > T S S {\displaystyle RSS>TSS} ) ha coefficiente R 2 {\displaystyle R^{2}} minore di 0.

Interpretazione

Se R 2 {\displaystyle R^{2}} o R 2 ¯ {\displaystyle {\bar {R^{2}}}} sono prossimi a 1, significa che i regressori predicono bene il valore della variabile dipendente in campione; mentre se è uguale a 0, significa che non lo fanno.[1]

I coefficienti R 2 {\displaystyle R^{2}} e R 2 ¯ {\displaystyle {\bar {R^{2}}}} non dicono se:

  1. una variabile sia statisticamente significativa;
  2. i regressori sono causa effettiva dei movimenti della variabile dipendente;
  3. c'è una distorsione da variabile omessa;
  4. è stato scelto il gruppo dei regressori più appropriato.

Note

  1. ^ James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 174, ISBN 978-88-7192-267-6.

Bibliografia

  • James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 121, ISBN 978-88-7192-267-6. 9788871922676
  • Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley-Interscience. ISBN 0-471-17082-8
  • Everitt, B.S. (2002). Cambridge Dictionary of Statistics (2nd Edition). CUP. ISBN 0-521-81099-X
  • Nagelkerke, Nico J.D. (1992) Maximum Likelihood Estimation of Functional Relationships, Pays-Bas, Lecture Notes in Statistics, Volume 69, 110p ISBN 0-387-97721-X
  • Luigi Fabbris, Statistica multivariata (analisi esplorativa dei dati). 1997, McGrawHill. ISBN 88-386-0765-6

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su coefficiente di determinazione

Collegamenti esterni

  • (EN) Felicity Boyd Enders, coefficient of determination, su Enciclopedia Britannica, Encyclopædia Britannica, Inc. Modifica su Wikidata
Controllo di autoritàGND (DE) 4618882-4
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica