Simmetria (statistica)

Esempio di dati sperimentali che presentano asimmetria

In teoria delle probabilità una distribuzione di probabilità è simmetrica quando la sua funzione di probabilità P (nel caso discreto) o la sua funzione di densità di probabilità (nel caso continuo) siano simmetriche rispetto ad un particolare valore x 0 {\displaystyle x_{0}} :

P ( x 0 + x ) = P ( x 0 x ) {\displaystyle P(x_{0}+x)=P(x_{0}-x)} oppure f ( x 0 + x ) = f ( x 0 x ) {\displaystyle f(x_{0}+x)=f(x_{0}-x)} .

Esempi di distribuzioni simmetriche sono le distribuzioni uniformi (discreta e distribuzione continua uniforme) su insiemi simmetrici, la distribuzione normale e altre distribuzioni derivate da distribuzioni simmetriche (la distribuzione t di Student) oppure definite in maniera simmetrica (la distribuzione di Skellam con parametri uguali).

Un indice di asimmetria (in inglese skewness) di una distribuzione è un valore che cerca di fornire una misura della sua mancanza di simmetria.

Esistono diversi indici di asimmetria. Per ognuno di essi il valore 0 fornisce una condizione necessaria, ma non sufficiente, affinché una distribuzione sia simmetrica. (Ogni distribuzione simmetrica ha indice 0, ma esistono anche distribuzioni non simmetriche con indice 0).

Gli indici di asimmetria comunemente utilizzati si basano su alcune proprietà delle distribuzioni simmetriche o, in particolare, della distribuzione normale. Per tutte queste

  • il valore atteso, la mediana e la moda (se è unica) coincidono;
  • i momenti centrali di ordine dispari sono nulli.

Indice di asimmetria

L'indice più utilizzato, noto semplicemente come indice di asimmetria o skewness, è definito come

γ 1 = m 3 m 2 3 / 2 {\displaystyle \gamma _{1}={\frac {m_{3}}{m_{2}^{3/2}}}}

tramite i momenti centrali m k = E [ X ¯ k ] {\displaystyle m_{k}=E[{\bar {X}}^{k}]} , ossia i valori attesi delle potenze della variabile aleatoria centrata X ¯ = X E [ X ] . {\displaystyle {\bar {X}}=X-E[X].}

Poiché il primo momento centrale è sempre nullo ed il secondo momento centrale (la varianza) è nullo solo per le distribuzioni concentrate su un unico valore, il terzo momento centrale m 3 {\displaystyle m_{3}} è quello di ordine più basso che può "sperare" di misurare l'asimmetria di una distribuzione. Inoltre il riscalamento per m 2 3 / 2 {\displaystyle m_{2}^{3/2}} permette all'indice γ 1 {\displaystyle \gamma _{1}} di restare invariato per trasformazioni lineari Y = a X + b , {\displaystyle Y=aX+b,} che trasformano i momenti centrali come m k ( a X + b ) = a k m k ( X ) . {\displaystyle m_{k}(aX+b)=a^{k}m_{k}(X).}

Talvolta viene utilizzato al posto di γ 1 {\displaystyle \gamma _{1}} l'indice

β 1 = γ 1 2 = m 3 2 m 2 3 , {\displaystyle \beta _{1}=\gamma _{1}^{2}={\frac {m_{3}^{2}}{m_{2}^{3}}},}

che tuttavia perde l'informazione sul segno dell'asimmetria.

In statistica l'indice di asimmetria calcolato su un campione osservato { x 1 , , x n } {\displaystyle \{x_{1},\ldots ,x_{n}\}} di media x ¯ {\displaystyle {\bar {x}}} segue la formula

γ 1 = i = 1 n 1 n ( x i x ¯ ) 3 ( i = 1 n 1 n ( x i x ¯ ) 2 ) 3 / 2 . {\displaystyle \gamma _{1}={\frac {\sum _{i=1}^{n}{\frac {1}{n}}(x_{i}-{\bar {x}})^{3}}{\left(\sum _{i=1}^{n}{\frac {1}{n}}(x_{i}-{\bar {x}})^{2}\right)^{3/2}}}.}

Il successivo momento centrale m 4 {\displaystyle m_{4}} viene invece utilizzato per calcolare la curtosi (che vuole "misurare" l'allontanamento della distribuzione dalla distribuzione normale).

Proprietà

Ogni distribuzione simmetrica ha indice di asimmetria 0.

La somma Y = X 1 + + X n {\displaystyle Y=X_{1}+\ldots +X_{n}} di n {\displaystyle n} variabili aleatorie variabili indipendenti con la stessa distribuzione ha momenti centrali m k ( Y ) = n m k ( X ) ; {\displaystyle m_{k}(Y)=nm_{k}(X);} in particolare

γ 1 ( Y ) = 1 n γ 1 ( X ) . {\displaystyle \gamma _{1}(Y)={\frac {1}{\sqrt {n}}}\gamma _{1}(X).}

Una convinzione sbagliata ma diffusa (e "sostenuta" da alcuni testi che la riportano come regola indicativa) è che il segno del coefficiente γ 1 {\displaystyle \gamma _{1}} possa determinare le posizioni reciproche del valore atteso, della mediana e della moda (se questa è unica) di una distribuzione, in particolare che esse debbano coincidere se γ 1 = 0 {\displaystyle \gamma _{1}=0} .[1]

Indice di Pearson

Alcuni indici di asimmetria alternativi per un campione statistico sono stati proposti da Karl Pearson; coinvolgono la media (il valore atteso), la mediana, la moda e lo scarto quadratico medio (la radice quadrata della varianza):

  • l'asimmetria di moda di Pearson
media moda scarto quadratico medio ; {\displaystyle {\frac {{\text{media}}-{\text{moda}}}{\text{scarto quadratico medio}}};}
  • il primo coefficiente di asimmetria di Pearson
3 ( media moda ) scarto quadratico medio ; {\displaystyle {\frac {3({\text{media}}-{\text{moda}})}{\text{scarto quadratico medio}}};}
  • il secondo coefficiente di asimmetria di Pearson
3 ( media mediana ) scarto quadratico medio . {\displaystyle {\frac {3({\text{media}}-{\text{mediana}})}{\text{scarto quadratico medio}}}.}

Poiché la media e la mediana sono uniche per ogni distribuzione e coincidono per distribuzioni simmetriche, il segno del secondo coefficiente di Pearson dà informazioni sul tipo di asimmetria. Nel caso in cui il segno sia positivo, ossia la media è maggiore della mediana, il picco della distribuzione è spostato verso destra; verso sinistra se il segno è negativo.

Esempio

Un esempio di distribuzione non simmetrica con coefficiente di asimmetria 0 è la distribuzione discreta

P ( 4 ) = 1 3 , P ( 1 ) = 1 2 , P ( 5 ) = 1 6 , {\displaystyle P(-4)={\tfrac {1}{3}},\quad P(1)={\tfrac {1}{2}},\quad P(5)={\tfrac {1}{6}},}

che può essere visualizzata come il lancio di un dado le cui sei facce presentino i numeri "-4, -4, 1, 1, 1, 5".

Questa distribuzione è chiaramente non simmetrica, tuttavia ha valore atteso uguale a 0 (è centrata) e terzo momento centrale uguale a 64 64 + 1 + 1 + 1 + 125 6 = 0 , {\displaystyle {\tfrac {-64-64+1+1+1+125}{6}}=0,} pertanto ha indici di asimmetria γ 1 = β 1 = 0. {\displaystyle \gamma _{1}=\beta _{1}=0.}

Nell'esempio la moda e la mediana non coincidono con la media, ma questo si può ottenere aggiungendo altre 4 "facce" con valore 0; in questo modo anche gli indici di Pearson diventano nulli e la distribuzione resta non simmetrica.

Note

  1. ^ (EN) Paul T. von Hippel, Mean, Median, and Skew: Correcting a Textbook Rule, in Journal of Statistics Education. URL consultato il 6 novembre 2022.

Voci correlate

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file sulla simmetria

Collegamenti esterni

  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica