Distribución normal multivariada

Distribución normal multivariante
Parámetros μ = [ μ 1 , , μ n ] T {\displaystyle \mu =[\mu _{1},\dots ,\mu _{n}]^{T}} (vector real)
Σ {\displaystyle \Sigma } matriz de covarianza (matriz real definida positiva de dimensión n × n {\displaystyle n\times n} )
Dominio x R n {\displaystyle x\in \mathbb {R} ^{n}\!}
Función de densidad (pdf) f X ( x 1 , , x n ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 {\displaystyle f_{X}(x_{1},\dots ,x_{n})={\frac {1}{(2\pi )^{n/2}\left|\Sigma \right|^{1/2}}}}
exp ( 1 2 ( x μ ) Σ 1 ( x μ ) ) {\displaystyle \exp \left(-{\frac {1}{2}}(x-\mu )^{\top }\Sigma ^{-1}(x-\mu )\right)}
Función de distribución (cdf) Sin expresión analítica
Media μ {\displaystyle \mu \,\!}
Mediana μ {\displaystyle \mu \,\!}
Moda μ {\displaystyle \mu \,\!}
Varianza σ 2 {\displaystyle \sigma ^{2}\,\!}
Coeficiente de simetría 0
Curtosis 0
Entropía ln ( ( 2 π e ) n | Σ | ) {\displaystyle \ln \left({\sqrt {(2\,\pi \,e)^{n}\left|\Sigma \right|}}\right)\!}
Función generadora de momentos (mgf) M X ( t ) = exp ( μ t + 1 2 t Σ t ) {\displaystyle M_{X}(t)=\exp \left(\mu ^{\top }t+{\frac {1}{2}}t^{\top }\Sigma t\right)}
Función característica ϕ X ( t ; μ , Σ ) = exp ( i μ t 1 2 t Σ t ) {\displaystyle \phi _{X}(t;\mu ,\Sigma )=\exp \left(i\mu ^{\top }t-{\frac {1}{2}}t^{\top }\Sigma t\right)}
[editar datos en Wikidata]

En probabilidad y estadística, una distribución normal multivariante, también llamada distribución gaussiana multivariante, es una generalización de la distribución normal unidimensional a dimensiones superiores.

Definición

Notación

Si X = [ X 1 , , X n ] T {\displaystyle X=[X_{1},\dots ,X_{n}]^{T}} es un vector aleatorio de dimensión n {\displaystyle n} con distribución normal multivariada entonces escribimos

X   N ( μ , Σ ) {\displaystyle X\ \sim {\mathcal {N}}(\mu ,\Sigma )}

o si queremos decir que X {\displaystyle X} es un vector de dimensión n {\displaystyle n} entonces se usa la notación

X N n ( μ , Σ ) {\displaystyle X\sim {\mathcal {N}}_{n}(\mu ,\Sigma )}

El vector aleatorio X = [ X 1 , , X n ] T {\displaystyle X=[X_{1},\dots ,X_{n}]^{T}} sigue una distribución normal multivariante si satisface las siguientes condiciones equivalentes:

  • Toda combinación lineal Y = a 1 X 1 + + a n X n {\displaystyle Y=a_{1}X_{1}+\cdots +a_{n}X_{n}} está normalmente distribuida.
  • Hay un vector aleatorio Z = [ Z 1 , , Z m ] T {\displaystyle Z=[Z_{1},\dots ,Z_{m}]^{T}} , cuyas componentes son variables aleatorias independientes distribuidas según la normal estándar, un vector μ = [ μ 1 , , μ n ] T {\displaystyle \mu =[\mu _{1},\dots ,\mu _{n}]^{T}} y una matriz n × m {\displaystyle n\times m} A {\displaystyle A} tal que X = A Z + μ {\displaystyle X=AZ+\mu } .
  • Hay un vector μ {\displaystyle \mu } y una matriz semidefinida positiva simétrica Σ {\displaystyle \Sigma } tal que la función característica de X {\displaystyle X} es
ϕ X ( u ; μ , Σ ) = exp ( i μ u 1 2 u Σ u ) . {\displaystyle \phi _{X}\left(u;\mu ,\Sigma \right)=\exp \left(i\mu ^{\top }u-{\frac {1}{2}}u^{\top }\Sigma u\right).}

Si Σ {\displaystyle \Sigma } es una matriz no singular, entonces la distribución puede describirse por la siguiente función de densidad:

f X ( x 1 , , x n ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 exp ( 1 2 ( x μ ) Σ 1 ( x μ ) ) {\displaystyle f_{X}(x_{1},\dots ,x_{n})={\frac {1}{(2\pi )^{n/2}|\Sigma |^{1/2}}}\exp \left(-{\frac {1}{2}}({\mathbf {x}}-{\mathbf {\mu }})^{\top }\Sigma ^{-1}({\mathbf {x}}-{\mathbf {\mu }})\right)}

donde | Σ | {\displaystyle \left|\Sigma \right|} denota el determinante de la matriz Σ {\displaystyle \Sigma } . Nótese cómo la ecuación de arriba se reduce a la distribución normal si Σ {\displaystyle \Sigma } es un escalar (es decir, una matriz 1x1).

El vector μ {\displaystyle \mu } en estas circunstancias es la esperanza de X {\displaystyle X} y la matriz Σ = A A T {\displaystyle \Sigma =AA^{T}} es la matriz de covarianza de las componentes X j {\displaystyle X_{j}} .

Es importante comprender que la matriz de covarianza puede ser singular (aunque no esté así descrita por la fórmula de arriba, para la cual Σ 1 {\displaystyle \Sigma ^{-1}} está definida).

Este caso aparece con frecuencia en estadística; por ejemplo, en la distribución del vector de residuos en problemas ordinarios de regresión lineal. Nótese también que los Xi son en general no independientes; pueden verse como el resultado de aplicar la transformación lineal A {\displaystyle A} a una colección de variables normales Z {\displaystyle Z} .

Función de distribución

Tipo de distribución de probabilidad
X {\displaystyle X}
Y {\displaystyle Y}
p ( X ) {\displaystyle p(X)}
p ( Y ) {\displaystyle p(Y)}
Muchas observaciones de muestras (en negro) se observan a partir de una distribución de probabilidad conjunta. También se muestran las densidades marginales.

La función de distribución F ( x ) {\displaystyle F(x)} se define como la probabilidad de que todos los valores de un vector aleatorio X {\displaystyle X} sean menores o iguales que los valores correspondientes de un vector x {\displaystyle x} . Aunque F {\displaystyle F} no tenga una fórmula, hay una serie de algoritmos que permiten estimarla numéricamente.[1]

Un contraejemplo

El hecho de que dos variables aleatorias X {\displaystyle X} e Y {\displaystyle Y} sigan una distribución normal, cada una, no implica que el par (XY) siga una distribución normal conjunta. Un ejemplo simple se da con X {\displaystyle X} Normal(0,1), Y = X {\displaystyle Y=X} si | X | > 1 {\displaystyle |X|>1} e Y = X {\displaystyle Y=-X} si | X | < 1 {\displaystyle |X|<1} . Esto también es cierto para más de dos variables aleatorias.[2]

Normalmente distribuidas e independencia

Si X {\displaystyle X} y Y {\displaystyle Y} están normalmente distribuidas y son independientes, su distribución conjunta también está normalmente distribuida, es decir, el par (XY) debe tener una distribución normal bivariante. En cualquier caso, un par de variables aleatorias normalmente distribuidas no tienen por qué ser independientes al ser consideradas de forma conjunta.

Caso bivariante

En el caso particular de dos dimensiones, la función de densidad (con media (0, 0) es

f ( x , y ) = 1 2 π σ x σ y 1 ρ 2 exp ( 1 2 ( 1 ρ 2 ) ( x 2 σ x 2 + y 2 σ y 2 2 ρ x y ( σ x σ y ) ) ) {\displaystyle f(x,y)={\frac {1}{2\pi \sigma _{x}\sigma _{y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {x^{2}}{\sigma _{x}^{2}}}+{\frac {y^{2}}{\sigma _{y}^{2}}}-{\frac {2\rho xy}{(\sigma _{x}\sigma _{y})}}\right)\right)}

donde ρ {\displaystyle \rho } es el coeficiente de correlación entre X {\displaystyle X} e Y {\displaystyle Y} . En este caso,

Σ = [ σ x 2 ρ σ x σ y ρ σ x σ y σ y 2 ] . {\displaystyle \Sigma ={\begin{bmatrix}\sigma _{x}^{2}&\rho \sigma _{x}\sigma _{y}\\\rho \sigma _{x}\sigma _{y}&\sigma _{y}^{2}\end{bmatrix}}.}

Transformación afín

Si Y = c + B X {\displaystyle Y=c+BX\,} es una transformación afín de X   N ( μ , Σ ) , {\displaystyle X\ \sim {\mathcal {N}}(\mu ,\Sigma ),} donde c {\displaystyle c\,} es un M × 1 {\displaystyle M\times 1} vector de constantes y B {\displaystyle B\,} una M × N {\displaystyle M\times N} matriz, entonces Y {\displaystyle Y\,} tiene una distribución normal multivariante con esperanza c + B μ {\displaystyle c+B\mu \,} y varianza B Σ B T {\displaystyle B\Sigma B^{T}\,} esto es, Y N ( c + B μ , B Σ B T ) {\displaystyle Y\sim {\mathcal {N}}\left(c+B\mu ,B\Sigma B^{T}\right)} . En particular, cualquier subconjunto de las X i {\displaystyle X_{i}\,} tiene una distribución marginal que es también una normal multivariante.

Para ver esto, considérese el siguiente ejemplo: para extraer el subconjunto ( X 1 , X 2 , X 4 ) T {\displaystyle (X_{1},X_{2},X_{4})^{T}\,} , úsese

B = [ 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 ] {\displaystyle B={\begin{bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}}

lo que extrae directamente los elementos deseados.

Otro corolario sería que la distribución de Z = b X {\displaystyle Z=b\cdot X} , donde b {\displaystyle b} es un vector de la misma longitud que X {\displaystyle X} y el punto indica un producto vectorial, sería una distribución gaussiana unidimensional con Z N ( b μ , b T Σ b ) {\displaystyle Z\sim {\mathcal {N}}\left(b\cdot \mu ,b^{T}\Sigma b\right)} . Este resultado se obtiene usando

B = [ b 1 b 2 b n 0 0 0 0 0 0 ] {\displaystyle B={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\\0&0&\ldots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\ldots &0\end{bmatrix}}}

y considerando sólo la primera componente del producto (la primera fila de B {\displaystyle B} es el vector b {\displaystyle b} ). Obsérvese cómo la definición positiva de Σ {\displaystyle \Sigma } implica que la varianza del producto vectorial debería ser positiva.

Interpretación geométrica

Las curvas de equidensidad de una distribución normal multivariante son elipsoides (es decir, transformaciones lineales de hiperesferas) centrados en la media.[3]​ Las direcciones de los ejes principales de los elipsoides vienen dados por los vectores propios de la matriz de covarianza Σ {\displaystyle \Sigma } . Las longitudes relativas de los cuadrados de los ejes principales vienen dados por los correspondientes vectores propios.

Si Σ = U Λ U T = U Λ 1 / 2 ( U Λ 1 / 2 ) T {\displaystyle \Sigma =U\Lambda U^{T}=U\Lambda ^{1/2}(U\Lambda ^{1/2})^{T}} es una descomposición espectral donde las columnas de U son vectores propios unitarios y Λ {\displaystyle \Lambda } es una matriz diagonal de valores propios, entonces tenemos

X   N ( μ , Σ ) X   μ + U Λ 1 / 2 N ( 0 , I ) X   μ + U N ( 0 , Λ ) . {\displaystyle X\ \sim N(\mu ,\Sigma )\iff X\ \sim \mu +U\Lambda ^{1/2}N(0,I)\iff X\ \sim \mu +UN(0,\Lambda ).}

Además, U puede elegirse de tal modo que sea una matriz de rotación, tal que invirtiendo un eje no tenga ningún efecto en N ( 0 , Λ ) {\displaystyle N(0,\Lambda )} , pero invirtiendo una columna, cambie el signo del determinante de U'. La distribución N ( μ , Σ ) {\displaystyle N(\mu ,\Sigma )} es en efecto N ( 0 , I ) {\displaystyle N(0,I)} escalada por Λ 1 / 2 {\displaystyle \Lambda ^{1/2}} , rotada por U y trasladada por μ {\displaystyle \mu } .

Recíprocamente, cualquier elección de μ {\displaystyle \mu } , matriz de rango completo U, y valores diagonales positivos Λ i {\displaystyle \Lambda _{i}} cede el paso a una distribución normal no singular multivariante. Si cualquier Λ i {\displaystyle \Lambda _{i}} es cero y U es cuadrada, la matriz de covarianza U Λ U T {\displaystyle U\Lambda U^{T}} es una singular. Geométricamente esto significa que cada curva elipsoide es infinitamente delgada y tiene volumen cero en un espacio n-dimensional, así como, al menos, uno de los principales ejes tiene longitud cero.

Correlaciones e independencia

En general, las variables aleatorias pueden ser incorreladas, pero altamente dependientes. Pero si un vector aleatorio tiene una distribución normal multivariante, entonces cualesquiera dos o más de sus componentes que sean incorreladas, son independientes.

Pero no es cierto que dos variables aleatorias que están (separadamente, marginalmente) normalmente distribuidas e incorreladas sean independientes. Dos variables aleatorias que están normalmente distribuidas pueden que no lo estén conjuntamente. Para un ejemplo de dos variables normalmente distribuidas que sean incorreladas pero no independientes, véase normalmente distribuidas e incorreladas no implica independencia.

Momentos más altos

El momento estándar de k-ésimo orden de X se define como

μ 1 , , N ( X )   = d e f   μ r 1 , , r N ( X )   = d e f   E [ j = 1 N X j r j ] {\displaystyle \mu _{1,\dots ,N}(X)\ {\stackrel {\mathrm {def} }{=}}\ \mu _{r_{1},\dots ,r_{N}}(X)\ {\stackrel {\mathrm {def} }{=}}\ E\left[\prod \limits _{j=1}^{N}X_{j}^{r_{j}}\right]}

donde r 1 + r 2 + + r N = k . {\displaystyle r_{1}+r_{2}+\cdots +r_{N}=k.}

Los momentos centrales de orden k viene dados como sigue:

(a) Si k es impar, μ 1 , , N ( X μ ) = 0 {\displaystyle \mu _{1,\dots ,N}(X-\mu )=0} .

(b) Si k es par, con k = 2 λ {\displaystyle k=2\lambda } , entonces

μ 1 , , 2 λ ( X μ ) = ( σ i j σ k σ X Z ) {\displaystyle \mu _{1,\dots ,2\lambda }(X-\mu )=\sum \left(\sigma _{ij}\sigma _{k\ell }\cdots \sigma _{XZ}\right)}

donde la suma se toma sobre todas las disposiciones de conjuntos { 1 , , 2 λ } {\displaystyle \left\{1,\dots ,2\lambda \right\}} en λ {\displaystyle \lambda } parejas (no ordenadas). Esto es, si se tiene un k-ésimo ( = 2 λ = 6 {\displaystyle {}=2\lambda =6} ) momento central, se estarán sumando los productos de λ = 3 {\displaystyle \lambda =3} covarianzas (la notación - μ {\displaystyle \mu } se ha despreciado para facilitar la lectura):

E [ X 1 X 2 X 3 X 4 X 5 X 6 ] = E [ X 1 X 2 ] E [ X 3 X 4 ] E [ X 5 X 6 ] + E [ X 1 X 2 ] E [ X 3 X 5 ] E [ X 4 X 6 ] + E [ X 1 X 2 ] E [ X 3 X 6 ] E [ X 4 X 5 ] + E [ X 1 X 3 ] E [ X 2 X 4 ] E [ X 5 X 6 ] + E [ X 1 X 3 ] E [ X 2 X 5 ] E [ X 4 X 6 ] + E [ X 1 X 3 ] E [ X 2 X 6 ] E [ X 4 X 5 ] + E [ X 1 X 4 ] E [ X 2 X 3 ] E [ X 5 X 6 ] + E [ X 1 X 4 ] E [ X 2 X 5 ] E [ X 3 X 6 ] + E [ X 1 X 4 ] E [ X 2 X 6 ] E [ X 3 X 5 ] + E [ X 1 X 5 ] E [ X 2 X 3 ] E [ X 4 X 6 ] + E [ X 1 X 5 ] E [ X 2 X 4 ] E [ X 3 X 6 ] + E [ X 1 X 5 ] E [ X 2 X 6 ] E [ X 3 X 4 ] + E [ X 1 X 6 ] E [ X 2 X 3 ] E [ X 4 X 5 ] + E [ X 1 X 6 ] E [ X 2 X 4 ] E [ X 3 X 5 ] + E [ X 1 X 6 ] E [ X 2 X 5 ] E [ X 3 X 4 ] . {\displaystyle {\begin{aligned}&{}E[X_{1}X_{2}X_{3}X_{4}X_{5}X_{6}]\\&{}=E[X_{1}X_{2}]E[X_{3}X_{4}]E[X_{5}X_{6}]+E[X_{1}X_{2}]E[X_{3}X_{5}]E[X_{4}X_{6}]+E[X_{1}X_{2}]E[X_{3}X_{6}]E[X_{4}X_{5}]\\&{}+E[X_{1}X_{3}]E[X_{2}X_{4}]E[X_{5}X_{6}]+E[X_{1}X_{3}]E[X_{2}X_{5}]E[X_{4}X_{6}]+E[X_{1}X_{3}]E[X_{2}X_{6}]E[X_{4}X_{5}]\\&+E[X_{1}X_{4}]E[X_{2}X_{3}]E[X_{5}X_{6}]+E[X_{1}X_{4}]E[X_{2}X_{5}]E[X_{3}X_{6}]+E[X_{1}X_{4}]E[X_{2}X_{6}]E[X_{3}X_{5}]\\&+E[X_{1}X_{5}]E[X_{2}X_{3}]E[X_{4}X_{6}]+E[X_{1}X_{5}]E[X_{2}X_{4}]E[X_{3}X_{6}]+E[X_{1}X_{5}]E[X_{2}X_{6}]E[X_{3}X_{4}]\\&+E[X_{1}X_{6}]E[X_{2}X_{3}]E[X_{4}X_{5}]+E[X_{1}X_{6}]E[X_{2}X_{4}]E[X_{3}X_{5}]+E[X_{1}X_{6}]E[X_{2}X_{5}]E[X_{3}X_{4}].\end{aligned}}}

Esto da lugar a ( 2 λ 1 ) ! / ( 2 λ 1 ( λ 1 ) ! ) {\displaystyle (2\lambda -1)!/(2^{\lambda -1}(\lambda -1)!)} términos en la suma (15 en el caso de arriba), cada uno siendo el producto de λ {\displaystyle \lambda } (3 en este caso) covarianzas. Para momentos de cuarto orden (cuatro variables) hay tres términos. Para momentos de sexto orden hay 3 × 5 = 15 términos, y para momentos de octavo orden hay 3 × 5 × 7 = 105 términos.

Las covarianzas son entonces determinadas mediante el reemplazo de los términos de la lista [ 1 , , 2 λ ] {\displaystyle \left[1,\dots ,2\lambda \right]} por los términos correspondientes de la lista que consiste en r 1 {\displaystyle r_{1}} unos, entonces r 2 {\displaystyle r_{2}} doses, etc... Para ilustrar esto, examínese el siguiente caso de momento central de cuarto orden:

E [ X i 4 ] = 3 σ i i 2 {\displaystyle E\left[X_{i}^{4}\right]=3\sigma _{ii}^{2}}
E [ X i 3 X j ] = 3 σ i i σ i j {\displaystyle E\left[X_{i}^{3}X_{j}\right]=3\sigma _{ii}\sigma _{ij}}
E [ X i 2 X j 2 ] = σ i i σ j j + 2 ( σ i j ) 2 {\displaystyle E\left[X_{i}^{2}X_{j}^{2}\right]=\sigma _{ii}\sigma _{jj}+2\left(\sigma _{ij}\right)^{2}}
E [ X i 2 X j X k ] = σ i i σ j k + 2 σ i j σ i k {\displaystyle E\left[X_{i}^{2}X_{j}X_{k}\right]=\sigma _{ii}\sigma _{jk}+2\sigma _{ij}\sigma _{ik}}
E [ X i X j X k X n ] = σ i j σ k n + σ i k σ j n + σ i n σ j k . {\displaystyle E\left[X_{i}X_{j}X_{k}X_{n}\right]=\sigma _{ij}\sigma _{kn}+\sigma _{ik}\sigma _{jn}+\sigma _{in}\sigma _{jk}.}

donde σ i j {\displaystyle \sigma _{ij}} es la covarianza de X i {\displaystyle X_{i}} y X j {\displaystyle X_{j}} . La idea del método de arriba es que primero se encuentra el caso general para el momento k {\displaystyle k} -ésimo, donde se tiene k {\displaystyle k} diferentes variables X {\displaystyle X} - E [ X i X j X k X n ] {\displaystyle E\left[X_{i}X_{j}X_{k}X_{n}\right]} y entonces se pueden simplificar apropiadamente. Si se tiene E [ X i 2 X k X n ] {\displaystyle E\left[X_{i}^{2}X_{k}X_{n}\right]} entonces, simplemente sea X i = X j {\displaystyle X_{i}=X_{j}} y se sigue que σ i i = σ i 2 {\displaystyle \sigma _{ii}=\sigma _{i}^{2}} .

Distribuciones condicionales

Si μ {\displaystyle \mu } y Σ {\displaystyle \Sigma } son divididas como sigue:

μ = [ μ 1 μ 2 ] {\displaystyle \mu ={\begin{bmatrix}\mu _{1}\\\mu _{2}\end{bmatrix}}\quad } con tamaños [ q × 1 ( N q ) × 1 ] {\displaystyle {\begin{bmatrix}q\times 1\\(N-q)\times 1\end{bmatrix}}}
Σ = [ Σ 11 Σ 12 Σ 21 Σ 22 ] {\displaystyle \Sigma ={\begin{bmatrix}\Sigma _{11}&\Sigma _{12}\\\Sigma _{21}&\Sigma _{22}\end{bmatrix}}\quad } con tamaños [ q × q q × ( N q ) ( N q ) × q ( N q ) × ( N q ) ] {\displaystyle {\begin{bmatrix}q\times q&q\times (N-q)\\(N-q)\times q&(N-q)\times (N-q)\end{bmatrix}}}

entonces la distribución de x 1 {\displaystyle x_{1}} condicionada a x 2 = a {\displaystyle x_{2}=a} es una normal multivariante ( X 1 | X 2 = a ) N ( μ ¯ , Σ ¯ ) {\displaystyle (X_{1}|X_{2}=a)\sim N({\bar {\mu }},{\overline {\Sigma }})} donde

μ ¯ = μ 1 + Σ 12 Σ 22 1 ( a μ 2 ) {\displaystyle {\bar {\mu }}=\mu _{1}+\Sigma _{12}\Sigma _{22}^{-1}\left(a-\mu _{2}\right)}

y matriz de covarianza

Σ ¯ = Σ 11 Σ 12 Σ 22 1 Σ 21 . {\displaystyle {\overline {\Sigma }}=\Sigma _{11}-\Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}.}

Esta matriz es el complemento de Schur de Σ 22 {\displaystyle {\mathbf {\Sigma } _{22}}} en Σ {\displaystyle {\mathbf {\Sigma } }} . Esto significa que para calcular la matriz condicional de covarianza, se invierte la matriz global de covarianza, se desprecian las filas y columnas correspondientes a las variables bajo las cuales está condicionada y entonces se invierte de nuevo para conseguir la matriz condicional de covarianza.

Nótese que se sabe que x 2 = a {\displaystyle x_{2}=a} altera la varianza, aunque la nueva varianza no dependa del valor específico de a {\displaystyle a} ; quizás más sorprendentemente, la media se cambia por Σ 12 Σ 22 1 ( a μ 2 ) {\displaystyle \Sigma _{12}\Sigma _{22}^{-1}\left(a-\mu _{2}\right)} ; compárese esto con la situación en la que no se conoce el valor de a {\displaystyle a} , en cuyo caso x 1 {\displaystyle x_{1}} tendría como distribución

N q ( μ 1 , Σ 11 ) {\displaystyle N_{q}\left(\mu _{1},\Sigma _{11}\right)} .

La matriz Σ 12 Σ 22 1 {\displaystyle \Sigma _{12}\Sigma _{22}^{-1}} se conoce como la matriz de coeficientes de regresión.

Esperanza condicional bivariante

En el caso

( X 1 X 2 ) N ( ( 0 0 ) , ( 1 ρ ρ 1 ) ) {\displaystyle {\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1&\rho \\\rho &1\end{pmatrix}}\right)}

entonces

E ( X 1 | X 2 > z ) = ρ ϕ ( z ) Φ ( z ) {\displaystyle E(X_{1}|X_{2}>z)=\rho {\phi (z) \over \Phi (-z)}}

donde esta última razón se llama a menudo razón inversa de Mills.

Matriz de información de Fisher

La matriz de información de Fisher (MIF) para una distribución normal toma una formulación especial. El elemento ( m , n ) {\displaystyle (m,n)} de la MIF para X N ( μ ( θ ) , Σ ( θ ) ) {\displaystyle X\sim N(\mu (\theta ),\Sigma (\theta ))} es

I m , n = μ θ m Σ 1 μ θ n + 1 2 t r ( Σ 1 Σ θ m Σ 1 Σ θ n ) {\displaystyle {\mathcal {I}}_{m,n}={\frac {\partial \mu }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu ^{\top }}{\partial \theta _{n}}}+{\frac {1}{2}}\mathrm {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right)}

donde

  • μ θ m = [ μ 1 θ m μ 2 θ m μ N θ m ] {\displaystyle {\frac {\partial \mu }{\partial \theta _{m}}}={\begin{bmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}}&{\frac {\partial \mu _{2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \mu _{N}}{\partial \theta _{m}}}&\end{bmatrix}}}
  • μ θ m = ( μ θ m ) = [ μ 1 θ m μ 2 θ m μ N θ m ] {\displaystyle {\frac {\partial \mu ^{\top }}{\partial \theta _{m}}}=\left({\frac {\partial \mu }{\partial \theta _{m}}}\right)^{\top }={\begin{bmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}}\\\\{\frac {\partial \mu _{2}}{\partial \theta _{m}}}\\\\\vdots \\\\{\frac {\partial \mu _{N}}{\partial \theta _{m}}}\\\\\end{bmatrix}}}
  • Σ θ m = [ Σ 1 , 1 θ m Σ 1 , 2 θ m Σ 1 , N θ m Σ 2 , 1 θ m Σ 2 , 2 θ m Σ 2 , N θ m Σ N , 1 θ m Σ N , 2 θ m Σ N , N θ m ] {\displaystyle {\frac {\partial \Sigma }{\partial \theta _{m}}}={\begin{bmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\\\{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{bmatrix}}}
  • t r {\displaystyle \mathrm {tr} } es la función traza de una matriz.

Divergencia de Kullback-Leibler

La divergencia de Kullback-Leibler de N 0 N ( μ 0 , Σ 0 ) {\displaystyle N0_{N}(\mu _{0},\Sigma _{0})} a N 1 N ( μ 1 , Σ 1 ) {\displaystyle N1_{N}(\mu _{1},\Sigma _{1})} es:

D KL ( N 0 N 1 ) = 1 2 ( log e ( det Σ 1 det Σ 0 ) + t r ( Σ 1 1 Σ 0 ) + ( μ 1 μ 0 ) Σ 1 1 ( μ 1 μ 0 ) N ) . {\displaystyle D_{\text{KL}}(N0\|N1)={1 \over 2}\left(\log _{e}\left({\det \Sigma _{1} \over \det \Sigma _{0}}\right)+\mathrm {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top }\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-N\right).}

El logaritmo debe tomarse con base e en los dos términos (logaritmos neperianos), siguiendo el logaritmo están los logaritmos neperianos de las expresiones que son ambos factores de la función de densidad o si no, surgen naturalmente. La divergencia de arriba se mide en nats. Dividiendo la expresión de arriba por loge 2 se da paso a la divergencia en bits.

Estimación de parámetros

La derivación del estimador de máxima verosimilitud de la matriz de covarianza de una distribución normal multivariante es, quizás sorprendentemente, sutil y elegante. Véase estimación de matrices de covarianza.

En pocas palabras, la función de densidad de probabilidad de una normal multivariante N-dimensional es

f ( x ) = ( 2 π ) N / 2 det ( Σ ) 1 / 2 exp ( 1 2 ( x μ ) T Σ 1 ( x μ ) ) {\displaystyle f(x)=(2\pi )^{-N/2}\det(\Sigma )^{-1/2}\exp \left(-{1 \over 2}(x-\mu )^{T}\Sigma ^{-1}(x-\mu )\right)}

y el estimador MV de la matriz de covarianza para una muestra de n observaciones es

Σ ^ = 1 n i = 1 n ( X i X ¯ ) ( X i X ¯ ) T {\displaystyle {\widehat {\Sigma }}={1 \over n}\sum _{i=1}^{n}(X_{i}-{\overline {X}})(X_{i}-{\overline {X}})^{T}}

lo cual es, simplemente, la matriz muestral de covarianza. Este es un estimador sesgado cuya esperanza es

E [ Σ ^ ] = n 1 n Σ . {\displaystyle E[{\widehat {\Sigma }}]={n-1 \over n}\Sigma .}

Una covarianza muestral insesgada es

Σ ^ = 1 n 1 i = 1 n ( X i X ¯ ) ( X i X ¯ ) T . {\displaystyle {\widehat {\Sigma }}={1 \over n-1}\sum _{i=1}^{n}(X_{i}-{\overline {X}})(X_{i}-{\overline {X}})^{T}.}

Entropía

La entropía diferencial de la distribución normal multivariante es[4]

h ( f ) = f ( x ) ln f ( x ) d x = 1 2 ( N + N ln ( 2 π ) + ln | Σ | ) = 1 2 ln { ( 2 π e ) N | Σ | } {\displaystyle {\begin{aligned}h\left(f\right)&=-\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f(x)\ln f(x)\,dx\\&={\frac {1}{2}}\left(N+N\ln \left(2\pi \right)+\ln \left|\Sigma \right|\right)\\&={\frac {1}{2}}\ln\{(2\pi e)^{N}\left|\Sigma \right|\}\end{aligned}}}

donde | Σ | {\displaystyle \left|\Sigma \right|} es el determinante de la matriz de covarianza Σ {\displaystyle \Sigma } .

Tests de normalidad multivariante

Los tests de normalidad multivariante comprueban la similitud de un conjunto dado de datos con la distribución normal multivariante. La hipótesis nula es que el conjunto de datos es similar a la distribución normal, por consiguiente un p-valor suficientemente pequeño indica datos no normales. Los tests de normalidad multivariante incluyen el test de Cox-Small[5]​ y la adaptación de Smith y Jain [6]​ del test de Friedman-Rafsky.

Simulando valores de la distribución

Un método ampliamente usado para simular un vector aleatorio X {\displaystyle X} de la distribución normal multivariada N {\displaystyle N} -dimensional con vector de medias μ {\displaystyle \mu } y matriz de covarianza Σ {\displaystyle \Sigma } (requerida para ser simétrica y definida positiva) funciona como sigue:

  1. Se calcula la descomposición de Cholesky de Σ {\displaystyle \Sigma } , esto es, se encuentra la única matriz triangular inferior A {\displaystyle A} tal que A A T = Σ {\displaystyle A\,A^{T}=\Sigma } . Nótese que cualquier otra matriz A {\displaystyle A} que satisfaga esta condición, o sea, que es uno la raíz cuadrada de Σ {\displaystyle \Sigma } , podría usarse, pero a menudo encontrar tal matriz, distinta de la de la descomposición de Cholesky, sería bastante más costoso en términos de computación.
  2. Sea Z = ( z 1 , , z N ) T {\displaystyle Z=(z_{1},\dots ,z_{N})^{T}} un vector cuyas componentes N {\displaystyle N} normales e independientes varían (lo cual puede generarse, por ejemplo, usando el método de Box-Muller.
  3. Sea X = {\displaystyle X=\,} μ + A Z . {\displaystyle \mu +AZ\,.}

Referencias

  1. Véase MVNDST en [1] (incluye código FORTRAN) o [2] (incluye código MATLAB).
  2. Véase también normalmente distribuidas e incorreladas no implica independencia
  3. Nikolaus Hansen. «The CMA Evolution Strategy: A Tutorial» (PDF). Archivado desde el original el 31 de marzo de 2010. Consultado el 7 de enero de 2012. 
  4. Gokhale, DV; NA Ahmed, BC Res, NJ Piscataway (mayo de 1989). «Entropy Expressions and Their Estimators for Multivariate Distributions». Information Theory, IEEE Transactions on 35 (3): 688-692. doi:10.1109/18.30996.  La referencia utiliza el parámetro obsoleto |coautores= (ayuda)
  5. Cox, D. R.; N. J. H. Small (agosto de 1978). «Testing multivariate normality». Biometrika 65 (2): 263-272. doi:10.1093/biomet/65.2.263.  La referencia utiliza el parámetro obsoleto |coautores= (ayuda)
  6. Smith, Stephen P.; Anil K. Jain (septiembre de 1988). «A test to determine the multivariate normality of a dataset». IEEE Transactions on Pattern Analysis and Machine Intelligence 10 (5): 757-761. doi:10.1109/34.6789.  La referencia utiliza el parámetro obsoleto |coautores= (ayuda)


Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q1149000
  • Identificadores
  • GND: 4227589-1
  • Wd Datos: Q1149000