Vector aleatori

En Probabilitat i Estadística, molt sovint al resultat que s'obté en un experiment aleatori o un estudi estadístic se li associem diversos nombres; per exemple, triem una persona a l'atzar i en mesurem el pes i l'alçada: tenim així dues mesures, X 1 {\displaystyle X_{1}} i X 2 {\displaystyle X_{2}} , que considerades conjuntament ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} constitueixen un vector aleatori. Formalment, un vector aleatori d {\displaystyle d} -dimensional és un vector X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} tal que cada component X i ,   i = 1 , , d {\displaystyle X_{i},\ i=1,\dots ,d} , és una variable aleatòria.

Definició

Nota. A la secció Exemples al final de l'article hi ha desenvolupats dos exemples amb vectors aleatoris bidimensionals que poden ser útils a les persones que prefereixin començar analitzant casos concrets.


Considerem un espai de probabilitat ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},P)} . Un vector aleatori d {\displaystyle d} -dimensional [1] és una aplicació X = ( X 1 , , X d ) : Ω R d {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d}):\Omega \to \mathbb {R} ^{d}} tal que cada component X i ,   i = 1 , , d {\displaystyle X_{i},\ i=1,\dots ,d} és una variable aleatòria. També s'anomena variable aleatòria d {\displaystyle d} -dimensional.

Comentaris sobre les notacions.

  1. Hem escrit el vector en fila,[1] però en Estadística multivariant és molt freqüent escriure els vectors en columna,[2] ja que es fan moltes operacions amb matrius i és més convenient seguir les normes estàndard de l'àlgebra lineal. En aquest article escriurem els vectors en fila, excepte a les seccions dedicades a l'esperança d'un vector aleatori i a la matriu de variàncies-covariàncies, i als exemples que tractem de lleis normals multidimensionals.
  2. Per alleugerir les fórmules, s'utilitzen 'comes' com a interseccions; així, donats uns conjunts A 1 , , A d {\displaystyle A_{1},\dots ,A_{d}} de R {\displaystyle \mathbb {R} } ,
    P ( X 1 A 1 , , X d A d ) = P ( { X 1 A 1 } { X d A d } ) . {\displaystyle P(X_{1}\in A_{1},\dots ,X_{d}\in A_{d})=P{\big (}\{X_{1}\in A_{1}\}\cap \cdots \cap \{X_{d}\in A_{d}\}{\big )}.}
    O bé, en el cas discret que veurem a continuació, per x 1 , , x d R {\displaystyle x_{1},\dots ,x_{d}\in \mathbb {R} } s'escriu
    P ( ( X 1 , , X d ) = ( x 1 , , x d ) ) = P ( X 1 = x 1 , , X d = x d ) = P ( { X 1 = x 1 } { X d = x d } ) . {\displaystyle P{\big (}(X_{1},\dots ,X_{d})=(x_{1},\dots ,x_{d}){\big )}=P{\big (}X_{1}=x_{1},\dots ,X_{d}=x_{d}{\big )}=P{\big (}\{X_{1}=x_{1}\}\cap \cdots \cap \{X_{d}=x_{d}\}{\big )}.}

Vectors aleatoris discrets

Un vector aleatori X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} es diu que es discret si només pot prendre un nombre finit o numerable de valors; en altres paraules, si existeix un conjunt finit o infinit numerable S R d {\displaystyle S\subset \mathbb {R} ^{d}} tal que P ( X S ) = 1 {\displaystyle P({\boldsymbol {X}}\in S)=1} .

S'anomena funció de probabilitat (a vegades s'afegeix conjunta) del vector o funció de repartiment de massa a la funció

p X ( x 1 , , x d ) = P ( X 1 = x 1 , , X d = x d ) , ( x 1 , , , x d ) S . {\displaystyle p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})=P(X_{1}=x_{1},\dots ,X_{d}=x_{d}),\quad (x_{1},\dots ,,x_{d})\in S.}

Les distribucions de probabilitat de cadascuna de les components dels vector, X 1 , , X d {\displaystyle X_{1},\dots ,X_{d}} , o dels vectors ( X i 1 , , X i r ) {\displaystyle (X_{i_{1}},\dots ,X_{i_{r}})} , 1 i 1 < < i r d {\displaystyle 1\leq i_{1}<\cdots <i_{r}\leq d} , 1 r d 1 {\displaystyle 1\leq r\leq d-1} , s'anomenen distribucions marginals.

A partir de la funció de probabilitat del vector podem calcular totes les distribucions marginals sumant respecte les altres components: per exemple, per simplificar la notació, la funció de probabilitat de ( X 1 , , X r ) {\displaystyle (X_{1},\dots ,X_{r})} , on r d 1 {\displaystyle r\leq d-1} , és

p ( X 1 , , X r ) ( x 1 , , x r ) = x r + 1 , , x d p X ( x 1 , , x d ) . {\displaystyle p_{(X_{1},\dots ,X_{r})}(x_{1},\dots ,x_{r})=\sum _{x_{r+1},\dots ,x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}).}

Exemple: Distribució multinomial

Considerem un experiment que pot tenir d {\displaystyle d} resultats diferents, que designarem per R 1 , , R d {\displaystyle R_{1},\dots ,R_{d}} , amb probabilitats p 1 , , p d ( 0 , 1 ) {\displaystyle p_{1},\dots ,p_{d}\in (0,1)} , p 1 + + p d = 1 {\displaystyle p_{1}+\cdots +p_{d}=1} . Fem n {\displaystyle n} repeticions independents i denotem per X 1 {\displaystyle X_{1}} el nombre de vegades que obtenim el resultat R 1 {\displaystyle R_{1}} , per X 2 {\displaystyle X_{2}} el nombre de vegades que obtenim el resultat R 2 {\displaystyle R_{2}} , i així successivament. Aleshores la probabilitat d'obtenir x 1 {\displaystyle x_{1}} vegades el resultat R 1 {\displaystyle R_{1}} , x 2 {\displaystyle x_{2}} vegades el resultat R 2 {\displaystyle R_{2}} , etc. amb x 1 + + x d = n {\displaystyle x_{1}+\cdots +x_{d}=n} és

p ( X 1 , , X d ) ( x 1 , , x d ) = P ( X 1 = x 1 , , X d = x d ) = n ! x 1 ! x d ! p 1 x 1 p d x d . {\displaystyle p_{(X_{1},\dots ,X_{d})}(x_{1},\dots ,x_{d})=P(X_{1}=x_{1},\dots ,X_{d}=x_{d})={\frac {n!}{x_{1}!\cdots x_{d}!}}\,p_{1}^{x_{1}}\cdots p_{d}^{x_{d}}.}

Es diu que el vector X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} segueix una distribució multinomial [3] de paràmetres n , p 1 , , p d {\displaystyle n,p_{1},\dots ,p_{d}} , i s'escriu X M ( n ; p 1 , , p d ) {\displaystyle {\boldsymbol {X}}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})} . Cal notar que cada component X i {\displaystyle X_{i}} té una distribució binomial de paràmetres n {\displaystyle n} i p i {\displaystyle p_{i}} , X i B ( n , p i ) {\displaystyle X_{i}\sim B(n,p_{i})} . De fet, una distribució multinomial és una extensió de la distribució binomial quan hi ha més de dos resultats possibles.

Per exemple, tenim una urna amb 4 boles blanques, 3 vermelles i 3 grogues. Traiem n = 4 {\displaystyle n=4} boles amb reemplaçament, és a dir, traiem una bola, anotem el color, la retornem a l'urna, en traiem una altra, etc. Designem per:

X 1 {\displaystyle X_{1}} : nombre de boles blanques que traiem.
X 2 {\displaystyle X_{2}} : nombre de boles vermelles que traiem.
X 3 {\displaystyle X_{3}} : el nombre de boles grogues que traiem.

Aquí, p 1 = 0 4 {\displaystyle p_{1}=0'4} , p 2 = 0 3 {\displaystyle p_{2}=0'3} i p 3 = 0 3 {\displaystyle p_{3}=0'3} . Llavors, la probabilitat de treure 1 bola blanca, 1 vermella i 2 grogues és

p ( X 1 , X 2 , X 3 ) ( 1 , 1 , 2 ) = P ( X 1 = 1 , X 2 = 1 , X 3 = 2 ) = 4 ! 1 ! 1 ! 2 ! 0 4 1 0 3 1 0 3 2 = 0 1296. {\displaystyle p_{(X_{1},X_{2},X_{3})}(1,1,2)=P(X_{1}=1,X_{2}=1,X_{3}=2)={\frac {4!}{1!\,1!\,2!}}\,0'4^{1}\,0'3^{1}\,0'3^{2}=0'1296.}
A partir d'aquí, podem calcular, per exemple, la distribució marginal del vector aleatori ( X 1 , X 3 ) {\displaystyle (X_{1},X_{3})} o la de la variable aleatòria X 3 {\displaystyle X_{3}}

Vectors aleatoris absolutament continus o amb funció de densitat

Es diu que un vector aleatori X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} és absolutament continu, o senzillament continu, si existeix una funció f X : R d R {\displaystyle f_{\boldsymbol {X}}:\mathbb {R} ^{d}\to \mathbb {R} } , anomenada funció de densitat (conjunta), que compleix

1. f ( x 1 , , x d ) 0 ,     ( x 1 , , x d ) R d . {\displaystyle f(x_{1},\dots ,x_{d})\geq 0,\ \ \forall (x_{1},\dots ,x_{d})\in \mathbb {R} ^{d}.}
2.
f X ( x 1 , , x d ) d x 1 d x d = 1. {\displaystyle \int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}=1.}
3. Per a qualsevol B R d {\displaystyle B\subset \mathbb {R} ^{d}} (en rigor B {\displaystyle B} ha de ser un conjunt de Borel de R d {\displaystyle \mathbb {R} ^{d}} ), tenim
P ( ( X 1 , , X d ) B ) = B f X ( x 1 , , x d ) d x 1 d x d . {\displaystyle P{\big (}(X_{1},\dots ,X_{d})\in B{\big )}=\int \cdots \int _{B}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}.}
En particular, si a 1 < b 1 , , a d < b d {\displaystyle -\infty \leq a_{1}<b_{1}\leq \infty ,\dots ,-\infty \leq a_{d}<b_{d}\leq \infty } , tenim

P ( ( X 1 , , X d ) ( a 1 , b 1 ) × × ( a d , b d ) ) = a 1 b 1 a d b d f X ( x 1 , , x d ) d x 1 d x d . {\displaystyle P{\big (}(X_{1},\dots ,X_{d})\in (a_{1},b_{1})\times \cdots \times (a_{d},b_{d}){\big )}=\int _{a_{1}}^{b_{1}}\cdots \int _{a_{d}}^{b_{d}}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}.}
A partir de la funció de densitat conjunta pot calcular-se la funció de densitat de qualsevol vector ( X i 1 , , X i r ) {\displaystyle (X_{i_{1}},\dots ,X_{i_{r}})} , 1 i 1 < < i r d {\displaystyle 1\leq i_{1}<\cdots <i_{r}\leq d} , 1 r d 1 {\displaystyle 1\leq r\leq d-1} , que s'anomena la densitat marginal; per exemple, la densitat marginal de ( X 1 , , X r ) {\displaystyle (X_{1},\dots ,X_{r})} , amb 1 r d 1 {\displaystyle 1\leq r\leq d-1} és

f ( X 1 , , X r ) ( x 1 , , x r ) = d r   integrals f X ( x 1 , , x d ) d x r + 1 d x d . {\displaystyle f_{(X_{1},\dots ,X_{r})}(x_{1},\dots ,x_{r})=\underbrace {\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }} _{d-r\ {\text{integrals}}}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{r+1}\cdots dx_{d}.}


Exemple: distribució normal multidimensional

Un vector aleatori d {\displaystyle d} -dimensional amb funció de densitat

f ( x 1 , , x d ) = 1 ( 2 π ) d / 2 e ( x 1 2 + + x d 2 ) / 2 , x 1 , , x d R , {\displaystyle f(x_{1},\dots ,x_{d})={\frac {1}{(2\pi )^{d/2}}}\,e^{-(x_{1}^{2}+\cdots +x_{d}^{2})/2},\quad x_{1},\dots ,x_{d}\in \mathbb {R} ,}
es diu que té una llei normal multidimensional o multivariada, N d ( 0 , I d ) {\displaystyle {\mathcal {N}}_{d}({\boldsymbol {0}},{\boldsymbol {I}}_{d})} on I d {\displaystyle {\boldsymbol {I}}_{d}} és la matriu identitat. Cada component del vector té una distribució normal estàndard N ( 0 , 1 ) {\displaystyle {\mathcal {N}}(0,1)} .

Vegeu els vectors aleatoris normals multidimensionals generals N d ( μ , Σ ) {\displaystyle {\mathcal {N}}_{d}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} als exemples de la secció Funcions d'un vector aleatori amb densitat.

Funcions de distribució multidimensional

La funció de distribució d'un vector aleatori[1] X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} és la funció F : R d [ 0 , 1 ] {\displaystyle F:\mathbb {R} ^{d}\to [0,1]} definida per

F ( x 1 , , x d ) = P ( X 1 x 1 , , X d x d ) . {\displaystyle F(x_{1},\dots ,x_{d})=P(X_{1}\leq x_{1},\dots ,\leq X_{d}\leq x_{d}).}

Si el vector aleatori X {\displaystyle {\boldsymbol {X}}} té funció de densitat f {\displaystyle f} , aleshores la funció de distribució del vector és

F ( x 1 , , x d ) = x 1 x d f ( t 1 , , t d ) d t 1 d t d . {\displaystyle F(x_{1},\dots ,x_{d})=\int _{-\infty }^{x_{1}}\cdots \int _{-\infty }^{x_{d}}f(t_{1},\dots ,t_{d})\,dt_{1}\cdots dt_{d}.}

Si la funció de densitat f {\displaystyle f} és contínua en el punt ( x 1 , , x d ) {\displaystyle (x_{1},\dots ,x_{d})} , aleshores [4]

f ( x 1 , , x d ) = d F ( x 1 , , x d ) x 1 x d . {\displaystyle f(x_{1},\dots ,x_{d})={\frac {\partial ^{d}F(x_{1},\dots ,x_{d})}{\partial x_{1}\cdots \partial x_{d}}}.}

Variables aleatòries independents

Recordem que es diu que les variables aleatòries X 1 , , X k {\displaystyle X_{1},\dots ,X_{k}} són independents si per a qualsevol conjunts B 1 , , B k R {\displaystyle B_{1},\dots ,B_{k}\subset \mathbb {R} } (en rigor, conjunts de Borel de R {\displaystyle \mathbb {R} } ),

P ( X 1 B 1 , , X k B k ) = P ( X 1 B 1 ) P ( X k B k ) . {\displaystyle P(X_{1}\in B_{1},\dots ,X_{k}\in B_{k})=P(X_{1}\in B_{1})\cdots P(X_{k}\in B_{k}).}


Designem per F ( X 1 , , X k ) {\displaystyle F_{(X_{1},\dots ,X_{k})}} la funció de distribució del vector ( X 1 , , X k ) {\displaystyle (X_{1},\dots ,X_{k})} , i per F X 1 , , F X k {\displaystyle F_{X_{1}},\dots ,F_{X_{k}}} les funcions de distribució de les variables aleatòries X 1 , , X k {\displaystyle X_{1},\dots ,X_{k}} (marginals). Aleshores X 1 , , X k {\displaystyle X_{1},\dots ,X_{k}} són independents si i només si

F ( X 1 , , X k ) ( x 1 , , x k ) = F X 1 ( x 1 ) F X k ( x k ) ,   ( x 1 , , x k ) R k . {\displaystyle F_{(X_{1},\dots ,X_{k})}(x_{1},\dots ,x_{k})=F_{X_{1}}(x_{1})\cdots F_{X_{k}}(x_{k}),\ \forall (x_{1},\dots ,x_{k})\in \mathbb {R} ^{k}.}


En el cas discret la independència equival a que la funció de probabilitat conjunta sigui igual al producte de marginals: X 1 , , X k {\displaystyle X_{1},\dots ,X_{k}} són independents si i només si

p ( X 1 , , X k ) ( x 1 , , x k ) = p X 1 ( x 1 ) p X k ( x k ) ,   ( x 1 , , x k ) S . {\displaystyle p_{(X_{1},\dots ,X_{k})}(x_{1},\dots ,x_{k})=p_{X_{1}}(x_{1})\cdots p_{X_{k}}(x_{k}),\ \forall (x_{1},\dots ,x_{k})\in S.}


En el cas absolutament continu, la propietat d'independència equival a que la densitat conjunta sigui igual al producte de marginals: X 1 , , X k {\displaystyle X_{1},\dots ,X_{k}} són independents si i només si

f ( X 1 , , X k ) ( x 1 , , x k ) = f X 1 ( x 1 ) f X k ( x k ) ,   ( x 1 , , x k ) R k . {\displaystyle f_{(X_{1},\dots ,X_{k})}(x_{1},\dots ,x_{k})=f_{X_{1}}(x_{1})\cdots f_{X_{k}}(x_{k}),\ \forall (x_{1},\dots ,x_{k})\in \mathbb {R} ^{k}.}

Per exemple, en el cas de la distribució normal multidimensional que hem comentat, les distribucions marginals de les diferents components són lleis normals estàndard: tenim que per a j = 1 , , d {\displaystyle j=1,\dots ,d} ,

f X j ( x ) = 1 2 π e x 2 / 2 ,   x R . {\displaystyle f_{X_{j}}(x)={\frac {1}{\sqrt {2\pi }}}\,e^{-x^{2}/2},\ x\in \mathbb {R} .}
Llavors és clar que es compleix la condició anterior i, per tant, les variables X 1 , , X d {\displaystyle X_{1},\dots ,X_{d}} són independents.

Vectors aleatoris independents

Considerem k {\displaystyle k} vectors aleatoris, que poden ser de dimensions diferents: X 1 = ( X 11 , , X 1 j 1 ) , , X k = ( X k 1 , , X k j k ) {\displaystyle {\boldsymbol {X}}_{1}=(X_{11},\dots ,X_{1j_{1}}),\dots ,{\boldsymbol {X}}_{k}=(X_{k1},\dots ,X_{kj_{k}})} . Es diu que són independents si per qualsevol B 1 B ( R j 1 ) , , B k B ( R j k ) {\displaystyle B_{1}\in {\mathcal {B}}(\mathbb {R} ^{j_{1}}),\dots ,B_{k}\subset {\mathcal {B}}(\mathbb {R} ^{j_{k}})} , on B ( R r ) {\displaystyle {\mathcal {B}}(\mathbb {R} ^{r})} és la σ {\displaystyle \sigma } -àlgebra de Borel sobre R r {\displaystyle \mathbb {R} ^{r}} ,

P ( X 1 B 1 , , X k B k ) = P ( X 1 B 1 ) P ( X k B k ) . {\displaystyle P({\boldsymbol {X}}_{1}\in B_{1},\dots ,{\boldsymbol {X}}_{k}\in B_{k})=P({\boldsymbol {X}}_{1}\in B_{1})\cdots P({\boldsymbol {X}}_{k}\in B_{k}).}
Les caracteritzacions de la independència de variables aleatòries en els casos discret i continus es trasllada al cas de vectors aleatoris.

Esperança d'una funció d'un vector aleatori

Sigui X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} un vector aleatori i h : R d R {\displaystyle h:\mathbb {R} ^{d}\to \mathbb {R} } una funció (mesurable), tenim que h ( X ) {\displaystyle h({\boldsymbol {X}})} és una variable aleatòria de la qual podrem calcular l'esperança quan E [ | h ( X ) ] < {\displaystyle E[\vert h({\boldsymbol {X}})]<\infty } . Si X {\displaystyle {\boldsymbol {X}}} és discret, aleshores

E [ h ( X ) ] = x 1 , , x d h ( x 1 , , x d ) p X ( x 1 , , x d ) , {\displaystyle E{\big [}h({\boldsymbol {X}}){\big ]}=\sum _{x_{1},\dots ,x_{d}}h(x_{1},\dots ,x_{d})\,p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}),}
sempre que
x 1 , , x d | h ( x 1 , , x d ) | p X ( x 1 , , x d ) < . {\displaystyle \sum _{x_{1},\dots ,x_{d}}\vert h(x_{1},\dots ,x_{d})\vert \,p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})<\infty .}
Si X {\displaystyle {\boldsymbol {X}}} és absolutament continu, aleshores
E [ h ( X ) ] = h ( x 1 , , x d ) f X ( x 1 , , x d ) d x 1 d x d , {\displaystyle E{\big [}h({\boldsymbol {X}})]=\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }h(x_{1},\dots ,x_{d})\,f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d},}
sempre que
| h ( x 1 , , x d ) | f X ( x 1 , , x d ) d x 1 d x p < . {\displaystyle \int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }\vert h(x_{1},\dots ,x_{d})\vert \,f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{p}<\infty .}
Naturalment, si tenim una funció h : R r R {\displaystyle h:\mathbb {R} ^{r}\to \mathbb {R} } que només fa intervenir una part de X {\displaystyle {\boldsymbol {X}}} , posem ( X i 1 , , X i r ) {\displaystyle (X_{i_{1}},\dots ,X_{i_{r}})} , amb, 1 i 1 < < i r r {\displaystyle 1\leq i_{1}<\cdots <i_{r}\leq r} , 1 r d 1 {\displaystyle 1\leq r\leq d-1} , aleshores l'esperança de h ( X i 1 , , X i r ) {\displaystyle h(X_{i_{1}},\dots ,X_{i_{r}})} es calcula utilitzant la distribució marginal d'aquest vector.

Moments d'un vector aleatori

Considerem un vector aleatori X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} i siguin n 1 0 , , n d 0 {\displaystyle n_{1}\geq 0,\dots ,n_{d}\geq 0} . Es diu que X {\displaystyle {\boldsymbol {X}}} moment d'ordre ( n 1 , , n d ) {\displaystyle (n_{1},\dots ,n_{d})} si E [ | X 1 n 1 X d n d | ] < {\displaystyle E{\big [}{\big \vert }X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big \vert }{\big ]}<\infty } , i, en aquest cas, es defineix el moment d'ordre ( n 1 , , n d ) {\displaystyle (n_{1},\dots ,n_{d})} (alguns autors diuen moment mixt)[5] per

m n 1 , , n d = E [ X 1 n 1 X d n d ] . {\displaystyle m_{n_{1},\dots ,n_{d}}=E{\big [}X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big ]}.}
D'acord amb les fórmules que hem vist abans, si el vector és discret, aleshores
E [ X 1 n 1 X d n d ] = x 1 , , x d S x 1 n 1 x d n d p X ( x 1 , , x d ) . {\displaystyle E{\big [}X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big ]}=\sum _{x_{1},\dots ,x_{d}\in S}x_{1}^{n_{1}}\cdots x_{d}^{n_{d}}\,p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}).}
Si el vector aleatori és absolutament continu,
E [ X 1 n 1 X d n d ] = x 1 n 1 x d n d f X ( x 1 , , x d ) d x 1 d x d . {\displaystyle E{\big [}X_{1}^{n_{1}}\cdots X_{d}^{n_{d}}{\big ]}=\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }x_{1}^{n_{1}}\cdots x_{d}^{n_{d}}\,f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d}.}
Tenim la següent propietat: Si E [ | X j | m ] < , p e r a   j = 1 , , d {\displaystyle E[\vert X_{j}\vert ^{m}]<\infty ,pera\ j=1,\dots ,d} , aleshores per a n 1 0 , , n d 0 ,   n 1 + + n d m {\displaystyle n_{1}\geq 0,\dots ,n_{d}\geq 0,\ n_{1}+\cdots +n_{d}\leq m} , tenim que X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} té moment d'ordre ( n 1 , , n d ) {\displaystyle (n_{1},\dots ,n_{d})} .[6]

Vegeu els moments factorials en la secció de la funció generatriu de probabilitats.

Esperança d'un vector aleatori

Totes les propietats d'aquesta secció i la següent es troben demostrades a Seber.[7] Atès que farem operacions matricials, en aquesta secció i la següent escriurem tots els vectors en columna; en particular, escriurem en columna els elements de R d {\displaystyle \mathbb {R} ^{d}} . Donada una matriu (o vector) U {\displaystyle {\boldsymbol {U}}} designarem per U {\displaystyle {\boldsymbol {U}}'} la seva transposada. Considerem un vector aleatori X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'} tal que totes les seves components tinguin esperança. Aleshores es defineix l'esperança de X {\displaystyle {\boldsymbol {X}}} per

E [ X ] = ( E [ X 1 ] , , E [ X d ] ) . {\displaystyle E[{\boldsymbol {X}}]={\big (}E[X_{1}],\dots ,E[X_{d}]{\big )}'.}


Propietats

  1. Si a = ( a 1 , , a d ) R d {\displaystyle {\boldsymbol {a}}=(a_{1},\dots ,a_{d})'\in \mathbb {R} ^{d}} , aleshores E [ a ] = a . {\displaystyle E[{\boldsymbol {a}}]={\boldsymbol {a}}.}
  2. Siguin X {\displaystyle {\boldsymbol {X}}} i Y {\displaystyle {\boldsymbol {Y}}} dos vectors aleatoris d {\displaystyle d} -dimensionals amb esperances finites, i A {\displaystyle {\boldsymbol {A}}} i B {\displaystyle {\boldsymbol {B}}} dues matrius d'ordre k × d {\displaystyle k\times d} . Aleshores
    E [ A X + B Y ] = A E [ X ] + B E [ Y ] . {\displaystyle E[{\boldsymbol {AX}}+{\boldsymbol {BY}}]={\boldsymbol {A}}\,E[{\boldsymbol {X}}]+{\boldsymbol {B}}\,E[{\boldsymbol {Y}}].}

Matriu de variàncies-covariàncies

Continuem escrivint tots els vectors en columna. Si totes les components del vector X {\displaystyle {\boldsymbol {X}}} tenen variància, aleshores es defineix la seva matriu de variàncies-covariàncies o matriu de dispersió:

V ( X ) = ( Var ( X 1 ) Cov ( X 1 , X 2 ) Cov ( X 1 , X d ) Cov ( X 2 , X 1 ) Var ( X 2 ) Cov ( X 2 , X d ) Cov ( X d , X 1 ) Cov ( X d , X 2 ) Var ( X d ) ) {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\begin{pmatrix}{\text{Var}}(X_{1})&{\text{Cov}}(X_{1},X_{2})&\cdots &{\text{Cov}}(X_{1},X_{d})\\{\text{Cov}}(X_{2},X_{1})&{\text{Var}}(X_{2})&\cdots &{\text{Cov}}(X_{2},X_{d})\\\vdots &\vdots &&\vdots \\{\text{Cov}}(X_{d},X_{1})&{\text{Cov}}(X_{d},X_{2})&\cdots &{\text{Var}}(X_{d})\end{pmatrix}}}
Atès que Var ( X j ) = Cov ( X j , X j ) {\displaystyle {\text{Var}}(X_{j})={\text{Cov}}(X_{j},X_{j})} , aquesta matriu també s'escriu
V ( X ) = ( Cov ( X i , X j ) ) i = 1 , , d j = 1 , , d {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\big (}{\text{Cov}}(X_{i},X_{j}){\big )}_{i=1,\dots ,d \atop j=1,\dots ,d}}

Propietats

1. Donat que Cov ( X i , X j ) = Cov ( X j , X i ) {\displaystyle {\text{Cov}}(X_{i},X_{j})={\text{Cov}}(X_{j},X_{i})} , la matriu V ( X ) {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})} es simètrica.
2. La matriu V ( X ) {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})} és semidefinida positiva, ja que per qualsevol x = ( x 1 , , x d ) R d {\displaystyle {\boldsymbol {x}}=(x_{1},\dots ,x_{d})'\in \mathbb {R} ^{d}} ,

x V ( X ) x = i , j = 1 d x i x j Cov ( X i , X j ) = Var ( i = 1 d X i ) 0. {\displaystyle {\boldsymbol {x}}{\boldsymbol {V}}({\boldsymbol {X}}){\boldsymbol {x}}'=\sum _{i,j=1}^{d}x_{i}x_{j}{\text{Cov}}(X_{i},X_{j})={\text{Var}}(\sum _{i=1}^{d}X_{i})\geq 0.}
A més, el determinant de la matriu V ( X ) {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})} és 0 si i només si hi ha una relació lineal entre les variables X 1 , , X d {\displaystyle X_{1},\dots ,X_{d}} , això és, existeixen escalars λ 1 , , λ d + 1 R {\displaystyle \lambda _{1},\dots ,\lambda _{d+1}\in \mathbb {R} } , no tots nuls, tals que
λ 1 X 1 + + λ d X d = λ d + 1 , q.s. {\displaystyle \lambda _{1}X_{1}+\cdots +\lambda _{d}X_{d}=\lambda _{d+1},\quad {\text{q.s.}}}

3. Si X {\displaystyle {\boldsymbol {X}}} és un vector d {\displaystyle d} -dimensional, A {\displaystyle {\boldsymbol {A}}} una matriu k × d {\displaystyle k\times d} i b R k {\displaystyle {\boldsymbol {b}}\in \mathbb {R} ^{k}} , aleshores
V ( A X + b ) = A V ( X ) A . {\displaystyle {\boldsymbol {V}}({\boldsymbol {AX}}+{\boldsymbol {b}})={\boldsymbol {A}}\,{\boldsymbol {V}}({\boldsymbol {X}}){\boldsymbol {A}}'.}

Exemples

1. Sigui X = ( X 1 , , X d ) M ( n ; p 1 , , p d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})} . Aleshores, donat que cada component X j {\displaystyle X_{j}} té una distribució binomial B ( n , p j ) {\displaystyle B(n,p_{j})} ,

E [ X ] = ( n p 1 , , n p d ) . {\displaystyle E[{\boldsymbol {X}}]=(np_{1},\dots ,np_{d})'.}
També tenim que Var ( X j ) = n p j ( 1 p j ) . {\displaystyle {\text{Var}}(X_{j})=np_{j}(1-p_{j}).} Per calcular les covariàncies cal utilitzar la marginal de ( X i , X j ) {\displaystyle (X_{i},X_{j})} i s'obté que
Cov ( X i , X j ) = n p i p j , i j . {\displaystyle {\text{Cov}}(X_{i},X_{j})=-np_{i}p_{j},\quad i\neq j.}
(vegeu els exemples de la secció Funció característica). Així,
V ( X ) = ( n p 1 ( 1 p 1 ) n p 1 p 2 n p 1 p d n p 1 p 2 n p 2 ( 1 p 2 ) n p 2 p d n p 1 p d n p 2 p d n p d ( 1 p d ) ) {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\begin{pmatrix}np_{1}(1-p_{1})&-np_{1}p_{2}&\cdots &-np_{1}p_{d}\\-np_{1}p_{2}&np_{2}(1-p_{2})&\cdots &-np_{2}p_{d}\\\vdots &\vdots &\ddots &\vdots \\-np_{1}p_{d}&-np_{2}p_{d}&\cdots &np_{d}(1-p_{d})\end{pmatrix}}}

2. En el cas del vector normal multidimensional E [ X ] = 0 {\displaystyle E[{\boldsymbol {X}}]={\boldsymbol {0}}} . D'altra banda, Var ( X j ) = 1 {\displaystyle {\text{Var}}(X_{j})=1} i, atès que les variables són independents, Cov ( X i , X j ) = 0 , i j {\displaystyle {\text{Cov}}(X_{i},X_{j})=0,\quad i\neq j} . Llavors V ( X ) = I d . {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})={\boldsymbol {I}}_{d}.}

Ampliació: Matriu de covariàncies entre dos vectors

En el que segueix és convenient introduir les matrius aleatòries que són matrius tals que les seves components són variables aleatòries. Sigui Z {\displaystyle {\boldsymbol {Z}}} una d'aquestes matrius, de dimensions n × m {\displaystyle n\times m} :

Z = ( Z i j ) i = 1 , , n j = 1 , , m . {\displaystyle {\boldsymbol {Z}}={\big (}Z_{ij}{\big )}_{i=1,\dots ,n \atop j=1,\dots ,m}.}
S'anomena esperança de la matriu aleatòria Z {\displaystyle {\boldsymbol {Z}}} a la matriu
E [ Z ] = ( E [ Z i j ] ) i = 1 , , n j = 1 , , m . {\displaystyle {\boldsymbol {E}}[Z]={\big (}E[Z_{ij}]{\big )}_{i=1,\dots ,n \atop j=1,\dots ,m}.}
Sigui X {\displaystyle {\boldsymbol {X}}} un vector aleatori d {\displaystyle d} -dimensional i Y {\displaystyle {\boldsymbol {Y}}} un vector aleatori k {\displaystyle k} -dimensional ambdós amb moments de segon ordre. S'anomena matriu de covariàncies de X {\displaystyle {\boldsymbol {X}}} i Y {\displaystyle {\boldsymbol {Y}}} a la matriu de dimensions d × k {\displaystyle d\times k}
C ( X , Y ) = ( Cov ( X i , Y j ) ) i = 1 , , d j = 1 , , k {\displaystyle {\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {Y}})={\big (}{\text{Cov}}(X_{i},Y_{j}){\big )}_{i=1,\dots ,d \atop j=1,\dots ,k}}
Propietats.

  1. Si X = Y {\displaystyle {\boldsymbol {X}}={\boldsymbol {Y}}} aleshores la matriu de covariàncies coincideix amb la matriu de variàncies-covariàncies: C ( X , X ) = V ( X ) . {\displaystyle {\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {X}})={\boldsymbol {V}}({\boldsymbol {X}}).}
  2. Si E [ X ] = α {\displaystyle E[{\boldsymbol {X}}]={\boldsymbol {\alpha }}} i E [ Y ] = β {\displaystyle E[{\boldsymbol {Y}}]={\boldsymbol {\beta }}} , aleshores
    C ( X , Y ) = E [ ( X α ) ( Y β ) ] . {\displaystyle {\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {Y}})=E{\big [}({\boldsymbol {X}}-{\boldsymbol {\alpha }})({\boldsymbol {Y}}-{\boldsymbol {\beta }})'{\big ]}.}
  3. En particular,
    V ( X ) = E [ ( X α ) ( X α ) ] = E [ X X ] α α . {\displaystyle {\boldsymbol {V}}({\boldsymbol {X}})=E{\big [}({\boldsymbol {X}}-{\boldsymbol {\alpha }})({\boldsymbol {X}}-{\boldsymbol {\alpha }})'{\big ]}=E{\big [}{\boldsymbol {X}}{\boldsymbol {X}}'{\big ]}-{\boldsymbol {\alpha }}{\boldsymbol {\alpha }}'.}
  4. Siguin X {\displaystyle {\boldsymbol {X}}} i Y {\displaystyle {\boldsymbol {Y}}} dos vectors aleatoris de dimensions d {\displaystyle d} i k {\displaystyle k} respectivament i A {\displaystyle {\boldsymbol {A}}} i B {\displaystyle {\boldsymbol {B}}} matrius de dimensions n × d {\displaystyle n\times d} i m × k {\displaystyle m\times k} respectivament, aleshores
    C ( A X , B Y ) = A C ( X , Y ) B . {\displaystyle {\boldsymbol {C}}({\boldsymbol {A}}X,{\boldsymbol {B}}Y)={\boldsymbol {A}}\,{\boldsymbol {C}}({\boldsymbol {X}},{\boldsymbol {Y}})\,{\boldsymbol {B}}'.}

Funció característica i altres transformades

Funció característica

La funció característica d'un vector aleatori X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} és la funció φ : R d C {\displaystyle \varphi :\mathbb {R} ^{d}\to \mathbb {C} } definida per

φ X ( t 1 , , t d ) = E [ e i ( t 1 X 1 + + t d X d ) ] , ( t 1 , , t d ) R d . {\displaystyle \varphi _{\boldsymbol {X}}(t_{1},\dots ,t_{d})=E[e^{i(t_{1}X_{1}+\cdots +t_{d}X_{d})}],\quad (t_{1},\dots ,t_{d})\in \mathbb {R} ^{d}.}
Les funcions característiques de les distribucions marginals es dedueixen fàcilment de la funció característica conjunta; per exemple, per simplificar les notacions, per a r = 1 , , d 1 {\displaystyle r=1,\dots ,d-1} ,
φ ( X 1 , , X r ) ( t 1 , , t r ) = φ ( X 1 , , X d ) ( t 1 , , t r , 0 , 0 ) , t 1 , , t r R . {\displaystyle \varphi _{(X_{1},\dots ,X_{r})}(t_{1},\dots ,t_{r})=\varphi _{(X_{1},\dots ,X_{d})}(t_{1},\dots ,t_{r},0\,\dots ,0),\quad t_{1},\dots ,t_{r}\in \mathbb {R} .}

Propietats.[8]

Unicitat. La funció característica determina la distribució del vector X {\displaystyle {\boldsymbol {X}}} ; concretament, si X {\displaystyle {\boldsymbol {X}}} i Y {\displaystyle {\boldsymbol {Y}}} són dos vectors aleatoris, amb funcions característiques φ X {\displaystyle \varphi _{\boldsymbol {X}}} i φ Y {\displaystyle \varphi _{\boldsymbol {Y}}} respectivament, tals que

φ X ( t 1 , , t d ) = φ Y ( t 1 , , t d ) , ( t 1 , , t d ) R d , {\displaystyle \varphi _{\boldsymbol {X}}(t_{1},\dots ,t_{d})=\varphi _{\boldsymbol {Y}}(t_{1},\dots ,t_{d}),\quad \forall (t_{1},\dots ,t_{d})\in \mathbb {R} ^{d},}
aleshores X {\displaystyle {\boldsymbol {X}}} i Y {\displaystyle {\boldsymbol {Y}}} tenen la mateixa distribució (tenen la mateixa funció de distribució, o si són discrets tenen la mateixa funció de probabilitat, o si són absolutament continus tenen la mateix funció de densitat). La propietat recíproca evidentment també és certa.

Funció característica i independència. Els vectors aleatoris d {\displaystyle d} -dimensionals X 1 , , X k {\displaystyle {\boldsymbol {X}}_{1},\dots ,{\boldsymbol {X}}_{k}} són independents si i només si

φ ( X 1 , , X k ) ( t 1 , , t k ) = φ X 1 ( t 1 ) φ X k ( t k ) , t 1 , , t k R d . {\displaystyle \varphi _{({\boldsymbol {X}}_{1},\dots ,{\boldsymbol {X}}_{k})}({\boldsymbol {t}}_{1},\dots ,{\boldsymbol {t}}_{k})=\varphi _{{\boldsymbol {X}}_{1}}({\boldsymbol {t}}_{1})\cdots \varphi _{{\boldsymbol {X}}_{k}}({\boldsymbol {t}}_{k}),\quad \forall {\boldsymbol {t}}_{1},\dots ,{\boldsymbol {t}}_{k}\in \mathbb {R} ^{d}.}
Funció característica i suma de vectors aleatoris independents. Siguin X 1 , , X k {\displaystyle {\boldsymbol {X}}_{1},\dots ,{\boldsymbol {X}}_{k}} vectors aleatoris d {\displaystyle d} -dimensionals independents i posem
Y = X 1 + + X k . {\displaystyle {\boldsymbol {Y}}={\boldsymbol {X}}_{1}+\cdots +{\boldsymbol {X}}_{k}.}
Aleshores
φ Y ( t ) = φ X 1 ( t ) φ X k ( t ) , t R d . {\displaystyle \varphi _{\boldsymbol {Y}}({\boldsymbol {t}})=\varphi _{{\boldsymbol {X}}_{1}}({\boldsymbol {t}})\cdots \varphi _{{\boldsymbol {X}}_{k}}({\boldsymbol {t}}),\quad \forall {\boldsymbol {t}}\in \mathbb {R} ^{d}.}

Funció característica i moments. La següent propietat és especialment útil per a calcular els moments d'un vector aleatori: Si el vector aleatori X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} compleix E [ X m ] < {\displaystyle E{\big [}\Vert {\boldsymbol {X}}\Vert ^{m}{\big ]}<\infty } , on X = X 1 2 + + X d 2 {\displaystyle \Vert X\Vert ={\sqrt {X_{1}^{2}+\cdots +X_{d}^{2}}}} , aleshores la funció característica φ X {\displaystyle \varphi _{\boldsymbol {X}}} és de classe C m {\displaystyle {\mathcal {C}}^{m}} i per a n 1 , , n d 0 {\displaystyle n_{1},\dots ,n_{d}\geq 0} , j = 1 d n j m {\displaystyle \sum _{j=1}^{d}n_{j}\leq m} ,

E ( X 1 n 1 X d n d ) = 1 i n 1 + + n d n 1 + + n d t 1 n 1 t d n d φ X ( t 1 , t d ) | t 1 = 0 , , t d = 0 . {\displaystyle E(X_{1}^{n_{1}}\cdots X_{d}^{n_{d}})={\frac {1}{i^{n_{1}+\cdots +n_{d}}}}\,{\frac {\partial ^{n_{1}+\cdots +n_{d}}}{\partial t_{1}^{n_{1}}\cdots \partial t_{d}^{n_{d}}}}\,\varphi _{\boldsymbol {X}}(t_{1}\dots ,t_{d}){\Big \vert }_{t_{1}=0,\dots ,t_{d}=0}.}
Recíprocament, si la funció característica φ X {\displaystyle \varphi _{\boldsymbol {X}}} és de classe C m {\displaystyle {\mathcal {C}}^{m}} per a m {\displaystyle m} parell, aleshores el vector X {\displaystyle {\boldsymbol {X}}} té moments d'ordre ( n 1 , , n d ) {\displaystyle (n_{1},\dots ,n_{d})} per qualsevol n 1 , , n d 0 {\displaystyle n_{1},\dots ,n_{d}\geq 0} , j = 1 d n j m {\displaystyle \sum _{j=1}^{d}n_{j}\leq m} Exemple. Vector multinomial. Retornem al vector multinomial X = ( X 1 , , X d ) M ( n ; p 1 , , p d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})} . La seva funció característica és
φ ( t 1 , , t d ) = ( p 1 e i t 1 + p d e i t d ) n ,   t 1 , , t d R . {\displaystyle \varphi (t_{1},\dots ,t_{d})={\big (}p_{1}e^{it_{1}}+\cdots p_{d}e^{it_{d}}{\big )}^{n},\ t_{1},\dots ,t_{d}\in \mathbb {R} .}
El vector X {\displaystyle {\boldsymbol {X}}} té moments de tots els ordres perquè les seves components són variables aleatòries positives i afitades per n {\displaystyle n} . Podem calcular E [ X 1 X 2 ] {\displaystyle E[X_{1}X_{2}]} de la següent manera:
2 t 1 t 2 φ ( t 1 , , t k ) = n ( n 1 ) ( p 1 e i t 1 + + p k e i t k ) n 2 p 1 p 2 e i t 1 e i t 2 , {\displaystyle {\frac {\partial ^{2}}{\partial t_{1}\partial t_{2}}}\varphi (t_{1},\dots ,t_{k})=-n(n-1)(p_{1}e^{it_{1}}+\cdots +p_{k}e^{it_{k}})^{n-2}p_{1}p_{2}e^{it_{1}}e^{it_{2}},}
d'on
E ( X 1 X 2 ) = n ( n 1 ) p 1 p 2 . {\displaystyle E(X_{1}X_{2})=n(n-1)p_{1}p_{2}.}
Exemple: Vector normal multidimensional. El vector X N ( 0 , I d ) {\displaystyle {\boldsymbol {X}}\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{d})} té funció característica
φ ( t 1 , , t d ) = e ( t 1 2 + + t d 2 ) / 2 ,   t 1 , , t d R . {\displaystyle \varphi (t_{1},\dots ,t_{d})=e^{-(t_{1}^{2}+\cdots +t_{d}^{2})/2},\ t_{1},\dots ,t_{d}\in \mathbb {R} .}

Funció generatriu de moments

Sigui X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} un vector aleatori. La funció

M X ( s 1 , , s d ) = E [ e s 1 X 1 + + s d X d ] , {\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=E{\big [}e^{s_{1}X_{1}+\cdots +s_{d}X_{d}}{\big ]},}
definida en aquells punts ( s 1 , , s d ) R d {\displaystyle (s_{1},\dots ,s_{d})\in \mathbb {R} ^{d}} on l'esperança de la dreta és finita, s'anomena funció generatriu de moments [9] de X {\displaystyle {\boldsymbol {X}}} . Atès que per qualsevol nombre real a R {\displaystyle a\in \mathbb {R} } , e a > 0 {\displaystyle e^{a}>0} , sempre es pot calcular l'esperança de exp { s 1 X 1 + + s d X d } {\displaystyle \exp\{s_{1}X_{1}+\cdots +s_{d}X_{d}\}} , però pot donar infinit. Evidentment, sempre està definida en 0 = ( 0 , , 0 ) {\displaystyle {\boldsymbol {0}}=(0,\dots ,0)} i M X ( 0 ) = 1 {\displaystyle M_{\bf {X}}({\boldsymbol {0}})=1} . Quan està definida (o existeix) en un entorn de ( 0 , , 0 ) {\displaystyle (0,\dots ,0)} , aleshores té molt bones propietats i pot substituir la funció característica, amb l'avantatge que és una funció real i, per tant, més fàcil d'utilitzar; d'altra banda, en aquest cas, es pot estendre el domini de definició a un subconjunt de C n {\displaystyle \mathbb {C} ^{n}} .[10]

Afortunadament, molts vectors aleatoris que apareixen habitualment en l'Anàlisi de la variància i en l'Anàlisi estadística multivariant tenen funció generatriu de moments,[11] però no tots, tal com després veurem.

Alguns autors [10] anomenen transformada de Laplace la funció generatriu de moments; si el vector aleatori X {\displaystyle {\boldsymbol {X}}} només pren valors positius i té funció de densitat f X {\displaystyle f_{\boldsymbol {X}}} , aleshores

M X ( s 1 , , s d ) = 0 0 e s 1 x 1 + + s d x d f X ( x 1 , , x d ) d x 1 d x d , {\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=\int _{0}^{\infty }\cdots \int _{0}^{\infty }e^{s_{1}x_{1}+\cdots +s_{d}x_{d}}f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})\,dx_{1}\cdots dx_{d},}
que, a part del signe de s 1 , , s d {\displaystyle s_{1},\dots ,s_{d}} , és la transformada de Laplace (multidimensional) de la funció f X {\displaystyle f_{\boldsymbol {X}}} .[12]

Les tres propietats següents són especialment útils:

Unicitat.[11] Si la funció generatriu de moments d'un vector aleatori està definida en un entorn de ( 0 , , 0 ) {\displaystyle (0,\dots ,0)} , aleshores determina unívocament la distribució d'aquest vector.

Independència.[11] Siguin X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} i Y = ( Y 1 , , Y r ) {\displaystyle {\boldsymbol {Y}}=(Y_{1},\dots ,Y_{r})} dos vectors aleatoris tal que el vector ( X , Y ) {\displaystyle ({\boldsymbol {X}},{\boldsymbol {Y}})} té funció generatriu de moments definida en un entorn de zero. Aleshores X   i   Y {\displaystyle {\boldsymbol {X}}\ {\text{i}}\ {\boldsymbol {Y}}} són independents si i només si

M ( X , Y ) ( s 1 , , s d , t 1 , , t r ) = M X ( s 1 , , s d ) M Y ( t 1 , , t r ) . {\displaystyle M_{({\boldsymbol {X,Y}})}(s_{1},\dots ,s_{d},t_{1},\dots ,t_{r})=M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})\,M_{\boldsymbol {Y}}(t_{1},\dots ,t_{r}).}
Moments.[9] Si un vector aleatori X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} té funció generatriu de moments en un entorn de ( 0 , , 0 ) {\displaystyle (0,\dots ,0)} , aleshores té moments de tots els ordres i
E ( X 1 n 1 X d n d ) = n 1 + + n d s 1 n 1 s d n d M X ( s 1 , s d ) | s 1 = 0 , , s d = 0 . {\displaystyle E(X_{1}^{n_{1}}\cdots X_{d}^{n_{d}})={\frac {\partial ^{n_{1}+\cdots +n_{d}}}{\partial s_{1}^{n_{1}}\cdots \partial s_{d}^{n_{d}}}}\,M_{\boldsymbol {X}}(s_{1}\dots ,s_{d}){\Big \vert }_{s_{1}=0,\dots ,s_{d}=0}.}

Exemples

  1. Vector multinomial X M ( n ; p 1 , , p d ) {\displaystyle {\boldsymbol {X}}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})} . La funció generatriu és
    M X ( s 1 , , s d ) = ( p 1 e s 1 + p d e s d ) n ,   s 1 , , s d R . {\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})={\big (}p_{1}e^{s_{1}}+\cdots p_{d}e^{s_{d}}{\big )}^{n},\ s_{1},\dots ,s_{d}\in \mathbb {R} .}
  2. Vector normal multidimensional X N ( 0 , I d ) {\displaystyle {\boldsymbol {X}}\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{d})} .
    M X ( s 1 , , s d ) = e ( s 1 2 + + s d 2 ) / 2 ,   s 1 , , s d R . {\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=e^{(s_{1}^{2}+\cdots +s_{d}^{2})/2},\ s_{1},\dots ,s_{d}\in \mathbb {R} .}
  3. Vectors aleatoris sense funció generatriu de moments. Segons hem comentat, un vector aleatori amb funció generatriu de moments en un entorn de ( 0 , , 0 ) {\displaystyle (0,\dots ,0)} té moments de tots els ordres. Per tant, qualsevol vector que contingui alguna component que no tingui moments de qualsevol ordre no tindrà funció generatriu de moments. Per exemple, una distribució t {\displaystyle t} -multidimensional.[13]

Funció generatriu de probabilitats

Sigui X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} un vector aleatori que només prengui valors naturals (zero inclòs), amb funció de probabilitats p X {\displaystyle p_{\boldsymbol {X}}} . S'anomena funció generatriu de probabilitats [5] a la funció

G X ( s 1 , , s d ) = E [ s 1 X 1 s d X d ] = x 1 0 , , x d 0 s 1 x 1 s d x d p X ( x 1 , , x d ) . {\displaystyle G_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=E[s_{1}^{X_{1}}\cdots s_{d}^{X_{d}}]=\sum _{x_{1}\geq 0,\dots ,x_{d}\geq 0}s_{1}^{x_{1}}\cdots s_{d}^{x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}).}
(Amb el conveni 0 0 = 1 {\displaystyle 0^{0}=1} ). La sèrie de la dreta és una sèrie de potències multidimensional, que és absolutament convergent per a ( s 1 , , s d ) [ 1 , 1 ] d {\displaystyle (s_{1},\dots ,s_{d})\in [-1,1]^{d}} , ja que
0 x 1 , , x d | s 1 x 1 s d x d p X ( x 1 , , x d ) | x 1 , , x d p X ( x 1 , , x d ) = 1 , {\displaystyle 0\leq \sum _{x_{1},\dots ,x_{d}}{\big \vert }s_{1}^{x_{1}}\cdots s_{d}^{x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d}){\big \vert }\leq \sum _{x_{1},\dots ,x_{d}}p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})=1,}
. A vegades la regió de convergència és més gran que [ 1 , 1 ] d {\displaystyle [-1,1]^{d}} . Alguns autors defineixen aquesta funció per al camp complex, ja que la sèrie és absolutament convergent per a z = ( z 1 , , z d ) C d {\displaystyle {\boldsymbol {z}}=(z_{1},\dots ,z_{d})\in \mathbb {C} ^{d}} , amb | z 1 | 1 , , | z d | 1 {\displaystyle \vert z_{1}\vert \leq 1,\dots ,\vert z_{d}\vert \leq 1} i potser en conjunts més grans de C d {\displaystyle \mathbb {C} ^{d}} .

La funció generatriu de probabilitats està relacionada amb la funció generatriu de moments per la fórmula:

M X ( s 1 , , s d ) = G X ( e s 1 , , e s d ) . {\displaystyle M_{\boldsymbol {X}}(s_{1},\dots ,s_{d})=G_{\boldsymbol {X}}(e^{s_{1}},\dots ,e^{s_{d}}).}
Aquesta funció s'utilitza molt en situacions on intervenen vectors aleatoris que només prenen valors naturals, com els processos de ramificació.[14]

Propietats.[14]

1. La funció G X {\displaystyle G_{\boldsymbol {X}}} és contínua i infinitament diferenciable en ( 1 , 1 ) d {\displaystyle (-1,1)^{d}} .
2. Fórmula d'inversió i unicitat. La funció de probabilitat del vector X {\displaystyle {\boldsymbol {X}}} es pot recuperar a partir de la funció generatriu de probabilitat:
p X ( x 1 , , x d ) = 1 x 1 ! x d ! x 1 + + x d G X ( s 1 , , s d ) s 1 x 1 s d x d | s 1 = 0 , , s d = 0 , ( x 1 , , x d ) N d . {\displaystyle p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})={\frac {1}{x_{1}!\cdots x_{d}!}}\,{\frac {\partial ^{x_{1}+\cdots +x_{d}}G_{\boldsymbol {X}}(s_{1},\dots ,s_{d})}{\partial s_{1}^{x_{1}}\cdots \partial s_{d}^{x_{d}}}}{\big \vert }_{s_{1}=0,\dots ,s_{d}=0},\quad (x_{1},\dots ,x_{d})\in \mathbb {N} ^{d}.}

En conseqüència, la funció generatriu de probabilitats determina la distribució del vector X {\displaystyle {\boldsymbol {X}}} .

3. Moments factorials. Per a x R {\displaystyle x\in \mathbb {R} } i k N {\displaystyle k\in \mathbb {N} } , designem per x k _ {\displaystyle x^{\underline {k}}} el factorial decreixent:[15]
x k _ = x ( x 1 ) ( x k + 1 ) . {\displaystyle x^{\underline {k}}=x(x-1)\cdots (x-k+1).}

Noteu que si x N {\displaystyle x\in \mathbb {N} } i k x + 1 {\displaystyle k\geq x+1} , llavors x k _ = 0 {\displaystyle x^{\underline {k}}=0} . S'anomena moment factorial [16] d'ordre ( n 1 , , n d ) {\displaystyle (n_{1},\dots ,n_{d})} del vector X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} a

μ ( n 1 , , n d ) = E [ X 1 n _ 1 X d n _ d ] . {\displaystyle \mu '_{{\boldsymbol {(}}n_{1},\dots ,n_{d})}=E[X_{1}^{{\underline {n}}_{1}}\dots X_{d}^{{\underline {n}}_{d}}].}
Aleshores, aquesta esperança és finita si i només si[14]
lim s 1 1 , , s d 1 n 1 + + n d G ( s 1 , , s d ) s 1 n 1 s 1 n 1 < , {\displaystyle \lim _{s_{1}\uparrow 1,\dots ,s_{d}\uparrow 1}{\frac {\partial ^{n_{1}+\cdots +n_{d}}G(s_{1},\dots ,s_{d})}{\partial s_{1}^{n_{1}}\cdots \partial s_{1}^{n_{1}}}}<\infty ,}
i en aquest cas,
μ ( n 1 , , n d ) = lim s 1 1 , , s d 1 n 1 + + n d G ( s 1 , , s d ) s 1 n 1 s 1 n 1 . {\displaystyle \mu '_{(n_{1},\dots ,n_{d})}=\lim _{s_{1}\uparrow 1,\dots ,s_{d}\uparrow 1}{\frac {\partial ^{n_{1}+\cdots +n_{d}}G(s_{1},\dots ,s_{d})}{\partial s_{1}^{n_{1}}\cdots \partial s_{1}^{n_{1}}}}.}

4. Suma de vectors aleatoris independents. Siguin X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} i Y = ( Y 1 , , Y d ) {\displaystyle {\boldsymbol {Y}}=(Y_{1},\dots ,Y_{d})} dos vectors aleatoris que només prenen valors naturals. Aleshores
G X + Y ( s ) = G X ( s ) G Y ( s ) . {\displaystyle G_{{\boldsymbol {X}}+{\boldsymbol {Y}}}({\boldsymbol {s}})=G_{\boldsymbol {X}}({\boldsymbol {s}})\,G_{\boldsymbol {Y}}({\boldsymbol {s}}).}

Exemple. Vector multinomial X M ( n ; p 1 , , p d ) {\displaystyle {\boldsymbol {X}}\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})} . La funció generatriu de probabilitat és

G X ( s 1 , , s d ) = ( p 1 s 1 + p d s d ) n ,   s 1 , , s d R . {\displaystyle G_{\boldsymbol {X}}(s_{1},\dots ,s_{d})={\big (}p_{1}{s_{1}}+\cdots p_{d}{s_{d}}{\big )}^{n},\ s_{1},\dots ,s_{d}\in \mathbb {R} .}

Funcions d'un vector aleatori amb densitat

Les transformacions d'un vector aleatori són especialment importants tant en la teoria com en les aplicacions, i és molt convenient disposar d'eines per determinar la distribució del vector transformat a partir de l'inicial. Si X {\displaystyle {\boldsymbol {X}}} és un vector aleatori d {\displaystyle d} -dimensional amb funció de densitat i h : R d R d {\displaystyle h:\mathbb {R} ^{d}\to \mathbb {R} ^{d}} és una bona funció, aleshores Y = h ( X ) {\displaystyle {\boldsymbol {Y}}=h({\boldsymbol {X}})} també té funció de densitat i hi ha fórmules per calcular-la. De fet, si el vector X {\displaystyle {\boldsymbol {X}}} està concentrat en un subconjunt U {\displaystyle U} , és a dir, si P ( X U ) = 1 {\displaystyle P({\boldsymbol {X}}\in U)=1} , aleshores la funció h {\displaystyle {\boldsymbol {h}}} només ha d'estar definida en aquest conjunt.

Propietat.[17] Sigui X {\displaystyle {\boldsymbol {X}}} un vector aleatori amb funció de densitat conjunta f X ( x ) {\displaystyle f_{\boldsymbol {X}}({\boldsymbol {x}})} . Suposem que P ( X U ) = 1 {\displaystyle P({\boldsymbol {X}}\in U)=1} on U {\displaystyle U} és un conjunt obert de R d {\displaystyle \mathbb {R} ^{d}} . Sigui h = ( h ( 1 ) , , h ( d ) ) : U V , {\displaystyle h=(h^{(1)},\dots ,h^{(d)}):U\to V,} on V {\displaystyle V} és un obert de R d {\displaystyle \mathbb {R} ^{d}} , h {\displaystyle h} bijectiva de classe C 1 {\displaystyle {\cal {C}}^{1}} , amb determinant jacobià no nul sobre U {\displaystyle U} :

J h ( x 1 , , x d ) := det ( h ( i ) x j ) i , j = 1 , , d 0 ,   ( x 1 , , x d ) U . {\displaystyle J_{\boldsymbol {h}}(x_{1},\dots ,x_{d}):={\text{det}}{\Big (}{\partial h^{(i)} \over \partial x_{j}}{\Big )}_{i,j=1,\dots ,d}\neq 0,\ \forall (x_{1},\dots ,x_{d})\in U.}
Designem la inversa de h {\displaystyle h} per g = ( g ( 1 ) , , g ( d ) ) {\displaystyle g=(g^{(1)},\dots ,g^{(d)})} . Aleshores el vector aleatori Y = h ( X ) {\displaystyle {\boldsymbol {Y}}=h({\boldsymbol {X}})} és absolutament continu amb densitat
f Y ( y ) = { f X ( g ( y ) ) | J g ( y ) | ,  si  y V , 0 , en cas contrari. {\displaystyle f_{\boldsymbol {Y}}({\boldsymbol {y}})={\begin{cases}f_{X}{\big (}g({\boldsymbol {y}}){\big )}\vert J_{g}({\boldsymbol {y}})\vert ,&{\text{ si }}{\boldsymbol {y}}\in V,\\0,&{\text{en cas contrari.}}\end{cases}}}

Exemple. Vector aleatori normal multidimensional. En aquest exemple escriurem tots els vectors en columna. Sigui X = ( X 1 , , X d ) N ( 0 , I d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'\sim {\mathcal {N}}({\boldsymbol {0}},{\boldsymbol {I}}_{d})} un vector aleatori normal multidimensional com el que hem introduït anteriorment. Considerem una matriu d × d {\displaystyle d\times d} definida positiva Σ {\displaystyle {\boldsymbol {\Sigma }}} i un vector μ R d {\displaystyle {\boldsymbol {\mu }}\in \mathbb {R} ^{d}} . Existeix [18] una única matriu definida positiva[19] Σ 1 / 2 {\displaystyle {\boldsymbol {\Sigma }}^{1/2}} tal que ( Σ 1 / 2 ) 2 = Σ {\displaystyle ({\boldsymbol {\Sigma }}^{1/2})^{2}={\boldsymbol {\Sigma }}} . Definim el vector Y {\displaystyle {\boldsymbol {Y}}} per

Y = Σ 1 / 2 X + μ . {\displaystyle {\boldsymbol {Y}}={\boldsymbol {\Sigma }}^{1/2}{\boldsymbol {X}}+{\boldsymbol {\mu }}.}
Així, l'aplicació que estem considerant és h : R d R d {\displaystyle h:\mathbb {R} ^{d}\to \mathbb {R} ^{d}} donada per
h ( x ) = Σ 1 / 2 x + μ . {\displaystyle h({\boldsymbol {x}})={\boldsymbol {\Sigma }}^{1/2}{\boldsymbol {x}}+{\boldsymbol {\mu }}.}
Noteu que U = V = R d {\displaystyle U=V=\mathbb {R} ^{d}} .

L'aplicació inversa és

g ( y ) = h 1 ( y ) = Σ 1 / 2 ( y μ ) , {\displaystyle g({\boldsymbol {y}})=h^{-1}({\boldsymbol {y}})={\boldsymbol {\Sigma }}^{-1/2}({\boldsymbol {y}}-{\boldsymbol {\mu }}),}
on Σ 1 / 2 {\displaystyle {\boldsymbol {\Sigma }}^{-1/2}} és la matriu inversa de Σ 1 / 2 {\displaystyle {\boldsymbol {\Sigma }}^{1/2}} . La matriu jacobiana de g {\displaystyle g} és Σ 1 / 2 {\displaystyle {\boldsymbol {\Sigma }}^{-1/2}} , que té determinant diferent de zero a tot R d {\displaystyle \mathbb {R} ^{d}} . La densitat de X {\displaystyle {\boldsymbol {X}}} és
f ( x ) = 1 ( 2 π ) d / 2 e ( x 1 2 + + x d 2 ) / 2 = 1 ( 2 π ) d / 2 e x x / 2 . {\displaystyle f({\boldsymbol {x}})={\frac {1}{(2\pi )^{d/2}}}\,e^{-(x_{1}^{2}+\cdots +x_{d}^{2})/2}={\frac {1}{(2\pi )^{d/2}}}\,e^{-{\boldsymbol {x}}'{\boldsymbol {x}}/2}.}
Llavors, la densitat de Y {\displaystyle {\boldsymbol {Y}}} és
f Y ( y ) = 1 ( 2 π ) d / 2 e 1 2 ( y μ ) Σ 1 / 2 Σ 1 / 2 ( y μ ) | det Σ 1 / 2 | = 1 ( 2 π ) d / 2 ( det Σ ) 1 / 2 e 1 2 ( y μ ) Σ 1 ( y μ ) . {\displaystyle f_{\boldsymbol {Y}}({\boldsymbol {y}})={\frac {1}{(2\pi )^{d/2}}}\,e^{-{\tfrac {1}{2}}({\boldsymbol {y}}-{\boldsymbol {\mu }})^{\prime }{\boldsymbol {\Sigma }}^{-1/2}{\boldsymbol {\Sigma }}^{-1/2}({\boldsymbol {y}}-{\boldsymbol {\mu }})}\,\vert {\text{det}}\,{\boldsymbol {\Sigma }}^{-1/2}\vert ={\frac {1}{(2\pi )^{d/2}({\text{det}}\,{\boldsymbol {\Sigma }})^{1/2}}}\,e^{-{\tfrac {1}{2}}({\boldsymbol {y}}-{\boldsymbol {\mu }})^{\prime }{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {y}}-{\boldsymbol {\mu }})}.}

Es diu que Y {\displaystyle {\boldsymbol {Y}}} té una llei normal multidimensional Y N d ( μ , Σ ) {\displaystyle {\boldsymbol {Y}}\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} . D'acord amb les propietats que hem vist sobre el vector d'esperances i la matriu de variàncies-covariàncies tenim que

E [ Y ] = Σ 1 / 2 E [ X ] + μ = μ {\displaystyle E[{\boldsymbol {Y}}]={\boldsymbol {\Sigma }}^{1/2}\,E[{\boldsymbol {X}}]+{\boldsymbol {\mu }}={\boldsymbol {\mu }}}
i
V ( Y ) = Σ 1 / 2 V ( X ) Σ 1 / 2 = Σ . {\displaystyle {\boldsymbol {V}}({\boldsymbol {Y}})={\boldsymbol {\Sigma }}^{1/2}{\boldsymbol {V}}({\boldsymbol {X}}){\boldsymbol {\Sigma }}^{1/2}={\boldsymbol {\Sigma }}.}

Extensió. La propietat anterior es pot estendre al cas que la funció h {\displaystyle h} es pugui descompondre en una funció bijectiva a trossos. Concretament tenim:[20] Sigui X {\displaystyle {\boldsymbol {X}}} un vector aleatori d {\displaystyle d} -dimensional, amb funció de densitat conjunta f X ( x ) {\displaystyle f_{\boldsymbol {X}}({\boldsymbol {x}})} . Suposem que P { X U } = 1 {\displaystyle P\{{\boldsymbol {X}}\in U\}=1} amb U = U 1 U k {\displaystyle U=U_{1}\cup \cdots \cup U_{k}} , on U i {\displaystyle U_{i}} són oberts de R d {\displaystyle \mathbb {R} ^{d}} disjunts dos a dos. Sigui h : U R d , {\textstyle h:\,U\longrightarrow \mathbb {R} ^{d},} tal que les restriccions h i : U i V i {\displaystyle h_{i}:U_{i}\longrightarrow V_{i}} són bijectives de classe C 1 {\displaystyle {\cal {C}}^{1}} amb determinant jacobià no nul (els conjunts V 1 , , V k {\displaystyle V_{1},\dots ,V_{k}} no cal que siguin disjunts dos a dos i, de fet, poden ser iguals). Designem per g i : V i U i {\displaystyle g_{i}:V_{i}\longrightarrow U_{i}} la inversa de h i {\displaystyle h_{i}} . Aleshores el vector aleatori Y = h ( X ) {\displaystyle {\boldsymbol {Y}}=h({\boldsymbol {X}})} és absolutament continu amb densitat

f Y ( y ) = i = 1 k f X ( g i ( y ) | J g i ( y ) | 1 V i ( y ) , {\displaystyle f_{\boldsymbol {Y}}({\boldsymbol {y}})=\sum _{i=1}^{k}f_{\boldsymbol {X}}{\big (}g_{i}({\boldsymbol {y}})\vert J_{g_{i}}({\boldsymbol {y}})\vert {\boldsymbol {1}}_{V_{i}}({\boldsymbol {y}}),}
on, 1 V i {\displaystyle {\boldsymbol {1}}_{V_{i}}} és la funció indicador del conjunt V i {\displaystyle V_{i}} :
1 V i ( y ) = { 1 , si  y V i , 0 , en cas contrari. {\displaystyle {\boldsymbol {1}}_{V_{i}}(y)={\begin{cases}1,&{\text{si }}y\in V_{i},\\0,&{\text{en cas contrari.}}\end{cases}}}

Distribucions condicionades

Cas discret

Sigui X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} un vector aleatori discret amb funció de probabilitat p X {\displaystyle p_{\boldsymbol {X}}} . Considerem una de les components del vector, per exemple, per simplificar les notacions, l'última, X d {\displaystyle X_{d}} , amb funció de probabilitat marginal p X d {\displaystyle p_{X_{d}}} , i fixem x d {\displaystyle x_{d}} tal que p X d ( x d ) > 0 {\displaystyle p_{X_{d}}(x_{d})>0} . S'anomena distribució de ( X 1 , , X d 1 ) {\displaystyle (X_{1},\dots ,X_{d-1})} condicionada per X d = x d {\displaystyle X_{d}=x_{d}} a la probabilitat donada per la funció de probabilitat

p X 1 , , X d 1 | X d ( x 1 , , x d 1 | x d ) = p X ( x 1 , , x d ) p X d ( x d ) . {\displaystyle p_{X_{1},\dots ,X_{d-1}\,\vert \,X_{d}}(x_{1},\dots ,x_{d-1}\vert x_{d})={\frac {p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})}{p_{X_{d}}(x_{d})}}.}
Més generalment, per a 2 r d , {\displaystyle 2\leq r\leq d,} podem considerar el vector ( X r , , X d ) {\displaystyle (X_{r},\dots ,X_{d})} (per simplificar les notacions); fixat ( x r , , x d ) {\displaystyle (x_{r},\dots ,x_{d})} tal que p X r , , X d ( x r , , x d ) > 0 {\displaystyle p_{X_{r},\dots ,X_{d}}(x_{r},\dots ,x_{d})>0} , definim la distribució de ( X 1 , , X r 1 ) {\displaystyle (X_{1},\dots ,X_{r-1})} condicionada per X r = x r , , X d = x d {\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}} a la probabilitat donada per la funció de probabilitat
p X 1 , , X r 1 | X r , , X d ( x 1 , , x r 1 | X r = x r , , x d ) = p X ( x 1 , , x d ) p X r , , X d ( x r , , x d ) . {\displaystyle p_{X_{1},\dots ,X_{r-1}\,\vert \,X_{r},\dots ,X_{d}}(x_{1},\dots ,x_{r-1}\vert X_{r}=x_{r},\dots ,x_{d})={\frac {p_{\boldsymbol {X}}(x_{1},\dots ,x_{d})}{p_{X_{r},\dots ,X_{d}}(x_{r},\dots ,x_{d})}}.}
Exemple. Considerem un vector multinomial X = ( X 1 , , X d ) M ( n ; p 1 , , p d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})\sim {\mathcal {M}}(n;p_{1},\dots ,p_{d})} . Aleshores, fixat k { 0 , , n } {\displaystyle k\in \{0,\dots ,n\}} , la distribució de ( X 1 , , X d 1 ) {\displaystyle (X_{1},\dots ,X_{d-1})} condicionada per X d = k {\displaystyle X_{d}=k} és
p ( X 1 , , X d 1 ) | X d ( x 1 , , x d 1 | k ) = ( n k ) ! x 1 ! x d 1 ! ( p 1 1 p k ) x 1 ( p d 1 1 p k ) x d 1 , x 1 0 , , x d 1 0 , amb  x 1 + + x d 1 = n k . {\displaystyle p_{(X_{1},\dots ,X_{d-1})\,\vert \,X_{d}}(x_{1},\dots ,x_{d-1}\vert k)={\frac {(n-k)!}{x_{1}!\cdots x_{d-1}!}}\,{\Big (}{\frac {p_{1}}{1-p_{k}}}{\Big )}^{x_{1}}\cdots {\Big (}{\frac {p_{d-1}}{1-p_{k}}}{\Big )}^{x_{d-1}},\quad x_{1}\geq 0,\dots ,x_{d-1}\geq 0,{\text{amb }}x_{1}+\cdots +x_{d-1}=n-k.}
Per tant, ( X 1 , , X d 1 ) {\displaystyle (X_{1},\dots ,X_{d-1})} condicionat a X d = k {\displaystyle X_{d}=k} té una distribució multinomial M ( n k ; p 1 / ( 1 p k ) , , p d 1 / ( 1 p k ) ) {\displaystyle {\mathcal {M}}{\big (}n-k;p_{1}/(1-p_{k}),\dots ,p_{d-1}/(1-p_{k}){\big )}} .

En general,[21] fixats x r 0 , , x d 0 , {\displaystyle x_{r}\geq 0,\dots ,x_{d}\geq 0,} tals que x r + + x d n {\displaystyle x_{r}+\cdots +x_{d}\leq n} , el vector ( X 1 , , X r 1 ) {\displaystyle (X_{1},\dots ,X_{r-1})} condicionat per X r = x r , , X d = x d {\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}} té una distribució multinomial M ( n m ; p 1 , , p r 1 ) {\displaystyle {\mathcal {M}}(n-m;p_{1}^{*},\dots ,p_{r-1}^{*})} , on

m = x r + + x d i p j = p j p 1 + + p r 1 , j = 1 , , r 1. {\displaystyle m=x_{r}+\cdots +x_{d}\quad {\text{i}}\quad p_{j}^{*}={\frac {p_{j}}{p_{1}+\cdots +p_{r-1}}},\quad j=1,\dots ,r-1.}

Cas absolutament continu

Sigui X = ( X 1 , , X d ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})} un vector aleatori amb funció de densitat conjunta f X ( x 1 , , x d ) {\displaystyle f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})} . Per a 2 r d , {\displaystyle 2\leq r\leq d,} fixats x r , , x d {\displaystyle x_{r},\dots ,x_{d}} tals que f X r , , x d ( x r , , x d ) > 0 {\displaystyle f_{X_{r},\dots ,x_{d}}(x_{r},\dots ,x_{d})>0} , definim la densitat condicionada de ( X 1 , , X r 1 ) {\displaystyle (X_{1},\dots ,X_{r-1})} condicionada per X r = x r , , X d = x d {\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}}

f X 1 , , X r 1 | X r , , X d ( x 1 , , x r 1 | x r , , x d ) = f X ( x 1 , , x d ) f X r , , X d ( x r , , x d ) . {\displaystyle f_{X_{1},\dots ,X_{r-1}\,\vert \,X_{r},\dots ,X_{d}}(x_{1},\dots ,x_{r-1}\vert x_{r},\dots ,x_{d})={\frac {f_{\boldsymbol {X}}(x_{1},\dots ,x_{d})}{f_{X_{r},\dots ,X_{d}}(x_{r},\dots ,x_{d})}}.}

Exemple. Vector normal multidimensional.. Sigui X = ( X 1 , , X d ) N d ( μ , Σ ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{d})'\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} un vector normal multidimensional (de nou aquí escriurem tots els vectors en columna), i 2 r d {\displaystyle 2\leq r\leq d} . Escrivim

X 1 = ( X 1 , , X r 1 ) i X 2 = ( X r , , X d ) {\displaystyle {\boldsymbol {X}}_{1}=(X_{1},\dots ,X_{r-1})'\quad {\text{i}}\quad {\boldsymbol {X}}_{2}=(X_{r},\dots ,X_{d})'}
μ 1 = E [ X 1 ] = ( μ 1 , , μ r 1 ) i μ 2 = E [ X 2 ] = ( μ r , , μ d ) . {\displaystyle {\boldsymbol {\mu }}_{1}=E[{\boldsymbol {X}}_{1}]=(\mu _{1},\dots ,\mu _{r-1})'\quad {\text{i}}\quad {\boldsymbol {\mu }}_{2}=E[{\boldsymbol {X}}_{2}]=(\mu _{r},\dots ,\mu _{d})'.}
D'altra banda, partim la matriu Σ {\displaystyle {\boldsymbol {\Sigma }}} de la següent manera:
Σ = ( Σ 11 Σ 12 Σ 21 Σ 22 ) , {\displaystyle {\boldsymbol {\Sigma }}={\begin{pmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{12}\\\Sigma _{21}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},}
on Σ i j = C ( X i , X j ) {\displaystyle {\boldsymbol {\Sigma }}_{ij}={\boldsymbol {C}}({\boldsymbol {X}}_{i},{\boldsymbol {X}}_{j})} . Noteu que Σ 21 = Σ 12 {\displaystyle {\boldsymbol {\Sigma }}_{21}={\boldsymbol {\Sigma }}_{12}'} . Aleshores,[22] la distribució ( X 1 , , X r 1 ) {\displaystyle (X_{1},\dots ,X_{r-1})'} condicionada per X r = x r , , X d = x d {\displaystyle X_{r}=x_{r},\dots ,X_{d}=x_{d}} (escrivim x 2 = ( x r , , x d ) {\displaystyle {\boldsymbol {x}}_{2}=(x_{r},\dots ,x_{d})'} ) és normal mutidimensional N r 1 ( μ , Σ ) {\displaystyle {\mathcal {N}}_{r-1}({\boldsymbol {\mu }}^{*},{\boldsymbol {\Sigma }}^{*})} on
μ = μ 1 + Σ 12 Σ 22 1 ( x 2 μ 2 ) i Σ = Σ 11 Σ 12 Σ 22 1 Σ 21 . {\displaystyle {\boldsymbol {\mu }}^{*}={\boldsymbol {\mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}({\boldsymbol {x}}_{2}-{\boldsymbol {\mu }}_{2})\quad {\text{i}}\quad {\boldsymbol {\Sigma }}^{*}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}.}
En particular, per a d = 2 {\displaystyle d=2} , si posem
Var ( X 1 ) = σ 1 2 ,   Var ( X 2 ) = σ 2 2     i     Cov ( X 1 , X 2 ) = σ 12 , {\displaystyle {\text{Var}}(X_{1})=\sigma _{1}^{2},\ {\text{Var}}(X_{2})=\sigma _{2}^{2}\ \ {\text{i}}\ \ {\text{Cov}}(X_{1},X_{2})=\sigma _{12},}
tenim que X 1 {\displaystyle X_{1}} condicionada per X 2 = x 2 {\displaystyle X_{2}=x_{2}} té una distribució normal N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} on
μ = μ 1 + σ 12 σ 2 2 ( x 2 μ 2 ) i σ 2 = σ 1 2 σ 12 2 σ 2 2 . {\displaystyle \mu =\mu _{1}+{\frac {\sigma _{12}}{\sigma _{2}^{2}}}(x_{2}-\mu _{2})\quad {\text{i}}\quad \sigma ^{2}=\sigma _{1}^{2}-{\frac {\sigma _{12}^{2}}{\sigma _{2}^{2}}}.}

Exemples

Aquests exemples tracten de vectors aleatoris bidimensionals, que habitualment és denoten per ( X , Y ) {\displaystyle (X,Y)} en lloc de ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} .

Exemple 1. Vector aleatori bidimensional discret

Tirem una moneda tres cops. El model probabilístic que prendrem és Ω = { (cara,cara,cara), (creu, cara, cara),... } {\displaystyle \Omega ={\big \{}{\text{(cara,cara,cara), (creu, cara, cara),...}}{\big \}}} , que té 8 elements; A {\displaystyle {\mathcal {A}}} és la col·lecció de tots els subconjunts de Ω {\displaystyle \Omega } , i P {\displaystyle P} assigna a tots els resultats la mateixa probabilitat 1/8. Siguin

X {\displaystyle X} : nombre de cares que surt.
Y {\displaystyle Y} : diferència, en valor absolut, entre el nombre de cares i de creus.

Aleshores X {\displaystyle X} pot prendre els valors 0, 1, 2 o 3, i Y {\displaystyle Y} pot valer 1 o 3. Llavors, el vector ( X , Y ) {\displaystyle (X,Y)} pot prendre els valors (0,1), (0,3), (2,1), (2,3), (3,1) o (3,3). El conjunt

S = { ( 0 , 1 ) , ( 0 , 3 ) , ( 2 , 1 ) , ( 2 , 3 ) , ( 3 , 1 ) , ( 3 , 3 ) } {\displaystyle S={\big \{}(0,1),(0,3),(2,1),(2,3),(3,1),(3,3){\big \}}}
s'anomena el suport de la distribució del vector. Notem que P ( ( X , Y ) S ) = 1. {\displaystyle P{\big (}(X,Y)\in S{\big )}=1.} Calculem les probabilitats que prengui cadascun dels valors del suport. Recordem que per alleugerir les fórmules s'utilitzen 'comes' en lloc d'interseccions):

P ( ( X , Y ) = ( 0 , 1 ) ) = P ( X = 0 , Y = 1 ) = P ( { X = 0 } { Y = 1 } ) = P ( ) = 0 {\displaystyle P{\big (}(X,Y)=(0,1){\big )}=P{\big (}X=0,Y=1{\big )}=P{\big (}\{X=0\}\cap \{Y=1\}{\big )}=P(\emptyset )=0} .
P ( ( X , Y ) = ( 0 , 3 ) ) = P ( (creu,creu,creu) ) = 1 / 8 {\displaystyle P{\big (}(X,Y)=(0,3){\big )}=P{\big (}{\text{(creu,creu,creu)}}{\big )}=1/8}
P ( ( X , Y ) = ( 1 , 1 ) ) = P ( (cara,creu,creu), (creu,cara,creu), (creu,creu,cara) ) = 3 / 8 , {\displaystyle P{\big (}(X,Y)=(1,1){\big )}=P{\big (}{\text{(cara,creu,creu), (creu,cara,creu), (creu,creu,cara)}}{\big )}=3/8,} (noteu que l'ordre en què surten els resultats s'ha de tenir en compte).

I així successivament. De fet, els punts (0,1), (1,3), (2,3) i (3,1) es poden treure del suport, ja que tenen probabilitat zero, i per a certes fórmules és convenient fer-ho per evitar expressions sense sentit. La funció

p ( X , Y ) ( x , y ) = P ( X = x , Y = y ) ,   ( x , y ) S {\displaystyle p_{(X,Y)}(x,y)=P(X=x,Y=y),\ (x,y)\in S}
s'anomena funció de probabilitat conjunta o funció de repartiment de massa del vector ( X , Y ) {\displaystyle (X,Y)} . Quan hi ha un nombre petit de casos, com en aquest exemple, la funció de probabilitat s'acostuma a posar en una taula, anomenada taula de probabilitats conjuntes del vector i que determina la llei o distribució del vector.

X 0 1 2 3 1 0 3 / 8 3 / 8 0 Y 3 1 / 8 0 0 1 / 8 {\displaystyle {\begin{array}{cc|cccc}&&&X\\&&0&1&2&3\\\hline &1&0&3/8&3/8&0\\Y\\&3&1/8&0&0&1/8\\\hline \end{array}}}

Distribucions marginals

A partir d'aquesta taula, sumant per files o columnes, es dedueixen les funcions de probabilitat de les variables X {\displaystyle X} i Y {\displaystyle Y} , que denotem per p X {\displaystyle p_{X}} i p Y {\displaystyle p_{Y}} i que s'anomenen distribucions marginals de X {\displaystyle X} i de Y {\displaystyle Y} respectivament, o taules de probabilitats marginals:

x 0 1 2 3 p X ( x ) 1 / 8 0 0 1 / 8 y 1 3 p Y ( y ) 3 / 4 1 / 4 {\displaystyle {\begin{array}{c|ccccc}\hline x&0&1&2&3\\\hline p_{X}(x)&1/8&0&0&1/8\\\hline \end{array}}\qquad \qquad {\begin{array}{c|ccc}\hline y&1&3\\\hline p_{Y}(y)&3/4&1/4\\\hline \end{array}}}
Independència de variables aleatòries Recordem que dues variables aleatòries X {\displaystyle X} i Y {\displaystyle Y} es diu que són independents si per a qualsevol A , B R {\displaystyle A,B\subset \mathbb {R} } (en rigor, conjunts de Borel A , B B ( R ) {\displaystyle A,B\in {\mathcal {B}}(\mathbb {R} )} ), els esdeveniments { X A } {\displaystyle \{X\in A\}} i { Y B } {\displaystyle \{Y\in B\}} són independents, això és,
P ( X A , Y B ) = P ( X A ) P ( Y B ) . {\displaystyle P{\big (}X\in A,Y\in B)=P(X\in A)\,P(Y\in B).}
Quan ambdues variables són discretes, aquesta condició es redueix a una sobre la funció de probabilitat conjunta: Les variables X {\displaystyle X} i Y {\displaystyle Y} són independents si i només si
p ( X , Y ) ( x , y ) = p X ( x ) p Y ( y ) , ( x , y ) S . {\displaystyle p_{(X,Y)}(x,y)=p_{X}(x)\,p_{Y}(y),\quad \forall (x,y)\in S.}
A l'exemple és evident que aquesta propietat no es compleix: per exemple,
p ( X , Y ) ( 0 , 1 ) = 0 p X ( 0 ) p Y ( 1 ) = 3 32 . {\displaystyle p_{(X,Y)}(0,1)=0\neq p_{X}(0)\,p_{Y}(1)={\frac {3}{32}}.}

Distribucions condicionades

Atès que l'esdeveniment { Y = 1 } {\displaystyle \{Y=1\}} (obtenir exactament una cara) té probabilitat estrictament positiva, podem calcular les probabilitat condicionada:

P ( X = 0 | Y = 1 ) = P ( X = 0 , Y = 1 ) P ( Y = 1 ) = 0. {\displaystyle P(X=0\,\vert \,Y=1)={\frac {P(X=0,Y=1)}{P(Y=1)}}=0.}

Anàlogament,

P ( X = 1 | Y = 1 ) = 1 / 2 , P ( X = 2 | Y = 1 ) = 1 / 2 i P ( X = 3 | Y = 1 ) = 0. {\displaystyle P(X=1\,\vert \,Y=1)=1/2,\quad P(X=2\,\vert \,Y=1)=1/2\quad {\text{i}}\quad P(X=3\,\vert \,Y=1)=0.}
Per tant, fixat Y = 1 {\displaystyle Y=1} , tenim definida una probabilitat sobre el conjunt { 0 , 1 , 2 , 3 } {\displaystyle \{0,1,2,3\}} , de fet, només cal considerar el conjunt { 1 , 2 } {\displaystyle \{1,2\}} , que s'anomena la distribució de X {\displaystyle X} condicionada per Y = 1 {\displaystyle Y=1} , per a la qual es dóna la funció de probabilitat condicionada
p X | Y ( 1 | 1 ) = 1 2 i p X | Y ( 2 | 1 ) = 1 2 , {\displaystyle p_{X\vert Y}(1|1)={\frac {1}{2}}\quad {\text{i}}\quad p_{X\vert Y}(2|1)={\frac {1}{2}},}
i que es pot representar per la taula
x 1 2 p X | Y ( x | 1 ) 1 / 2 1 / 2 {\displaystyle {\begin{array}{c|cc}\hline x&1&2\\\hline p_{X\vert Y}(x|1)&1/2&1/2\\\hline \end{array}}}
Anàlogament, tenim la distribució de condicionada per Y = 3 {\displaystyle Y=3} donada a la següent taula:
x 0 3 p X | Y ( x | 3 ) 1 / 2 1 / 2 {\displaystyle {\begin{array}{c|cc}\hline x&0&3\\\hline p_{X\vert Y}(x|3)&1/2&1/2\\\hline \end{array}}}
Esperança d'un vector. Es defineix l'esperança del vector ( X , Y ) {\displaystyle (X,Y)} com el vector E [ ( X , Y ) ] = ( E [ X ] , E [ Y ] ) {\displaystyle {\boldsymbol {E}}[(X,Y)]=(E[X],E[Y])} . Concretament, atès que
E [ X ] = 0 1 8 + 1 3 8 + 2 3 8 + 0 1 8 = 9 8 i E [ Y ] = 1 3 4 + 3 1 4 = 3 2 , {\displaystyle E[X]=0\cdot {\frac {1}{8}}+1\cdot {\frac {3}{8}}+2\cdot {\frac {3}{8}}+0\cdot {\frac {1}{8}}={\frac {9}{8}}\quad {\text{i}}\quad E[Y]=1\cdot {\frac {3}{4}}+3\cdot {\frac {1}{4}}={\frac {3}{2}},}
tenim que E [ ( X , Y ) ] = ( 9 / 8 , 3 / 2 ) {\displaystyle E[(X,Y)]=(9/8,3/2)} .

Matriu de variàncies-covariàncies d'un vector. La matriu

V ( ( X , Y ) ) = ( Var ( X ) Cov ( X , Y ) Cov ( X , Y ) Var ( Y ) ) {\displaystyle {\boldsymbol {V}}{\big (}(X,Y){\big )}={\begin{pmatrix}{\text{Var}}(X)&{\text{Cov}}(X,Y)\\{\text{Cov}}(X,Y)&{\text{Var}}(Y)\end{pmatrix}}}
s'anomena matriu de variàncies-covariàncies o matriu de dispersió del vector ( X , Y ) {\displaystyle (X,Y)} . Tenim que
Var ( X ) = E [ X 2 ] ( E [ X ] ) 2 = 15 8 81 64 = 39 64 . {\displaystyle {\text{Var}}(X)=E[X^{2}]-{\big (}E[X]{\big )}^{2}={\frac {15}{8}}-{\frac {81}{64}}={\frac {39}{64}}.}
De la mateixa manera es calcula que Var ( Y ) = 3 / 2 {\displaystyle {\text{Var}}(Y)=3/2} . Per calcular la covariància farem servir que
Cov ( X , Y ) = E [ X Y ] E [ X ] E [ Y ] . {\displaystyle {\text{Cov}}(X,Y)=E[XY]-E[X]E[Y].}
Ara, per obtenir E [ X Y ] {\displaystyle E[XY]} , necessitem utilitzar la funció de probabilitat conjunta de ( X , Y ) {\displaystyle (X,Y)} :
E [ X Y ] = 0 1 0 + 1 1 1 8 + 2 1 3 8 + = 7 4 , {\displaystyle E[XY]=0\cdot 1\cdot 0+1\cdot 1\cdot {\frac {1}{8}}+2\cdot 1\cdot {\frac {3}{8}}+\cdots ={\frac {7}{4}},}
d'on, Cov ( X , Y ) = 1 / 16 {\displaystyle {\text{Cov}}(X,Y)=1/16} . Així, la matriu de variàncies-covariàncies és
V ( ( X , Y ) ) = ( 39 64 1 4 1 4 3 2 ) {\displaystyle {\boldsymbol {V}}{\big (}(X,Y){\big )}={\begin{pmatrix}{\tfrac {39}{64}}&{\tfrac {1}{4}}\\{\tfrac {1}{4}}&{\tfrac {3}{2}}\end{pmatrix}}}

Exemple 2. Vector aleatori bidimensional continu

De manera anàloga al cas d'una variable aleatòria absolutament contínua, es diu que un vector ( X , Y ) {\displaystyle (X,Y)} és absolutament continu si existeix una funció f ( X , Y ) : R 2 R {\displaystyle f_{(X,Y)}:\mathbb {R} ^{2}\to \mathbb {R} } , anomenada funció de densitat (conjunta), que compleix

1. f ( X , Y ) ( x , y ) 0 ,     ( x , y ) R 2 . {\displaystyle f_{(X,Y)}(x,y)\geq 0,\ \ \forall (x,y)\in \mathbb {R} ^{2}.}
2.
f ( X , Y ) ( x , y ) d x d y = 1. {\displaystyle \int _{-\infty }^{\infty }\int _{-\infty }^{\infty }f_{(X,Y)}(x,y)\,dx\,dy=1.}
3. Per qualsevol B R 2 {\displaystyle B\subset \mathbb {R} ^{2}} (en rigor, conjunt de Borel de R 2 {\displaystyle \mathbb {R} ^{2}} ,

P ( ( X , Y ) B ) = B f ( X , Y ) ( x , y ) d x d y . {\displaystyle P{\big (}(X,Y)\in B{\big )}=\iint _{B}f_{(X,Y)}(x,y)\,dx\,dy.}

Figura 1. Triangle T {\displaystyle T}

Com exemple, sigui ( X , Y ) {\displaystyle (X,Y)} un vector aleatori bidimensional amb distribució uniforme en el triangle T {\displaystyle T} de vèrtexs els punts (0,0), (1,0) i (1,1) (vegeu la Figura 1). La funció de densitat conjunta és

f ( X , Y ) ( x , y ) = { 2 , si   ( x , y ) T , 0 , en cas contrari. {\displaystyle f_{(X,Y)}(x,y)={\begin{cases}2,&{\text{si}}\ (x,y)\in T,\\0,&{\text{en cas contrari.}}\end{cases}}}

La funció de densitat (marginal) de Y {\displaystyle Y} es calcula per la fórmula:

f Y ( y ) = f ( X , Y ) ( x , y )   d x {\displaystyle f_{Y}(y)=\int _{-\infty }^{\infty }f_{(X,Y)}(x,y)\ dx}

Ara cal distingir dos casos:

1. Fixada y ( 0 , 1 ) {\displaystyle y\notin (0,1)} , aleshores f ( X , Y ) ( x , y ) = 0 ,   x {\displaystyle f_{(X,Y)}(x,y)=0,\ \forall x} . És evident que f Y ( y ) = 0. {\displaystyle f_{Y}(y)=0.}

2. Fixada y ( 0 , 1 ) {\displaystyle y\in (0,1)} ,

f ( X , Y ) ( x , y ) = { 2 , si   x ( y , 1 ) , 0 , en cas contrari. {\displaystyle f_{(X,Y)}(x,y)={\begin{cases}2,&{\text{si}}\ x\in (y,1),\\0,&{\text{en cas contrari.}}\end{cases}}}

Llavors

f Y ( y ) = f ( X , Y ) ( x , y ) d x = y 1 2 d x = 2 ( 1 y ) . {\displaystyle f_{Y}(y)=\int _{-\infty }^{\infty }f_{(X,Y})(x,y)\,dx=\int _{y}^{1}2\,dx=2(1-y).}

Figura 2. Densitat marginal de la variable Y

Ajuntant ambdós casos tenim, vegeu la Figura 2,

f Y ( y ) = { 2 ( 1 y ) , si   y ( 0 , 1 ) , 0 , en cas contrari. {\displaystyle f_{Y}(y)={\begin{cases}2(1-y),&{\text{si}}\ y\in (0,1),\\0,&{\text{en cas contrari.}}\end{cases}}}

Figura 3. Densitat marginal variable X

De manera anàloga s'obté que la densitat marginal de X {\displaystyle X} és, vegeu la Figura 3,

f X ( x ) = f ( X , Y ) ( x , y ) d y = { 2 x , si   x ( 0 , 1 ) , 0 , en cas contrari. {\displaystyle f_{X}(x)=\int _{-\infty }^{\infty }f_{(X,Y)}(x,y)\,dy={\begin{cases}2x,&{\text{si}}\ x\in (0,1),\\0,&{\text{en cas contrari.}}\end{cases}}}

Ara podem calcular la densitat condicionada f X | Y ( x | y ) {\displaystyle f_{X|Y}(x|y)} , que només es calculara per a y ( 0 , 1 ) {\displaystyle y\in (0,1)}

f X | Y ( x | y ) = f ( X , Y ) ( x , y ) f Y ( y ) = { 1 1 y , quan   x ( y , 1 ) , 0 , en cas contrari . {\displaystyle f_{X|Y}(x|y)={\frac {f_{(X,Y)}(x,y)}{f_{Y}(y)}}={\begin{cases}{\dfrac {1}{1-y}},&{\text{quan}}\ x\in (y,1),\\0,&{\text{en cas contrari}}.\end{cases}}}

Funció de densitat condicionada
Figura 3. Funció de densitat condicionada

Vegeu la Figura 4. Noteu que els papers de x {\displaystyle x} i de y {\displaystyle y} són completament diferents. Fixada la y ( 0 , 1 ) {\displaystyle y\in (0,1)} tenim una funció de densitat en x {\displaystyle x} . De fet, en aquest cas, es tracta de la densitat d'una distribució uniforme en l'interval ( y , 1 ) . {\displaystyle (y,1).}

Per obtenir l'esperança del vector ( X , Y ) {\displaystyle (X,Y)} s'ha de calcular l'esperança de cada component utilitzant les fórmules corresponents al cas absolutament contínu:

E [ X ] = x f X ( x ) d x = 2 0 1 x 2 d x = 2 3 . {\displaystyle E[X]=\int _{-\infty }^{\infty }xf_{X}(x)\,dx=2\int _{0}^{1}x^{2}\,dx={\frac {2}{3}}.}

També, E [ Y ] = 2 / 3 {\displaystyle E[Y]=2/3} . Així, E [ X ] = ( 2 / 3 , 2 / 3 ) {\displaystyle E[{\boldsymbol {X}}]=(2/3,2/3)} .

El moment de segon ordre de X {\displaystyle X} és:

E [ X 2 ] = x 2 f X ( x ) d x = 2 0 1 x 3 d x = 1 2 . {\displaystyle E[X^{2}]=\int _{-\infty }^{\infty }x^{2}f_{X}(x)\,dx=2\int _{0}^{1}x^{3}\,dx={\frac {1}{2}}.}
D'on
Var ( X ) = E [ X 2 ] ( E [ X ] ) 2 = 1 2 4 9 = 1 18 . {\displaystyle {\text{Var}}(X)=E[X^{2}]-{\big (}E[X]{\big )}^{2}={\frac {1}{2}}-{\frac {4}{9}}={\frac {1}{18}}.}

I el mateix dóna Var ( Y ) {\displaystyle {\text{Var}}(Y)} .

Finalment, per calcular la covariància,

E [ X Y ] = x y f ( X , Y ) ( x , y ) d x d y = T x y d x d y = x = 0 1 y = 0 x x y d x d y = 1 6 . {\displaystyle E[XY]=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }xy\,f_{(X,Y)}(x,y)\,dx\,dy=\iint _{T}xy\,dx\,dy=\int _{x=0}^{1}\int _{y=0}^{x}xy\,dx\,dy={\frac {1}{6}}.}
Aleshores,
Cov ( X , Y ) = E [ X Y ] E [ X ] E [ Y ] = 1 6 4 9 = 5 18 . {\displaystyle {\text{Cov}}(X,Y)=E[XY]-E[X]\,E[Y]={\frac {1}{6}}-{\frac {4}{9}}=-{\frac {5}{18}}.}
Per tant, la matriu de variàncies covariàncies dóna
V ( ( X , Y ) ) = (       1 18 5 18 5 18       1 18 ) {\displaystyle {\boldsymbol {V}}{\big (}(X,Y){\big )}={\begin{pmatrix}~~~{\tfrac {1}{18}}&-{\tfrac {5}{18}}\\-{\tfrac {5}{18}}&~~~{\tfrac {1}{18}}\end{pmatrix}}}

Notes

  1. 1,0 1,1 1,2 Sanz, Marta. Probabilitats. Barcelona: Edicions Universitat de Barcelona, 1999, p. 66-68. ISBN 84-8338-091-9. 
  2. Anderson, T. W.. An introduction to multivariate statistical analysis. 3a edició. Hoboken, N.J.: Wiley-Interscience, 2003. ISBN 0-471-36091-0. 
  3. Forbes, C.; Evans, M.; Hastings, N.; Peacock, B. Statistical distributions.. 4th ed.. Oxford: Wiley-Blackwell, 2010, pp.135-136. ISBN 978-0-470-62724-2. 
  4. Sanz, Marta. Probabilitats. Barcelona: Edicions Universitat de Barcelona, 1999, p. 90. ISBN 84-8338-091-9. 
  5. 5,0 5,1 Johnson, Norman Lloyd. Discrete multivariate distributions. Nova York: Wiley, 1997, p. 2-3. ISBN 0-471-12844-9. 
  6. Cuppens, Roger. Decomposition of multivariate probabilities. Nova York: Academic Press, 1975, p. 52. ISBN 0-12-199450-3. 
  7. Seber, G. A. F.. Linear regression analysis. 2a edició. Hoboken, N.J.: Wiley-Interscience, 2003, p. 5-8. ISBN 0-471-41540-5. 
  8. Sato, Ken-iti. Lévy processes and infinitely divisible distributions. Cambridge, U.K.: Cambridge University Press, 1999, p. 9. ISBN 0-521-55302-4. 
  9. 9,0 9,1 Athreya, Krishna B. Measure theory and probability theory. Nova York: Springer, 2006, p. 198-199. ISBN 0-387-32903-X. 
  10. 10,0 10,1 Hoffmann-Jørgensen, J. Probability with a view toward statistics. New York, NY: Chapman & Hall, 1994. ISBN 0-412-05221-0. 
  11. 11,0 11,1 11,2 Seber, G. A. F.. Linear regression analysis. 2a edició. Hoboken, N.J.: Wiley-Interscience, 2003, p. 13-14. ISBN 0-471-41540-5. 
  12. Debnath, Joyati; Dahiya, R.S. «Theorems on multidimensional laplace transform for solution of boundary value problems» (en anglès). Computers & Mathematics with Applications, 18, 12, 1989, pàg. 1033–1056. DOI: 10.1016/0898-1221(89)90031-X.
  13. Anderson, T. W.. An introduction to multivariate statistical analysis. 3a edició. Hoboken, N.J.: Wiley-Interscience, 2003, p. 55. ISBN 0-471-36091-0. 
  14. 14,0 14,1 14,2 Kimmel, Marek. Branching processes in biology. Nova York: Springer, 2002, p. Appendix A. ISBN 0-387-95340-X. 
  15. NIST handbook of mathematical functions. Cambridge: Cambridge University Press, 2010, p. Item 26.1.1. ISBN 978-0-521-19225-5. 
  16. Johnson, Norman Lloyd. Discrete multivariate distributions. Nova York: Wiley, 1997, p. 4. ISBN 0-471-12844-9. 
  17. Sanz, Marta. Probabilitats. Barcelona: Edicions Universitat de Barcelona, 1999, p. 73. ISBN 84-8338-091-9. 
  18. Seber, G. A. F.. A matrix handbook for statisticians. Hoboken, N.J.: Wiley-Interscience, 2008, p. 225, propietat 10.32. ISBN 978-0-470-22678-0. 
  19. Per definició, les matrius definides positives són simètriques
  20. Per un resultat semblant vegeuCasella, George. Statistical inference. 2a edició. Australia: Thomson Learning, 2002, p. 185. ISBN 0-534-24312-6. 
  21. Johnson, Norman Lloyd. Discrete multivariate distributions. Nova York: Wiley, 1997, p. 35. ISBN 0-471-12844-9. 
  22. Seber, G. A. F.. A matrix handbook for statisticians. Hoboken, N.J.: Wiley-Interscience, 2008, p. 439. ISBN 978-0-470-22678-0.