Independència condicional

En teoria de la probabilitat, dos esdeveniments aleatoris A {\displaystyle A} i B {\displaystyle B} són condicionalment independents donat un tercer esdeveniment C {\displaystyle C} precisament si l'ocurrència d' A {\displaystyle A} i l'ocurrència de B {\displaystyle B} són esdeveniments independents en la seva distribució de probabilitat condicional donada C {\displaystyle C} . En altres paraules, A {\displaystyle A} i B {\displaystyle B} són independents condicionalment donat C {\displaystyle C} si i només si, tenint en compte que C {\displaystyle C} es produeix, se sap que si es produeix A {\displaystyle A} no proporciona informació sobre la probabilitat que es produeixi B {\displaystyle B} , i el coneixement de si es produeix B {\displaystyle B} no proporciona informació sobre la probabilitat que es produeixi A {\displaystyle A} .

El concepte d'independència condicional es pot estendre des d'esdeveniments aleatoris a variables aleatòries i vectors aleatoris.

Independència condicional dels esdeveniments

Definició

En la notació estàndard de la teoria de la probabilitat, A {\displaystyle A} i B {\displaystyle B} són condicionalment independents C {\displaystyle C} si i només si Pr ( A B C ) = Pr ( A C ) Pr ( B C ) {\displaystyle \Pr(A\cap B\mid C)=\Pr(A\mid C)\Pr(B\mid C)} . La independència condicional de A {\displaystyle A} i B {\displaystyle B} donat C {\displaystyle C} es denota com ( A B ) C {\displaystyle (A\perp \!\!\!\perp B)\mid C} . Formalment:

( A B ) C Pr ( A B C ) = Pr ( A C ) Pr ( B C ) {\displaystyle (A\perp \!\!\!\perp B)\mid C\quad \iff \quad \Pr(A\cap B\mid C)=\Pr(A\mid C)\Pr(B\mid C)}

 

 

 

 

(Eq.1)

o de forma equivalent,

( A B ) C Pr ( A B C ) = Pr ( A C ) o Pr ( B C ) = 1. {\displaystyle (A\perp \!\!\!\perp B)\mid C\quad \iff \quad \Pr(A\mid B\cap C)=\Pr(A\mid C)\quad {\text{o}}\quad \Pr(B\mid C)=1.}

Exemples

La discussió sobre StackExchange proporciona un parell d'exemples útils (vegeu la referència).[1]

Caselles de colors

Cada casella representa un possible resultat. Els esdeveniments R {\displaystyle \color {red}R} , B {\displaystyle \color {blue}B} i Y {\displaystyle \color {gold}Y} estan representats per les zones pintades de vermell, blau i groc respectivament. La intersecció entre els esdeveniments R {\displaystyle \color {red}R} i B {\displaystyle \color {blue}B} es pinta de porpra.

  • Aquests són dos exemples que il·lustren la independència condicional
    Aquests són dos exemples que il·lustren la independència condicional

Les probabilitats d'aquests esdeveniments són zones ombrejades respecte a l'àrea total. En els dos exemples R {\displaystyle \color {red}R} i B {\displaystyle \color {blue}B} són condicionalment independents donat Y {\displaystyle \color {gold}Y} perquè:

Pr ( R B Y ) = Pr ( R Y ) Pr ( B Y ) {\displaystyle \Pr({\color {red}R}\cap {\color {blue}B}\mid {\color {gold}Y})=\Pr({\color {red}R}\mid {\color {gold}Y})\Pr({\color {blue}B}\mid {\color {gold}Y})} [Nota 1]

però no són condicionalment independents donat [ no  Y ] {\displaystyle \left[{\text{no }}{\color {gold}Y}\right]} perquè:

Pr ( R B no  Y ) Pr ( R no  Y ) Pr ( B no  Y ) {\displaystyle \Pr({\color {red}R}\cap {\color {blue}B}\mid {\text{no }}{\color {gold}Y})\not =\Pr({\color {red}R}\mid {\text{no }}{\color {gold}Y})\Pr({\color {blue}B}\mid {\text{no }}{\color {gold}Y})}

Clima i retards

Sigui dos esdeveniments que siguin les probabilitats que les persones A {\displaystyle A} i B {\displaystyle B} tornin a casa a temps per sopar i el tercer esdeveniment C {\displaystyle C} és que una tempesta de neu afecti a la ciutat. Si tant A {\displaystyle A} com B {\displaystyle B} tinguessin una menor probabilitat d'arribar a casa a temps per sopar, aquestes probabilitats inferiors encara seran independents les unes de les altres. És a dir, el coneixement que A {\displaystyle A} arriba tard no indica si B {\displaystyle B} arribarà tard (poden viure a diferents barris, recórrer distàncies diferents i utilitzar diferents mitjans de transport). Tanmateix, si es té informació que viuen al mateix barri, utilitzen el mateix transport i treballen al mateix lloc, aleshores els dos esdeveniments NO són condicionalment independents si es veuen afectats per la tempesta de neu.

Suma de daus

La independència condicional depèn de la naturalesa del tercer esdeveniment. Si es llancen dos daus ( A {\displaystyle A} i B {\displaystyle B} ), es pot suposar que els dos daus es comporten independentment l'un del altre. Si ens fixem en els resultats d'una matriu, no té relació amb l'altra matriu (és a dir, els dos daus són independents). Però si el primer resultat és 3, i algú us explica un tercer esdeveniment C {\displaystyle C} (per exemple, que la suma dels dos resultats sigui parell), aquesta informació addicional restringeix les opcions del segon resultat per a un nombre senar. És a dir, els dos esdeveniments poden ser independents, però NO condicionalment independents.

Alçada i vocabulari dels nens

L'alçada A {\displaystyle A} i el vocabulari B {\displaystyle B} són independents; però no són condicionalment independents si s'afegeix l'edat C {\displaystyle C} .

Independència condicional de variables aleatòries

Dues variables aleatòries X {\displaystyle X} i Y {\displaystyle Y} són independents condicionals donada una tercera variable aleatòria Z {\displaystyle Z} si i només si són independents en la distribució de probabilitats condicionals que dona Z {\displaystyle Z} . Això és, X {\displaystyle X} i Y {\displaystyle Y} són condicionalment independents donat Z {\displaystyle Z} si i només si, donat qualsevol valor de Z {\displaystyle Z} , la distribució de probabilitats de X {\displaystyle X} és el mateix per a tots els valors de Y {\displaystyle Y} i la distribució de probabilitats de Y {\displaystyle Y} és el mateix per a tots els valors de X {\displaystyle X} . Formalment:

( X Y ) Z F X , Y Z = z ( x , y ) = F X Z = z ( x ) F Y Z = z ( y ) per a tot  x , y , z {\displaystyle (X\perp \!\!\!\perp Y)\mid Z\quad \iff \quad F_{X,Y\,\mid \,Z\,=\,z}(x,y)=F_{X\,\mid \,Z\,=\,z}(x)\cdot F_{Y\,\mid \,Z\,=\,z}(y)\quad {\text{per a tot }}x,y,z}

 

 

 

 

(Eq.2)

on F X , Y Z = z ( x , y ) = Pr ( X x , Y y Z = z ) {\displaystyle F_{X,Y\,\mid \,Z\,=\,z}(x,y)=\Pr(X\leq x,Y\leq y\mid Z=z)} és la funció de distribució acumulada condicional de X {\displaystyle X} i Y {\displaystyle Y} donat Z {\displaystyle Z} .

Dos esdeveniments R {\displaystyle R} i B {\displaystyle B} són condicionalment independents donada una σ-àlgebra Σ {\displaystyle \Sigma } si

Pr ( R B Σ ) = Pr ( R Σ ) Pr ( B Σ )  a.s. {\displaystyle \Pr(R\cap B\mid \Sigma )=\Pr(R\mid \Sigma )\Pr(B\mid \Sigma ){\text{ a.s.}}}

on Pr ( A Σ ) {\displaystyle \Pr(A\mid \Sigma )} denota l'esperança condicional de la funció indicatriu de l'esdeveniment A {\displaystyle A} , χ A {\displaystyle \chi _{A}} , donada la σ-àlgebra Σ {\displaystyle \Sigma } . Això és,

Pr ( A Σ ) := E [ χ A Σ ] . {\displaystyle \Pr(A\mid \Sigma ):=\operatorname {E} [\chi _{A}\mid \Sigma ].}

Dues variables aleatòries X {\displaystyle X} i Y {\displaystyle Y} són condicionalment independents donada una σ-àlgebra Σ {\displaystyle \Sigma } si l'equació anterior es manté per a tots R {\displaystyle R} en σ ( X ) {\displaystyle \sigma (X)} i B {\displaystyle B} en σ ( Y ) {\displaystyle \sigma (Y)} .

Dues variables aleatòries X {\displaystyle X} i Y {\displaystyle Y} són condicionalment independents donada una variable aleatòria W {\displaystyle W} si són independents, donat σ ( W ) {\displaystyle \sigma (W)} : la σ-àlgebra generada per W {\displaystyle W} . Això s'escriu comunament:

X Y W {\displaystyle X\perp \!\!\!\perp Y\mid W} o
X Y W {\displaystyle X\perp Y\mid W}

Això es llegeix « X {\displaystyle X} és independent de Y {\displaystyle Y} , donat W {\displaystyle W} »; el condicionament s'aplica a tota la declaració: «( X {\displaystyle X} és independent de Y {\displaystyle Y} ) donat W {\displaystyle W} ».

( X Y ) W {\displaystyle (X\perp \!\!\!\perp Y)\mid W}

Si W {\displaystyle W} assumeix un conjunt de valors comptable, que equival a la independència condicional de X {\displaystyle X} i Y {\displaystyle Y} per als esdeveniments de la forma [ W = w ] {\displaystyle [W=w]} .

La independència condicional de més de dos esdeveniments, o de més de dues variables aleatòries, es defineix de manera analògica.

Els dos exemples següents mostren que X Y {\displaystyle X\perp \!\!\!\perp Y} ni implica ni està implicada per ( X Y ) W {\displaystyle (X\perp \!\!\!\perp Y)\mid W} .

  • Primer, suposem que W = 0 {\displaystyle W=0} amb la probabilitat 0,5 i en cas contrari 1. Quan W = 0 {\displaystyle W=0} agafa X {\displaystyle X} i Y {\displaystyle Y} per ser independents, cadascun té el valor 0 amb la probabilitat 0,99 i el valor 1 en cas contrari. Quan W = 1 {\displaystyle W=1} , X {\displaystyle X} i Y {\displaystyle Y} tornen a ser independents, però aquesta vegada prenen el valor 1 amb la probabilitat 0,99. Aleshores ( X Y ) W {\displaystyle (X\perp \!\!\!\perp Y)\mid W} . Pero X {\displaystyle X} i Y {\displaystyle Y} són dependents, perquè P r ( X = 0 ) < P r ( X = 0 | Y = 0 ) {\displaystyle Pr(X=0)<Pr(X=0|Y=0)} . Això és perquè P r ( X = 0 ) = 0.5 {\displaystyle Pr(X=0)=0.5} , però si Y = 0 {\displaystyle Y=0} llavors és molt probable que això W = 0 {\displaystyle W=0} i així això X = 0 {\displaystyle X=0} és també així P r ( X = 0 | Y = 0 ) > 0.5 {\displaystyle Pr(X=0|Y=0)>0.5} .
  • Per al segon exemple, suposem que X Y {\displaystyle X\perp \!\!\!\perp Y} , cadascuna prenent els valors 0 i 1 amb probabilitat 0,5. Fem que W {\displaystyle W} sigui el producte X Y {\displaystyle X\cdot Y} . Llavors quan W = 0 {\displaystyle W=0} , P r ( X = 0 ) = 2 / 3 {\displaystyle Pr(X=0)=2/3} , però P r ( X = 0 | Y = 0 ) = 1 / 2 {\displaystyle Pr(X=0|Y=0)=1/2} , com ( X Y ) W {\displaystyle (X\perp \!\!\!\perp Y)\mid W} és fals.

Consulteu el tutorial de Kevin Murphy on X {\displaystyle X} i Y {\displaystyle Y} agafa els valors «mentals» i «esportius».[2]

Independència condicional de vectors aleatoris

Dos vectors aleatoris X = ( X 1 , , X l ) T {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{l})^{\mathrm {T} }} i Y = ( Y 1 , , Y m ) T {\displaystyle \mathbf {Y} =(Y_{1},\ldots ,Y_{m})^{\mathrm {T} }} són condicionalment independents donat un tercer vector aleatori Z = ( Z 1 , , Z n ) T {\displaystyle \mathbf {Z} =(Z_{1},\ldots ,Z_{n})^{\mathrm {T} }} si i només si són independents en la seva distribució acumulada condicional donada Z {\displaystyle \mathbf {Z} } . Formalment:

( X Y ) Z F X , Y | Z = z ( x , y ) = F X Z = z ( x ) F Y Z = z ( y )  per a tot  x , y , z {\displaystyle (\mathbf {X} \perp \!\!\!\perp \mathbf {Y} )\mid \mathbf {Z} \quad \iff \quad F_{\mathbf {X} ,\mathbf {Y} |\mathbf {Z} =\mathbf {z} }(\mathbf {x} ,\mathbf {y} )=F_{\mathbf {X} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} )\cdot F_{\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {y} )\quad {\text{ per a tot }}\mathbf {x} ,\mathbf {y} ,\mathbf {z} }

 

 

 

 

(Eq.3)

on x = ( x 1 , , x l ) T {\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{l})^{\mathrm {T} }} , y = ( y 1 , , y m ) T {\displaystyle \mathbf {y} =(y_{1},\ldots ,y_{m})^{\mathrm {T} }} i z = ( z 1 , , z n ) T {\displaystyle \mathbf {z} =(z_{1},\ldots ,z_{n})^{\mathrm {T} }} i les distribucions acumulatives condicionals es defineixen de la manera següent.

F X , Y Z = z ( x , y ) = Pr ( X 1 x 1 , , X l x l , Y 1 y 1 , , Y m y m Z 1 = z 1 , , Z n = z n ) F X Z = z ( x ) = Pr ( X 1 x 1 , , X l x l Z 1 = z 1 , , Z n = z n ) F Y Z = z ( y ) = Pr ( Y 1 y 1 , , Y m y m Z 1 = z 1 , , Z n = z n ) {\displaystyle {\begin{aligned}F_{\mathbf {X} ,\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} ,\mathbf {y} )&=\Pr(X_{1}\leq x_{1},\ldots ,X_{l}\leq x_{l},Y_{1}\leq y_{1},\ldots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\\[6pt]F_{\mathbf {X} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {x} )&=\Pr(X_{1}\leq x_{1},\ldots ,X_{l}\leq x_{l}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\\[6pt]F_{\mathbf {Y} \,\mid \,\mathbf {Z} \,=\,\mathbf {z} }(\mathbf {y} )&=\Pr(Y_{1}\leq y_{1},\ldots ,Y_{m}\leq y_{m}\mid Z_{1}=z_{1},\ldots ,Z_{n}=z_{n})\end{aligned}}}

Usos en inferència bayesiana

Sigui p la proporció de votants que votaran «sí» en un proper referèndum. En fer una enquesta d'opinió, es tria n votants a l'atzar entre la població. Per a i = 1, ..., n, fem Xi = 1 o 0 corresponent, respectivament, a si el votant escollit votarà o no votarà «sí».

En un enfocament de freqüència d'inferència estadística, no s'atribuiria cap distribució de probabilitats a p (tret que les probabilitats es poguessin interpretar d'alguna manera com a freqüències relatives d'ocurrència d'algun esdeveniment o com a proporcions d'alguna població) i es diria que X1, ..., Xn són variables aleatòries independents.

Per contra, en un enfocament bayesià d'inferència estadística, es podria assignar una distribució de probabilitats a p independentment de la inexistència d'alguna interpretació d'aquest tipus de «freqüència», i es deuria interpretar les probabilitats com a graus de creença que p es troba en qualsevol interval a que s'assigna una probabilitat. En aquest model, les variables aleatòries X1, ..., Xn no són independents, però són condicionalment independents atès el valor de p. En particular, si s'observa que un gran nombre de X són iguals a 1, això implicaria una alta probabilitat condicional, atès que l'observació, que p és a prop d'1, i per tant una alta probabilitat condicional, donada aquesta observació, que la següent. X a observar serà igual a 1.

Les normes de la independència condicional

De la definició bàsica s'han derivat un conjunt de regles que regulen les declaracions d'independència condicional.[3][4]

  • Nota: ja que aquestes implicacions contenen qualsevol espai de probabilitat, es continuaran mantenint si es considera un subunivers que condiciona tot sobre una altra variable, K {\displaystyle K} . Per exemple, X Y Y X {\displaystyle X\perp \!\!\!\perp Y\Rightarrow Y\perp \!\!\!\perp X} també voldria dir això X Y K Y X K {\displaystyle X\perp \!\!\!\perp Y\mid K\Rightarrow Y\perp \!\!\!\perp X\mid K} .
  • Nota: a continuació, la coma es pot llegir com una «i».

Simetria

X Y Y X {\displaystyle X\perp \!\!\!\perp Y\quad \Rightarrow \quad Y\perp \!\!\!\perp X}

Decomposició

X A , B  i  { X A X B {\displaystyle X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ i }}{\begin{cases}X\perp \!\!\!\perp A\\X\perp \!\!\!\perp B\end{cases}}}

Prova:

  • p X , A , B ( x , a , b ) = p X ( x ) p A , B ( a , b ) {\displaystyle p_{X,A,B}(x,a,b)=p_{X}(x)p_{A,B}(a,b)} (significat de X A , B {\displaystyle X\perp \!\!\!\perp A,B} )
  • B p X , A , B ( x , a , b ) d b = B p X ( x ) p A , B ( a , b ) d b {\displaystyle \int _{B}\!p_{X,A,B}(x,a,b)\,db=\int _{B}\!p_{X}(x)p_{A,B}(a,b)\,db} (ignora la variable B {\displaystyle B} integrant-la)
  • p X , A ( x , a ) = p X ( x ) p A ( a ) {\displaystyle p_{X,A}(x,a)=p_{X}(x)p_{A}(a)}

Una prova similar mostra la independència de X {\displaystyle X} i B {\displaystyle B} .

Unió feble

X A , B  i  { X A B X B A {\displaystyle X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ i }}{\begin{cases}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\mid A\end{cases}}}

Prova:

  • Per definició, Pr ( X ) = Pr ( X A , B ) {\displaystyle \Pr(X)=\Pr(X\mid A,B)} .
  • A causa de la propietat de la descomposició X B {\displaystyle X\perp \!\!\!\perp B} , Pr ( X ) = Pr ( X B ) {\displaystyle \Pr(X)=\Pr(X\mid B)} .
  • Combinant les dues igualitats anteriors dona Pr ( X B ) = Pr ( X A , B ) {\displaystyle \Pr(X\mid B)=\Pr(X\mid A,B)} , que estableix X A B {\displaystyle X\perp \!\!\!\perp A\mid B} .

La segona condició es pot demostrar de manera semblant.

Contracció

X A B X B }  i  X A , B {\displaystyle \left.{\begin{aligned}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\end{aligned}}\right\}{\text{ i }}\quad \Rightarrow \quad X\perp \!\!\!\perp A,B}

Prova: Aquesta propietat es pot comprovar escrivint Pr ( X A , B ) = Pr ( X B ) = Pr ( X ) {\displaystyle \Pr(X\mid A,B)=\Pr(X\mid B)=\Pr(X)} , cada igualtat de les quals són afirmades per X A B {\displaystyle X\perp \!\!\!\perp A\mid B} i X B {\displaystyle X\perp \!\!\!\perp B} , respectivament.

Contracció - unió feble - descomposició

Combinant els tres anteriors, tenim:

X A B X B }  i  X A , B  i  { X A B X B X B A X A {\displaystyle \left.{\begin{aligned}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\end{aligned}}\right\}{\text{ i }}\quad \iff \quad X\perp \!\!\!\perp A,B\quad \Rightarrow \quad {\text{ i }}{\begin{cases}X\perp \!\!\!\perp A\mid B\\X\perp \!\!\!\perp B\\X\perp \!\!\!\perp B\mid A\\X\perp \!\!\!\perp A\\\end{cases}}}

Intersecció

Per a les distribucions de probabilitats estrictament positives,[4] també es manté el següent:

X A C , B X B C , A }  i  X B , A C {\displaystyle \left.{\begin{aligned}X\perp \!\!\!\perp A\mid C,B\\X\perp \!\!\!\perp B\mid C,A\end{aligned}}\right\}{\text{ i }}\quad \Rightarrow \quad X\perp \!\!\!\perp B,A\mid C}

Les cinc regles anteriors es van anomenar «Axiomes dels grafoides» de Pearl i Paz, perquè contenen gràfics,[5] si X A B {\displaystyle X\perp \!\!\!\perp A\mid B} s'interpreta com «Tots els camins de X {\displaystyle X} a A {\displaystyle A} són interceptats pel conjunt B {\displaystyle B} ».[6]

Notes

  1. Per veure que és així, cal adonar-se’n que Pr(RB | Y) és la probabilitat que superposa R i B (la zona ombrejada de pòrpora) a l'àrea Y. Ja que, a la imatge de l'esquerra, hi ha dos quadrats on R i B es solapen dins de l'àrea Y, i l'àrea Y té dotze quadrats, Pr(RB | Y) = 2/12 = 1/6. De manera semblant, Pr(R | Y) = 4/12 = 1/3 i Pr(B | Y) = 6/12 = 1/2

Referències

  1. «Could someone explain conditional independence?» (en anglès).
  2. Murphy, Kevin. «A Brief Introduction to Graphical Models and Bayesian Networks» (en anglès), 1998.
  3. Dawid, A. P. «Conditional Independence in Statistical Theory» (en anglès). Journal of the Royal Statistical Society, Series B, 41(1), 1979, pàg. 1–31. JSTOR: 2984718.
  4. 4,0 4,1 Pearl, J. Causality: Models, Reasoning, and Inference (en anglès). Cambridge University Press, 2000. 
  5. Pearl, Judea; Paz, Azaria. Graphoids: A Graph-Based Logic for Reasoning About Relevance Relations (en anglès), 1985. 
  6. Pearl, Judea. Probabilistic reasoning in intelligent systems: networks of plausible inference (en anglès). Morgan Kaufmann, 1988. 

Vegeu també

  • Teorema de Finetti