Inégalité de Fano

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

L'inégalité de Fano est un résultat de théorie de l'information.

Énoncé

Pour deux variables aléatoires X {\displaystyle X} et Y {\displaystyle Y} prenant r + 1 {\displaystyle r+1} valeurs possibles, on a :

H ( X | Y ) H ( P e ) + P e log r {\displaystyle H(X|Y)\leq H(P_{e})+P_{e}\log r}

P e = P ( X Y ) {\displaystyle P_{e}=\mathbb {P} (X\neq Y)} est la probabilité d'erreur et H ( P e ) {\displaystyle H(P_{e})} est l'entropie de Shannon de la loi de Bernoulli de paramètre P e {\displaystyle P_{e}} .

Démonstration

Considérons E = δ X Y {\displaystyle E=\delta _{XY}} δ {\displaystyle \delta } est le symbole de Kronecker. E {\displaystyle E} suit une loi de Bernoulli de paramètre 1 P e {\displaystyle 1-P_{e}} . En appliquant deux fois la règle de la chaîne pour l'entropie conditionnelle, on a :

H ( X | Y ) = H ( X E | Y ) H ( E | X Y ) 0 = H ( E | Y ) + H ( X | E Y ) {\displaystyle H(X|Y)=H(XE|Y)-\underbrace {H(E|XY)} _{0}=H(E|Y)+H(X|EY)}

La donnée de X , Y {\displaystyle X,Y} permet de calculer E {\displaystyle E} donc le terme H ( E | X Y ) {\displaystyle H(E|XY)} est nul. On observe ensuite que H ( E | Y ) H ( E ) = H ( P e ) {\displaystyle H(E|Y)\leq H(E)=H(P_{e})} . Le terme restant est décomposé selon la valeur de E {\displaystyle E}  :

  • Quand E = 0 {\displaystyle E=0} , on majore simplement l'entropie H ( ( X | E = 0 ) | Y ) {\displaystyle H((X|E=0)|Y)} (entropie de la variable aléatoire X | E = 0 {\displaystyle X|E=0} conditionnellement à Y {\displaystyle Y} ) par log r {\displaystyle \log r} , puisqu'il n'y a que r {\displaystyle r} valeurs disponibles pour X {\displaystyle X} une fois la valeur de Y {\displaystyle Y} exclue ;
  • Quand E = 1 {\displaystyle E=1} , la donnée de Y {\displaystyle Y} détermine X {\displaystyle X} dont l'entropie est nulle.

On a donc :

H ( X | Y ) = H ( E | Y ) + H ( X | E Y ) H ( P e ) + P e log r {\displaystyle H(X|Y)=H(E|Y)+H(X|EY)\leq H(P_{e})+P_{e}\log r}

Interprétation en statistique

L'inégalité de Fano est fréquemment utilisée en statistique bayésienne pour montrer une borne inférieure sur l'erreur de l'estimateur d'un paramètre.

Par exemple, on considère une variable de Bernouilli Z B ( θ ) {\displaystyle Z\sim {\mathcal {B}}(\theta )} pour un paramètre θ { 1 / 3 , 2 / 3 } {\displaystyle \theta \in \{1/3,2/3\}} , que l'on suppose choisi uniformément parmi ces deux valeurs (c'est la distribution à priori). On veut prouver que l'estimateur θ ^ ( Z ) = { 1 / 3 si  Z = 0 2 / 3 si  Z = 1 {\displaystyle {\hat {\theta }}(Z)={\begin{cases}1/3\quad {\text{si }}Z=0\\2/3\quad {\text{si }}Z=1\end{cases}}} dont la probabilité d'erreur est de P e = P ( θ θ ^ ) = 1 / 3 {\displaystyle P_{e}=\mathbb {P(\theta \neq {\hat {\theta }})} =1/3} n'est pas améliorable.

On utilise pour cela l'inégalité de Fano, qui donne le résultat suivant H ( θ | θ ^ ) H ( P e ) + P e log 2 {\displaystyle H(\theta |{\hat {\theta }})\leq H(P_{e})+P_{e}\log 2} . Or, en explicitant la loi de ( θ , Z ) {\displaystyle (\theta ,Z)} on obtient H ( θ | θ ^ ) H ( θ | Z ) = H ( 1 / 3 ) {\displaystyle H(\theta |{\hat {\theta }})\geq H(\theta |Z)=H(1/3)} . Cela donne l'inégalité H ( 1 / 3 ) H ( P e ) + P e log 2 {\displaystyle H(1/3)\leq H(P_{e})+P_{e}\log 2} , qui est légèrement plus faible que le résultat attendu. Le résultat exact pourrait en fait être obtenu en utilisant une version plus forte de l'inégalité de Fano[1].

Notes et références

  1. Cover, Thomas M. Verfasser, Elements of Information Theory (ISBN 978-1-118-58577-1 et 1-118-58577-1, OCLC 897591118, lire en ligne)
  • icône décorative Portail de l’informatique
  • icône décorative Portail des probabilités et de la statistique