Inégalité de Hoeffding

En théorie des probabilités, l’inégalité de Hoeffding est une inégalité de concentration concernant les sommes de variables aléatoires indépendantes et bornées. Elle tire son nom du mathématicien et statisticien finlandais Wassily Hoeffding. Il existe une version plus générale de cette inégalité, concernant une somme d'accroissements de martingales, accroissements là encore bornés : cette version plus générale est parfois connue sous le nom d'inégalité d'Azuma-Hoeffding.

Énoncé

Inégalité de Hoeffding — Soit une suite   ( X k ) 1 k n   {\displaystyle \ (X_{k})_{1\leq k\leq n}\ } de variables aléatoires réelles indépendantes vérifiant, pour deux suites   ( a k ) 1 k n ,   {\displaystyle \ (a_{k})_{1\leq k\leq n},\ }   ( b k ) 1 k n   {\displaystyle \ (b_{k})_{1\leq k\leq n}\ } de nombres réels tels que   a k < b k ,   {\displaystyle \ a_{k}<b_{k},\ }

k , P ( a k X k b k ) = 1. {\displaystyle \forall k,\qquad \mathbb {P} (a_{k}\leq X_{k}\leq b_{k})=1.}

On pose

S n = X 1 + X 2 + + X n . {\displaystyle S_{n}=X_{1}+X_{2}+\dots +X_{n}.}

Alors, pour tout   t > 0 ,   {\displaystyle \ t>0,\ }

P ( S n E [ S n ] t ) exp ( 2 t 2 i = 1 n ( b i a i ) 2 ) , P ( S n E [ S n ] t ) exp ( 2 t 2 i = 1 n ( b i a i ) 2 ) , P ( | S n E [ S n ] | t ) 2 exp ( 2 t 2 i = 1 n ( b i a i ) 2 ) . {\displaystyle {\begin{array}{rl}\mathbb {P} \left(S_{n}-\mathbb {E} [S_{n}]\geq t\right)&\leq \exp \left(-{\frac {2\,t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\\\mathbb {P} \left(S_{n}-\mathbb {E} [S_{n}]\leq -t\right)&\leq \exp \left(-{\frac {2\,t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\\\mathbb {P} \left(\left|S_{n}-\mathbb {E} [S_{n}]\right|\geq t\right)&\leq 2\exp \left(-{\frac {2\,t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right).\end{array}}}
Bornes pour la dispersion de la loi binomiale de paramètres n et p=0,5, obtenues respectivement à l'aide de l'inégalité de Bienaymé-Tchebychev et à l'aide de l'inégalité de Hoeffding.

Cas de la loi binomiale

Dans cette section, nous allons comparer l'inégalité de Hoeffding et l'inégalité de Bienaymé-Tchebychev dans le cas de la loi binomiale. Supposons que pour tout k entre 1 et n, on ait

P ( X k = 1 ) = 1 P ( X k = 0 ) = p . {\displaystyle \mathbb {P} (X_{k}=1)=1-\mathbb {P} (X_{k}=0)=p.}

Alors   S n   {\displaystyle \ S_{n}\ } représente le nombre de piles obtenus à un jeu de pile ou face avec n lancers et où p est la probabilité d'avoir pile sur un lancer.   S n   {\displaystyle \ S_{n}\ } suit la loi binomiale de paramètres n et p. Nous avons les inégalités suivantes, pour tout x > 0 {\displaystyle x>0}  :

  • L'inégalité de Bienaymé-Tchebychev donne : P ( | S n E [ S n ] | x n ) p ( 1 p ) x 2 , {\displaystyle \mathbb {P} \left(\left|S_{n}-\mathbb {E} [S_{n}]\right|\geq x{\sqrt {n}}\right)\leq {\frac {p(1-p)}{x^{2}}},}
  • L'inégalité de Hoeffding donne P ( | S n E [ S n ] | x n ) 2 exp ( 2 x 2 ) {\displaystyle \mathbb {P} \left(\left|S_{n}-\mathbb {E} [S_{n}]\right|\geq x{\sqrt {n}}\right)\leq 2\exp \left(-2\,x^{2}\right)} .

On voit que dans ce cas (et c'est assez représentatif de la situation générale[réf. nécessaire]) l'inégalité de Hoeffding est beaucoup plus précise pour   x   {\displaystyle \ x\ } suffisamment grand.

Démonstration

Inégalité préliminaire

La démonstration fait usage de la proposition suivante :

Proposition —  Soit   Y   {\displaystyle \ Y\ } une variable aléatoire réelle bornée et centrée (vérifiant   E [ Y ] = 0   {\displaystyle \ \mathbb {E} [Y]=0\ } ). Soit   c , d   {\displaystyle \ c,\,d\ } deux nombres réels tels que   c < d   {\displaystyle \ c<d\ } et tels que   P ( c Y d ) = 1.   {\displaystyle \ \mathbb {P} (c\leq Y\leq d)=1.\ } Alors, pour tout réel   s > 0 ,   {\displaystyle \ s>0,\ }

E [ e s Y ] exp ( s 2 ( d c ) 2 / 8 ) . {\displaystyle \mathbb {E} \left[e^{sY}\right]\leq \exp \left(s^{2}(d-c)^{2}/8\right).}

D'abord, on peut supposer c < 0 et d > 0. En effet, si c 0 {\displaystyle c\geq 0} , alors Y est une variable aléatoire presque-sûrement positive d'espérance nulle, donc Y=0 presque-sûrement et la proposition est évidente ; le raisonnement est analogue pour d 0. {\displaystyle d\leq 0.} Par convexité de la fonction   x e s x ,   {\displaystyle \ x\mapsto e^{sx},\ } on a, pour   c Y ( ω ) d ,   {\displaystyle \ c\leq Y(\omega )\leq d,\ }

e s Y ( ω ) d Y ( ω ) d c   e s c   +   Y ( ω ) c d c   e s d . {\displaystyle e^{sY(\omega )}\leq {\frac {d-Y(\omega )}{d-c}}\ e^{sc}\ +\ {\frac {Y(\omega )-c}{d-c}}\ e^{sd}.}

En passant à l'espérance, puisque   P ( c Y d ) = 1 ,   {\displaystyle \ \mathbb {P} (c\leq Y\leq d)=1,\ } on en déduit que

E [ e s Y ] f ( s ) = d d c   e s c   +   c d c   e s d . {\displaystyle \mathbb {E} [e^{sY}]\leq f(s)={\frac {d}{d-c}}\ e^{sc}\ +\ {\frac {-c}{d-c}}\ e^{sd}.}

On pose

( d c ) s = u ln ( f ( s ) ) = ψ ( u ) , c d c = p , 1 p = d d c . {\displaystyle {\begin{array}{rl}(d-c)s&=u\\\ln(f(s))&=\psi (u),\\{\frac {-c}{d-c}}&=p,\quad 1-p={\frac {d}{d-c}}.\end{array}}}

Puisque c < 0 et d > 0, on a bien p [ 0 , 1 ] {\displaystyle p\in [0,1]} d'où la pertinence de la notation. Il suit que

ψ ( u ) = p u + ln ( 1 p + p e u ) . {\displaystyle \psi (u)\,=\,-pu+\ln \left(1-p+pe^{u}\right).}

On remarque alors que   ψ ( 0 ) = ψ ( 0 ) = 0.   {\displaystyle \ \psi (0)=\psi ^{\prime }(0)=0.\ } De plus

ψ ( u ) = ( 1 p ) p e u ( 1 p + p e u ) 2 = α β ( α + β ) 2 1 4 . {\displaystyle \psi ^{\prime \prime }(u)={\frac {\left(1-p\right)pe^{u}}{\left(1-p+pe^{u}\right)^{2}}}={\frac {\alpha \beta }{(\alpha +\beta )^{2}}}\leq {\frac {1}{4}}.}

Alors, en vertu de la formule de Taylor-Lagrange à l'ordre 1,

ψ ( u ) = ψ ( 0 ) + ψ ( 0 ) u + R 2 ( u ) u 2 8 . {\displaystyle \psi (u)=\psi (0)+\psi ^{\prime }(0)u+R_{2}(u)\leq {\frac {u^{2}}{8}}.}

Démonstration de l'inégalité de Hoeffding

On applique ensuite l'inégalité de Markov. Pour cela, on pose:

Y i = X i E [ X i ] , c i = a i E [ X i ] , d i = b i E [ X i ] , {\displaystyle {\begin{array}{rl}Y_{i}&=X_{i}-\mathbb {E} [X_{i}],\\c_{i}&=a_{i}-\mathbb {E} [X_{i}],\quad d_{i}=b_{i}-\mathbb {E} [X_{i}],\end{array}}}

et on remarque que

P ( c i Y i d i ) = 1 , d i c i = b i a i , S n E [ S n ] = Y 1 + Y 2 + + Y n . {\displaystyle {\begin{array}{rl}\mathbb {P} (c_{i}\leq Y_{i}\leq d_{i})&=1,\\d_{i}-c_{i}&=b_{i}-a_{i},\\S_{n}-\mathbb {E} [S_{n}]&=Y_{1}+Y_{2}+\dots +Y_{n}.\end{array}}}

Pour tout   s > 0 ,   {\displaystyle \ s>0,\ } on a donc, en vertu d'un corollaire de l'inégalité de Markov, de l'indépendance des   X i ,   {\displaystyle \ X_{i},\ } et donc des   Y i ,   {\displaystyle \ Y_{i},\ } et de la proposition précédente :

P ( S n E [ S n ] t ) E [ e s ( S n E [ S n ] ) ] e s t = E [ e s ( Y 1 + Y 2 + + Y n ) ] e s t = e s t   i = 1 n E [ e s Y i ] exp ( s t + s 2   i = 1 n ( b i a i ) 2 8 ) . {\displaystyle {\begin{array}{rl}\mathbb {P} \left(S_{n}-\mathbb {E} [S_{n}]\geq t\right)&\leq \mathbb {E} \left[e^{s(S_{n}-\mathbb {E} [S_{n}])}\right]e^{-st}\\&=\mathbb {E} \left[e^{s(Y_{1}+Y_{2}+\dots +Y_{n})}\right]e^{-st}\\&=e^{-st}\ \prod _{i=1}^{n}\mathbb {E} \left[e^{sY_{i}}\right]\\&\leq \exp \left(-st+{\frac {s^{2}\ \sum _{i=1}^{n}(b_{i}-a_{i})^{2}}{8}}\right).\end{array}}}

L'inégalité est en particulier vraie pour

s 0 = 4 t i = 1 n ( b i a i ) 2 , {\displaystyle s_{0}={\frac {4t}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}},}

qui réalise le minimum de la borne de droite, ce qui démontre la première inégalité. La deuxième inégalité se démontre en remplaçant   Y i   {\displaystyle \ Y_{i}\ } par   Y i = E [ X i ] X i ,   {\displaystyle \ Y_{i}^{\prime }=\mathbb {E} [X_{i}]-X_{i},\ } et   S n E [ S n ]   {\displaystyle \ S_{n}-\mathbb {E} [S_{n}]\ } par   E [ S n ] S n ,   {\displaystyle \ \mathbb {E} [S_{n}]-S_{n},\ } dans le calcul précédent, en posant

c i = E [ X i ] b i , d i = E [ X i ] a i , {\displaystyle {\begin{array}{rl}c_{i}^{\prime }&=\mathbb {E} [X_{i}]-b_{i},\\d_{i}^{\prime }&=\mathbb {E} [X_{i}]-a_{i},\end{array}}}

et en remarquant que

P ( c i Y i d i ) = 1 , d i c i = b i a i , E [ S n ] S n = Y 1 + Y 2 + + Y n . {\displaystyle {\begin{array}{rl}\mathbb {P} (c_{i}^{\prime }\leq Y_{i}^{\prime }\leq d_{i}^{\prime })&=1,\\d_{i}^{\prime }-c_{i}^{\prime }&=b_{i}-a_{i},\\\mathbb {E} [S_{n}]-S_{n}&=Y_{1}^{\prime }+Y_{2}^{\prime }+\dots +Y_{n}^{\prime }.\end{array}}}

La troisième inégalité est une conséquence directe des deux premières.

Énoncé "en tout temps"

Dans son article de 1963, Hoeffding a donné un énoncé légèrement plus général de son inégalité, utilisant l'inégalité de Doob. Plus précisément, sous les mêmes hypothèses, pour tout   t > 0 ,   {\displaystyle \ t>0,\ }

P ( m n ,   S m E [ S m ] t ) exp ( 2 t 2 i = 1 n ( b i a i ) 2 ) , P ( m n ,   S m E [ S m ] t ) exp ( 2 t 2 i = 1 n ( b i a i ) 2 ) , P ( m n ,   | S m E [ S m ] | t ) 2 exp ( 2 t 2 i = 1 n ( b i a i ) 2 ) . {\displaystyle {\begin{array}{rl}\mathbb {P} \left(\exists m\leq n,~S_{m}-\mathbb {E} [S_{m}]\geq t\right)&\leq \exp \left(-{\frac {2\,t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\\\mathbb {P} \left(\exists m\leq n,~S_{m}-\mathbb {E} [S_{m}]\leq -t\right)&\leq \exp \left(-{\frac {2\,t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\\\mathbb {P} \left(\exists m\leq n,~\left|S_{m}-\mathbb {E} [S_{m}]\right|\geq t\right)&\leq 2\exp \left(-{\frac {2\,t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right).\end{array}}}

Voir aussi

Pages liées

Bibliographie

  • C. McDiarmid, On the method of bounded differences. In Surveys in Combinatorics, London Math. Soc. Lectures Notes 141, Cambridge Univ. Press, Cambridge 1989, 148–188.
  • W. Hoeffding, "Probability inequalities for sums of bounded random variables", J. Amer. Statist. Assoc. 58, 13–30, 1963
  • icône décorative Portail des probabilités et de la statistique