Graphe aléatoire

Graphe orienté aléatoire avec 20 nœuds et une probabilité de présence d'arête égale à 0,1.

En mathématiques, un graphe aléatoire est un graphe généré par un processus aléatoire. Le premier modèle de graphes aléatoires a été popularisé par Paul Erdős et Alfréd Rényi dans une série d'articles publiés entre 1959 et 1968[1][source insuffisante].

Les deux modèles de base d'Erdős et Rényi

Il y a deux modèles d'Erdős et Rényi, formellement différents, mais étroitement liés : le graphe aléatoire binomial et le graphe aléatoire uniforme. Dans les deux modèles, il s'agit d'un graphe aléatoire non orienté, qui n'a ni boucles, ni arêtes multiples. On utilise les notations suivantes :

  • l'ensemble des sommets est {1, 2, 3, ..., n} noté par la suite   [ [ n ] ] {\displaystyle \ [\![n]\!]} ;
  • les arêtes potentiellement présentes sont les n(n–1)/2 parties à deux éléments de   [ [ n ] ] {\displaystyle \ [\![n]\!]} ; l'ensemble de ces arêtes est parfois noté ( [ [ n ] ] 2 ) . {\displaystyle {[\![n]\!] \choose 2}.} Il sera noté toutefois J pour des raisons de commodité typographique, et de cohérence avec l'article sur l'inégalité de Harris.

Le graphe aléatoire binomial

Dans ce modèle, souvent noté G ( n , p ) , {\displaystyle \mathbb {G} (n,p),} chacune des n(n–1)/2 arêtes potentielles est présente avec probabilité p, et absente avec probabilité 1-p, cela indépendamment du statut des autres arêtes. Le cas p = 0,5 a été étudié par Erdős dès 1947[2]. Le nombre Np d'arêtes de G ( n , p ) {\displaystyle \mathbb {G} (n,p)} suit la loi binomiale de paramètres n(n–1)/2 et p.

Le graphe aléatoire uniforme

Dans ce modèle, souvent noté G ( n , M ) , {\displaystyle \mathbb {G} (n,M),} on choisit uniformément un sous-ensemble de M arêtes parmi les n(n–1)/2 arêtes possibles. Si on considère un graphe G à n sommets possède M arêtes, la probabilité d'obtenir G est donnée par

P ( G )   =   1 ( ( n 2 ) M ) . {\displaystyle \mathbb {P} (G)\ =\ {\frac {1}{{n \choose 2} \choose M}}.}

C'est le modèle G ( n , M ) {\displaystyle \mathbb {G} (n,M)} qui est principalement étudié dans la série d'articles fondateurs publiés par Erdős et Rényi entre 1959 et 1968[3].

Les deux processus aléatoires à valeurs graphe

  • On peut partir d'un graphe sans arêtes, donc totalement déconnecté, et ajouter une arête tirée au hasard uniformément, puis une autre, etc., sans remise. On obtient ainsi une suite { G ( n , M ) } 0 M n ( n 1 ) / 2 , {\displaystyle \{\mathbb {G} (n,M)\}_{0\leq M\leq n(n-1)/2},} croissante (au sens de l'inclusion de l'ensemble des arêtes), de 1 + n(n–1)/2 graphes aléatoires, qui forme un processus à temps discret à valeurs dans l'ensemble des graphes. Chaque terme de la suite est un graphe aléatoire uniforme défini à la section précédente. Un avantage de cette construction est de voir coexister différents graphes aléatoires de paramètres M différents, sur le même espace probabilisé, et de pouvoir ainsi comparer leurs caractéristiques, non pas en moyenne ou en loi, mais pour chaque élément ω de l'espace probabilisé considéré. Cela permet de raisonner par couplage.
  • On peut aussi associer à chaque arête e de J une variable aléatoire Te, le poids de l'arête, de sorte que la famille (Te)eJ soit une famille de variables aléatoires i.i.d., par exemple de loi uniforme sur l'intervalle [0, 1]. On note alors G ( n , p ) {\displaystyle \mathbb {G} (n,p)} le graphe formé des arêtes dont le poids est inférieur à p. Pour chaque arête, cela se produit avec probabilité
P ( T e p )   =   p . {\displaystyle \mathbb {P} (T_{e}\leq p)\ =\ p.}
On obtient ainsi une famille { G ( n , p ) } 0 p 1 , {\displaystyle \{\mathbb {G} (n,p)\}_{0\leq p\leq 1},} croissante, de graphes aléatoires, qui forme un processus à temps continu, à valeurs dans l'ensemble des graphes. Cette famille est croissante au sens de l'inclusion de l'ensemble des arêtes : une arête e présente dans G ( n , p ) {\displaystyle \mathbb {G} (n,p)} est aussi présente dans G ( n , p + ε ) ,   ε > 0 , {\displaystyle \mathbb {G} (n,p+\varepsilon ),\ \varepsilon >0,} puisque { T e p }     { T e p + ε } . {\displaystyle \{T_{e}\leq p\}\ \Rightarrow \ \{T_{e}\leq p+\varepsilon \}.} Chaque terme de la famille de graphes est un graphe aléatoire binomial défini précédemment.

Métaphore. On peut imaginer les sommets du graphe comme n îles sur un lac, communicant à l'aide de passerelles (les arêtes e), submergées à des profondeurs respectives Te sous la surface de l'eau. Si le lac se vide de son eau graduellement, on va voir émerger progressivement les passerelles, et des composantes connexes regroupant de plus en plus d'îles vont se former.

Liens entre les deux modèles

En vertu du théorème central limite, ou de l'inégalité de Hoeffding, la loi binomiale est très concentrée autour de son espérance. Plus précisément, le nombre d'arêtes Np d'un graphe aléatoire de loi G ( n , p ) {\displaystyle \mathbb {G} (n,p)} est donc très proche de M ^ = p   ( n 2 ) {\displaystyle {\hat {M}}=\left\lfloor p\ {n \choose 2}\right\rfloor } surtout si cette dernière quantité M ^ {\displaystyle {\hat {M}}} est grande devant n : en effet[4],

t > 0 , P ( | N p M ^ | t n )     2 e 2 t 2 . {\displaystyle \forall t>0,\qquad \mathbb {P} \left(\left|N_{p}-{\hat {M}}\right|\geq tn\right)\ \leq \ 2\,\mathrm {e} ^{-2t^{2}}.}

De plus, la loi conditionnelle de   G ( n , p ) {\displaystyle \ \mathbb {G} (n,p)} sachant que Np = M est précisément G ( n , M ) . {\displaystyle \mathbb {G} (n,M).} Pour cette raison, si M est proche de M ^ {\displaystyle {\hat {M}}} , ou, de manière équivalente, si

p 2 M n ( n 1 ) , {\displaystyle p\simeq {\frac {2M}{n(n-1)}},}

il est généralement admis (et souvent démontré[5]) que les deux modèles G ( n , p ) {\displaystyle \mathbb {G} (n,p)} et G ( n , M ) {\displaystyle \mathbb {G} (n,M)} ont des propriétés très proches.

En poussant plus loin, notons T(k) la k-ième valeur de la suite ( T e ) e J {\displaystyle (T_{e})_{e\in J}} une fois que cette dernière suite est rangée dans l'ordre croissant : la suite ( T ( k ) ) 1 e n ( n 1 ) / 2 {\displaystyle (T_{(k)})_{1\leq e\leq n(n-1)/2}} est appelée la suite des statistiques d'ordre de la suite ( T e ) e J . {\displaystyle (T_{e})_{e\in J}.} Lorsque p prend la valeur aléatoire T(M), alors G ( n , T ( M ) ) {\displaystyle \mathbb {G} (n,T_{(M)})} est exactement G ( n , M ) . {\displaystyle \mathbb {G} (n,M).} Pour corroborer les observations précédentes, notons que T(M) est très proche de 2 M / n ( n 1 ) , {\displaystyle 2M/n(n-1),} au sens où, en conséquence de résultats célèbres de Donsker et de Kolmogorov[6], la probabilité

φ n ( x ) = P ( sup 1 M n ( n 1 ) / 2 { | T ( M ) 2 M n ( n 1 ) | } x 2 n ) {\displaystyle \varphi _{n}(x)=\mathbb {P} \left(\sup _{1\leq M\leq n(n-1)/2}\left\{|T_{(M)}-{\tfrac {2M}{n(n-1)}}|\right\}\geq {\tfrac {x{\sqrt {2}}}{n}}\right)}

satisfait

exp ( 2 x 2 )     lim inf n φ n ( x )     lim sup n φ n ( x )     2 r = 1 + ( 1 ) r 1 exp ( 2 r 2 x 2 ) , {\displaystyle \exp(-2x^{2})\ \leq \ \liminf _{n}\varphi _{n}(x)\ \leq \ \limsup _{n}\varphi _{n}(x)\ \leq \ 2\sum _{r=1}^{+\infty }(-1)^{r-1}\exp(-2r^{2}x^{2}),}

les 1er et 4e termes étant les queues de distribution des lois de Rayleigh et de Kolmogorov, respectivement : en résumé, le supremum (lorsque M varie) des erreurs | T ( M ) 2 M / n ( n 1 ) | {\displaystyle |T_{(M)}-2M/n(n-1)|} est de l'ordre de 1/n.

Ordre et croissance

Un graphe peut être vu comme une partie de l'ensemble J des arêtes, donc l'espace probabilisé est ici l'ensemble Ω des parties de J, qu'on peut parfois identifier à {0,1}J. Cette identification est en particulier utile lorsqu'on veut appliquer l'inégalité de Harris.

  • L'inclusion est une relation d'ordre partielle sur Ω.
  • Comme d'ordinaire, une application X définie sur Ω, à valeurs réelles, est dite croissante si
{ ω ω } { X ( ω ) X ( ω ) } . {\displaystyle \{\omega \leq \omega ^{\prime }\}\quad \Rightarrow \quad \{X(\omega )\leq X(\omega ^{\prime })\}.}
  • Une partie A de Ω est dite croissante si
{ ω ω   et   ω A } { ω A } . {\displaystyle \{\omega \leq \omega ^{\prime }\ {\text{et}}\ \omega \in A\}\quad \Rightarrow \quad \{\omega ^{\prime }\in A\}.}
De manière équivalente, une partie A de Ω est dite croissante si sa fonction indicatrice est croissante.
  • La propriété de décroissance d'une application ou d'une partie a une définition analogue.
Exemples :

Parmi les propriétés et paramètres d'un graphe,

  • la connexité est croissante, c.-à-d. la partie A de Ω constituée de tous les graphes connexes, est une partie croissante de Ω : si on ajoute une arête à un graphe connexe, le graphe ainsi obtenu est encore connexe ;
  • la planarité est décroissante : si on enlève une arête à un graphe planaire, le graphe ainsi obtenu est encore planaire ;
  • le nombre chromatique est croissant ;
  • le nombre de stabilité est décroissant ;
  • la propriété triangle-free est décroissante.

On a l'inégalité suivante :

Inégalité de Harris — Dans le cadre du graphe aléatoire binomial,

  • soit deux variables aléatoires X et Y croissantes sur Ω. Alors
E [ X Y ] E [ X ] E [ Y ] ; {\displaystyle \mathbb {E} [XY]\geq \mathbb {E} \left[X\right]\mathbb {E} [Y]\,;}
  • soit deux parties croissantes A et B de Ω. Alors
P ( A B ) P ( A ) P ( B ) . {\displaystyle \mathbb {P} (A\cap B)\geq \mathbb {P} (A)\mathbb {P} (B).}
Remarques :
  • Cela revient à dire qu'il y a une corrélation positive entre les variables concernées, puisqu'on peut reformuler la première inégalité sous la forme suivante en utilisant la covariance :
Cov ( X , Y )     0. {\displaystyle {\text{Cov}}\left(X,Y\right)\ \geq \ 0.}
  • L'inégalité vaut aussi pour des variables ou des parties décroissantes, mais le sens des inégalités change lorsque les variables ou les parties concernées ont des sens de monotonie opposés.

La connexité

Le seuil de connexité

Théorème (Erdős, Rényi, 1960) — Posons an = np(n) — ln n, ou encore :

p ( n )   =   ln n n + a n n . {\displaystyle p(n)\ =\ {\frac {\ln n}{n}}\,+\,{\frac {a_{n}}{n}}.}
  • Si lim n a n = + , {\displaystyle \lim _{n}a_{n}=+\infty ,} alors
    lim n P ( G ( p ( n ) , n )   e s t   c o n n e x e ) = 1. {\displaystyle \lim _{n}\mathbb {P} \left(\mathbb {G} \left(p(n),n\right)\mathrm {~est~connexe} \right)=1.}
  • Si lim n a n = , {\displaystyle \lim _{n}a_{n}=-\infty ,} alors
    lim n P ( G ( p ( n ) , n )   e s t   c o n n e x e ) = 0. {\displaystyle \lim _{n}\mathbb {P} \left(\mathbb {G} \left(p(n),n\right)\mathrm {~est~connexe} \right)=0.}

On dit que ln(n)/n est un seuil étroit pour la propriété de connexité, l'étroitesse faisant référence au fait que la propriété est vérifiée même si a n {\displaystyle a_{n}} tend vers l'infini strictement moins vite que ln n . {\displaystyle \ln n.}

Démonstration

On se donne un graphe aléatoire Gn de loi G ( p ( n ) , n ) {\displaystyle \mathbb {G} \left(p(n),n\right)} et un graphe aléatoire G ~ n {\displaystyle {\tilde {G}}_{n}} de loi G ( p ~ ( n ) , n ) . {\displaystyle \mathbb {G} \left({\tilde {p}}(n),n\right).} Le théorème découle du théorème double-exponentiel, qui découle lui-même de l'énumération des points isolés effectuée à la section suivante. La connexité est une propriété croissante, donc, dès que n est assez grand pour que

p ( n )   =   ln n n + a n n ln n n + c n + ε ( n ) n   =   p ~ ( n ) , {\displaystyle p(n)\ =\ {\frac {\ln n}{n}}\,+\,{\frac {a_{n}}{n}}\quad \geq \quad {\frac {\ln n}{n}}+{\frac {c}{n}}+{\frac {\varepsilon (n)}{n}}\ =\ {\tilde {p}}(n),}

on a aussi

P ( G n   e s t   c o n n e x e ) P ( G ~ n   e s t   c o n n e x e ) . {\displaystyle \mathbb {P} \left(G_{n}\mathrm {~est~connexe} \right)\geq \mathbb {P} \left({\tilde {G}}_{n}\mathrm {~est~connexe} \right).}

En effet, quitte à construire G n {\displaystyle G_{n}} et G ~ n {\displaystyle {\tilde {G}}_{n}} à l'aide des mêmes variables uniformes i.i.d. ( U e ) e J {\displaystyle (U_{e})_{e\in J}} , sur le même espace probabilisé Ω, comme indiqué à la section « Les deux processus aléatoires à valeurs graphe », on a, pour tout ω de Ω,

G n ( ω ) G ~ n ( ω ) , {\displaystyle G_{n}(\omega )\supset {\tilde {G}}_{n}(\omega ),}

donc

{ G ~ n ( ω )  est connexe } { G n ( ω )   e s t   c o n n e x e } , {\displaystyle \left\{{\tilde {G}}_{n}(\omega ){\text{ est connexe}}\right\}\Rightarrow \left\{G_{n}(\omega )\mathrm {~est~connexe} \right\},}

et

P ( G ~ n   e s t   c o n n e x e ) P ( G n   e s t   c o n n e x e ) . {\displaystyle \mathbb {P} \left({\tilde {G}}_{n}\mathrm {~est~connexe} \right)\leq \mathbb {P} \left(G_{n}\mathrm {~est~connexe} \right).}

Si lim n a n = + , {\displaystyle \lim _{n}a_{n}=+\infty ,} il suit que, pour tout nombre réel c,

lim inf n P ( G ( p ( n ) , n )   e s t   c o n n e x e ) e e c , {\displaystyle \liminf _{n}\mathbb {P} \left(\mathbb {G} \left(p(n),n\right)\mathrm {~est~connexe} \right)\geq \mathrm {e} ^{-\mathrm {e} ^{-c}},}

ou bien encore

lim inf n P ( G ( p ( n ) , n )   e s t   c o n n e x e ) sup { e e c | c R }   =   1. {\displaystyle \liminf _{n}\mathbb {P} \left(\mathbb {G} \left(p(n),n\right)\mathrm {~est~connexe} \right)\geq \sup \left\{\mathrm {e} ^{-\mathrm {e} ^{-c}}\,|\,c\in \mathbb {R} \right\}\ =\ 1.}

En revanche, si lim n a n = , {\displaystyle \lim _{n}a_{n}=-\infty ,} alors, pour n suffisamment grand, on aura, pour tout ω, G n ( ω ) G ~ n ( ω ) , {\displaystyle G_{n}(\omega )\subset {\tilde {G}}_{n}(\omega ),} et

P ( G ~ n   e s t   c o n n e x e ) P ( G n   e s t   c o n n e x e ) . {\displaystyle \mathbb {P} \left({\tilde {G}}_{n}\mathrm {~est~connexe} \right)\geq \mathbb {P} \left(G_{n}\mathrm {~est~connexe} \right).}

Ainsi, pour tout nombre réel c,

lim sup n P ( G ( p ( n ) , n )   e s t   c o n n e x e ) inf { e e c | c R }   =   0. {\displaystyle \limsup _{n}\mathbb {P} \left(\mathbb {G} \left(p(n),n\right)\mathrm {~est~connexe} \right)\leq \inf \left\{\mathrm {e} ^{-\mathrm {e} ^{-c}}\,|\,c\in \mathbb {R} \right\}\ =\ 0.}

Énumération des points isolés

Il est plus facile (plus probable) de réussir à couper les n – 1 connexions entre un point et son complémentaire, que les k(n – k) connexions entre un groupe de k points et son complémentaire, car la fonction f(k) = k(n – k) augmente très rapidement au voisinage de 1, d'où, lorsque k augmente, beaucoup plus d'arêtes à couper, et une probabilité bien plus faible de réussir à les couper toutes. En corollaire, avec le choix du paramètre p fait plus haut, le graphe G(n, p) sera non connexe « presque uniquement » s'il a des points isolés, au sens où la probabilité d'être connexe est très proche de la probabilité de ne pas avoir de points isolés, P ( X n = 0 ) , {\displaystyle \mathbb {P} \left(X_{n}=0\right),} qui vaut approximativement e–ec En effet, on a le résultat suivant :

Points isolés (Erdős, Rényi, 1960). —  Supposons que

p ~ ( n )   =   ln n n + c n + ε ( n ) n . {\displaystyle {\tilde {p}}(n)\ =\ {\frac {\ln n}{n}}+{\frac {c}{n}}+{\frac {\varepsilon (n)}{n}}.}

Alors le nombre Xn de points isolés du graphe G ( p ~ ( n ) , n ) {\displaystyle G\left({\tilde {p}}(n),n\right)} converge en loi vers une loi de Poisson de paramètre ec.

Démonstration

Dans ce qui suit, on abrège G ( p ~ ( n ) , n ) {\displaystyle G\left({\tilde {p}}(n),n\right)} en G ~ n , {\displaystyle {\tilde {G}}_{n},} et on pose

μ = e c . {\displaystyle \mu =\mathrm {e} ^{-c}.}

Soit Xn le nombre de points isolés de G ~ n . {\displaystyle {\tilde {G}}_{n}.} On sait que

X n = Y 1 + Y 2 + + Y n , {\displaystyle X_{n}=Y_{1}+Y_{2}+\dots +Y_{n},}

Y i = 1 l e   s o m m e t   i   e s t   i s o l e ´ . {\displaystyle Y_{i}=1_{\mathrm {le~sommet~} i\mathrm {~est~isol{\acute {e}}} }.}

Utilisons la méthode des moments factoriels[7]. Soit In , A l'ensemble des injections de [ [ 1 , n ] ] {\displaystyle [\![1,n]\!]} dans A . {\displaystyle A.} Pour tout r 1 , {\displaystyle r\geq 1,}

( X n ) r = ( Y 1 + Y 2 + + Y n ) r = φ I r , [ [ 1 , n ] ]   i = 1 r Y φ ( i ) . {\displaystyle (X_{n})_{r}=(Y_{1}+Y_{2}+\dots +Y_{n})_{r}=\sum _{\varphi \in I_{r,[\![1,n]\!]}}\ \prod _{i=1}^{r}Y_{\varphi (i)}.}

Les termes i = 1 r Y φ ( i ) {\displaystyle \prod _{i=1}^{r}Y_{\varphi (i)}} de la somme précédente apparaissent effectivement dans le développement de ( Y 1 + Y 2 + + Y n ) r , {\displaystyle (Y_{1}+Y_{2}+\dots +Y_{n})_{r},} mais, en dehors de ces termes, ce développement fait apparaître beaucoup d'autres termes qui, apparemment, se télescopent. En effet, soit

E = { a [ [ 1 , n ] ] | Y a = 1 } . {\displaystyle E=\left\{a\in [\![1,n]\!]\,|\,Y_{a}=1\right\}.}

Alors

φ I r , [ [ 1 , n ] ] , i = 1 r Y φ ( i ) = 1 φ I r , E , {\displaystyle \forall \,\varphi \in I_{r,[\![1,n]\!]},\qquad \prod _{i=1}^{r}Y_{\varphi (i)}=1_{\varphi \in I_{r,E}},}

donc

φ I r , [ [ 1 , n ] ]   i = 1 r Y φ ( i )   =   | I r , E |   =   ( | E | ) r   =   ( X n ) r . {\displaystyle \sum _{\varphi \in I_{r,[\![1,n]\!]}}\ \prod _{i=1}^{r}Y_{\varphi (i)}\ =\ |I_{r,E}|\ =\ (|E|)_{r}\ =\ (X_{n})_{r}.}

Par ailleurs, par symétrie,

E [ i = 1 r Y φ ( i ) ]   =   E [ i = 1 r Y i ] = ( 1 p ~ ( n ) ) r ( n 1 ) r ( r 1 ) / 2 , {\displaystyle \mathbb {E} \left[\prod _{i=1}^{r}Y_{\varphi (i)}\right]\ =\ \mathbb {E} \left[\prod _{i=1}^{r}Y_{i}\right]=(1-{\tilde {p}}(n))^{r(n-1)-r(r-1)/2},}

r(n -1) est le nombre d'arêtes potentiellement issues d'un sommet de E, et où r(r -1)/2 est le nombre d'arêtes entre deux sommets de E, c.-à-d. celles qui sont comptées double dans le total r(n -1). Ainsi

E [ ( X n ) r ] = ( n ) r ( 1 p ~ ( n ) ) r ( n 1 ) r ( r 1 ) / 2 n r ( 1 p ~ ( n ) ) r ( n 1 ) = ( n ( 1 p ~ ( n ) ) n 1 ) r μ r . {\displaystyle {\begin{aligned}\mathbb {E} \left[(X_{n})_{r}\right]&=(n)_{r}(1-{\tilde {p}}(n))^{r(n-1)-r(r-1)/2}\\&\simeq n^{r}(1-{\tilde {p}}(n))^{r(n-1)}\\&=\left(n(1-{\tilde {p}}(n))^{n-1}\right)^{r}\\&\simeq \mu ^{r}.\end{aligned}}}

Donc, par la méthode des moments[7], Xn converge en loi vers une loi de Poisson de paramètre μ, et

lim P ( X n = 0 )   =   e μ   =   e e c . {\displaystyle \lim \mathbb {P} \left(X_{n}=0\right)\ =\ \mathrm {e} ^{-\mu }\ =\ \mathrm {e} ^{-\mathrm {e} ^{-c}}.}

Ce théorème est une illustration frappante du paradigme de Poisson, selon lequel, lorsque se présente un grand nombre d'opportunités d'observer un événement rare (c.-à-d. peu probable), alors le nombre total d'événements rares effectivement observés suit une loi de Poisson.

Le théorème double-exponentiel

Erdős et Rényi en déduisent un résultat plus précis que la propriété de seuil étroit :

Théorème double-exponentiel (Erdős, Rényi, 1960) —  Supposons que

p ~ ( n )   =   ln n n + c n + ε ( n ) n . {\displaystyle {\tilde {p}}(n)\ =\ {\frac {\ln n}{n}}+{\frac {c}{n}}+{\frac {\varepsilon (n)}{n}}.}
Alors
lim n P ( G ( p ~ ( n ) , n )   e s t   c o n n e x e ) = e e c . {\displaystyle \lim _{n}\mathbb {P} \left(\mathbb {G} \left({\tilde {p}}(n),n\right)\mathrm {~est~connexe} \right)=e^{-e^{-c}}.}
Démonstration
Si X n = 0 , {\displaystyle X_{n}=0,} G ~ n {\displaystyle {\tilde {G}}_{n}} est sans point isolé, et il y a alors peu de chances que G ~ n {\displaystyle {\tilde {G}}_{n}} soit autre chose que connexe (cf. Spencer, 10 lectures on random graphs). En effet, soit B une partie de [ [ 1 , n ] ] {\displaystyle [\![1,n]\!]} et soit k son cardinal. Notons C B {\displaystyle {\mathcal {C}}_{B}} l'événement « B est une composante connexe de G ~ n {\displaystyle {\tilde {G}}_{n}}  ». L'événement C B {\displaystyle {\mathcal {C}}_{B}} peut être vu comme la réunion (non disjointe) de kk -2 sous-ensembles de probabilités
p ~ ( n ) k 1 ( 1 p ~ ( n ) ) k ( n k ) , {\displaystyle {\tilde {p}}(n)^{k-1}(1-{\tilde {p}}(n))^{k(n-k)},}

ce qui conduit à la majoration suivante :

P ( C B )     k k 2 p ~ ( n ) k 1 ( 1 p ~ ( n ) ) k ( n k ) . {\displaystyle \mathbb {P} ({\mathcal {C}}_{B})\ \leq \ k^{k-2}{\tilde {p}}(n)^{k-1}(1-{\tilde {p}}(n))^{k(n-k)}.}

Ici k k 2 {\displaystyle k^{k-2}} désigne le nombre d'arbres couvrants possibles[8] pour un graphe connexe dont les sommets seraient les éléments de B, ou bien encore, de manière équivalente, le nombre de choix possibles d'une famille de k-1 arêtes qui rend l'ensemble B connexe. Par ailleurs, p ~ ( n ) k 1 {\displaystyle {\tilde {p}}(n)^{k-1}} est la probabilité que les k-1 arêtes de l'arbre couvrant considéré soient effectivement présentes, et ( 1 p ~ ( n ) ) k ( n k ) {\displaystyle (1-{\tilde {p}}(n))^{k(n-k)}} est la probabilité qu'aucune arête reliant un sommet de B à un sommet de Bc ne soit présente, de telle sorte que B soit non seulement connexe, mais aussi maximale parmi les parties connexes du graphe.

L'événement

D n = { X n = 0   m a i s   G ~ n   n e s t   p a s   c o n n e x e } {\displaystyle D_{n}=\{X_{n}=0\mathrm {~mais~} {\tilde {G}}_{n}\mathrm {~n} ^{\prime }\mathrm {est~pas~connexe} \}}

vérifie

D n 2 | B | n / 2 C B . {\displaystyle D_{n}\subset \bigcup _{2\leq |B|\leq n/2}{\mathcal {C}}_{B}.}

En effet, sous l'hypothèse Dn, G ~ n {\displaystyle {\tilde {G}}_{n}} a plusieurs composantes connexes, donc la plus petite d'entre elles (au sens du nombre de sommets) a au plus n/2 sommets, mais cette plus petite composante connexe a au moins deux sommets, puisque Xn = 0. Ainsi

P ( D n ) 2 | B | n / 2 P ( C B ) 2 k n / 2 ( n k ) k k 2 p ~ ( n ) k 1 ( 1 p ~ ( n ) ) k ( n k ) 2 k n / 2 u k . {\displaystyle {\begin{aligned}\mathbb {P} (D_{n})&\leq \sum _{2\leq |B|\leq n/2}\mathbb {P} ({\mathcal {C}}_{B})\\&\leq \sum _{2\leq k\leq n/2}{n \choose k}k^{k-2}{\tilde {p}}(n)^{k-1}(1-{\tilde {p}}(n))^{k(n-k)}\\&\leq \sum _{2\leq k\leq n/2}u_{k}.\end{aligned}}}

Or, pour α > 0,

u 2 n 1 + α ln n {\displaystyle {\begin{aligned}u_{2}&\leq n^{-1+\alpha }\,\ln n\end{aligned}}}

dès que

ln n max [ c + ε ( n ) , ( 2 c 2 ε ( n ) + 4 p ~ ( n ) ) / α ] . {\displaystyle \ln n\geq \max \left[c+\varepsilon (n)\,,(-2c-2\varepsilon (n)+4{\tilde {p}}(n))/\alpha \right].}

De même qu'une composante connexe de taille supérieure à 2 est bien moins probable qu'une composante connexe de taille 1, une composante connexe de taille supérieure à 3 est bien moins probable qu'une composante connexe de taille 2, ce qui se traduit par

Propriété —  Quand n tend vers l'infini

u 2 ( n )     3 k n / 2 u k ( n ) . {\displaystyle u_{2}(n)\ \gg \ \sum _{3\leq k\leq n/2}u_{k}(n).}

Quelques calculs un peu pénibles, sans être toutefois franchement difficiles, conduisent à ce résultat.

Démonstration

La borne donnée plus haut pour u2(n) n'est pas seulement une majoration, mais donne en fait l'ordre de grandeur de u2(n). Pour ce qui est du reste de la somme, on est contraint de le couper en deux avant de majorer chacun des deux morceaux :

u k + 1 u k = ( n k ) ( 1 + 1 k ) k 2 p ~ ( n ) × ( 1 p ~ ( n ) ) n 2 k 1 = ( n k ) ( e + ε ^ ( k ) ) p ~ ( n ) × ( 1 p ~ ( n ) ) n 2 k 1 c ^ ln n   ( 1 p ~ ( n ) ) n 2 k 1 {\displaystyle {\begin{aligned}{\frac {u_{k+1}}{u_{k}}}&=(n-k)\,(1+{\tfrac {1}{k}})^{k-2}\,{\tilde {p}}(n)\times (1-{\tilde {p}}(n))^{n-2k-1}\\&=(n-k)\,(e+{\hat {\varepsilon }}(k))\,{\tilde {p}}(n)\times (1-{\tilde {p}}(n))^{n-2k-1}\\&\leq {\hat {c}}\,\ln n\ (1-{\tilde {p}}(n))^{n-2k-1}\end{aligned}}}

n , k , c ^ ( e + ε ^ ( k ) ) n p ~ ( n ) ln n . {\displaystyle \forall n,k,\quad {\hat {c}}\geq (e+{\hat {\varepsilon }}(k))\,{\frac {n{\tilde {p}}(n)}{\ln n}}.}

Pour 0 < β < ( 1 γ ) / 2 < 0.5 , {\displaystyle 0<\beta <(1-\gamma )/2<0.5,} et k β n , {\displaystyle k\leq \beta n,}

u k + 1 u k c ^ ln n   exp [ p ~ ( n ) ( n 2 k 1 ) ] c ^ n γ ln n , {\displaystyle {\begin{aligned}{\frac {u_{k+1}}{u_{k}}}&\leq {\hat {c}}\,\ln n\ \exp \left[-{\tilde {p}}(n)(n-2k-1)\right]\\&\leq {\hat {c}}n^{-\gamma }\ln n,\end{aligned}}}

dès que

ln n p ~ ( n ) + ( c + ε ( n ) ) ( 2 β 1 ) 1 2 β γ . {\displaystyle \ln n\geq {\frac {{\tilde {p}}(n)+(c+\varepsilon (n))(2\beta -1)}{1-2\beta -\gamma }}.}

Donc, pour n assez grand, u k {\displaystyle u_{k}} décroit plus vite qu'une suite exponentielle de raison c ^ n γ ln n , {\displaystyle {\hat {c}}n^{-\gamma }\ln n,} lorsque 2 k 1 + β n , {\displaystyle 2\leq k\leq 1+\beta n,} et

k = 2 1 + β n u k     u 2 1 c ^ n γ ln n     2 n 1 + α ln n . {\displaystyle \sum _{k=2}^{1+\beta n}u_{k}\ \leq \ {\frac {u_{2}}{1-{\hat {c}}n^{-\gamma }\ln n}}\ \leq \ 2n^{-1+\alpha }\,\ln n.}

Par ailleurs, pour 0 < α < 1 / 4 , {\displaystyle 0<\alpha <1/4,} on peut trouver c et ρ positifs, tels que, pour tout n 1 , {\displaystyle n\geq 1,}

u n / 2 c ρ n n α n . {\displaystyle {\begin{aligned}u_{n/2}&\leq c\,\rho ^{n}\,n^{-\alpha n}.\end{aligned}}}

Pour 0 < β < ( 1 γ ) / 2 < 0.5 , {\displaystyle 0<\beta <(1-\gamma )/2<0.5,} et k β n , {\displaystyle k\geq \beta n,}

u k 1 u k d ln n   exp [ p ~ ( n ) ( n 2 k + 1 ) ] d n ( 1 2 β ) 2 / γ ln n d n ( 1 2 β ) 2 / γ , {\displaystyle {\begin{aligned}{\frac {u_{k-1}}{u_{k}}}&\leq {\frac {d}{\ln n}}\ \exp \left[{\tilde {p}}(n)(n-2k+1)\right]\\&\leq {\frac {d\,n^{(1-2\beta )^{2}/\gamma }}{\ln n}}\\&\leq d\,n^{(1-2\beta )^{2}/\gamma },\end{aligned}}}

dès que n est assez grand. Par conséquent, pour n / 2 k β n , {\displaystyle n/2\geq k\geq \beta n,} et β {\displaystyle \beta } assez proche de 0,5, ( 1 2 β ) / γ {\displaystyle (1-2\beta )/\gamma } assez proche de 1,

α + ( ( 1 2 β ) 3 / 2 γ ) < 0 , u k u n / 2 d ( 1 2 β ) n / 2 n n ( 1 2 β ) 3 / 2 γ , u k c ρ ~ n n ( α + ( ( 1 2 β ) 3 / 2 γ ) ) n , {\displaystyle {\begin{aligned}-\alpha +((1-2\beta )^{3}/2\gamma )&<0,\\{\frac {u_{k}}{u_{n/2}}}&\leq d^{(1-2\beta )n/2}n^{n(1-2\beta )^{3}/2\gamma },\\u_{k}&\leq c\,{\tilde {\rho }}^{n}\,n^{(-\alpha +((1-2\beta )^{3}/2\gamma ))n},\end{aligned}}}

et

k = β n n / 2 u k     c ρ ^ n n ( α + ( ( 1 2 β ) 3 / 2 γ ) ) n     u 2 . {\displaystyle \sum _{k=\beta n}^{n/2}u_{k}\ \leq \ c\,{\hat {\rho }}^{n}\,n^{(-\alpha +((1-2\beta )^{3}/2\gamma ))n}\ \ll \ u_{2}.}

Par conséquent

lim n P ( G ~ n   e s t   c o n n e x e ) = lim n P ( X n = 0 ) . {\displaystyle \lim _{n}\mathbb {P} \left({\tilde {G}}_{n}\mathrm {~est~connexe} \right)=\lim _{n}\mathbb {P} \left(X_{n}=0\right).}

Notons Tn le premier instant t où le graphe G ( t , n ) {\displaystyle \mathbb {G} \left(t,n\right)} est connexe :

T n   =   inf { t 0   |   G ( t , n )   e s t   c o n n e x e } , {\displaystyle T_{n}\ =\ \inf \left\{t\geq 0\ |\ \mathbb {G} (t,n)\mathrm {~est~connexe} \right\},}

de sorte que

{ G ( t , n )   e s t   c o n n e x e } { T n t } { ε > 0 , G ( t + ε , n )   e s t   c o n n e x e } . {\displaystyle \left\{\mathbb {G} \left(t,n\right)\mathrm {~est~connexe} \right\}\quad \Rightarrow \quad \left\{T_{n}\leq t\right\}\quad \Rightarrow \quad \left\{\forall \varepsilon >0,\quad \mathbb {G} \left(t+\varepsilon ,n\right)\mathrm {~est~connexe} \right\}.}

On peut alors voir le théorème double-exponentiel comme un résultat sur le développement asymptotique de Tn : si Zn est défini par la relation suivante :

T n   =   ln n n   +   Z n n , {\displaystyle T_{n}\ =\ {\frac {\ln n}{n}}\ +\ {\frac {Z_{n}}{n}},}

alors le théorème double-exponentiel stipule que Zn converge en loi vers la distribution de Gumbel, ce qui pourrait se traduire, dans une version probabiliste de la notation de Landau, par :

T n   =   ln n n   +   Θ ( 1 n ) . {\displaystyle T_{n}\ =\ {\frac {\ln n}{n}}\ +\ \Theta \left({\frac {1}{n}}\right).}

Le graphe aléatoire infini

Article détaillé : Graphe de Rado.

Erdős et Rényi ont généralisé le modèle binomial au cas d'un graphe infini dénombrable[réf. souhaitée], montrant qu'on obtenait alors (presque sûrement) un graphe possédant des propriétés d'universalité (contenant en particulier tout graphe fini ou dénombrable comme sous-graphe) ; ce graphe a été redécouvert à plusieurs reprises et est le plus souvent connu sous le nom de graphe de Rado.

Voir aussi

Notes

  1. Le premier article, publié en 1959, est "On Random Graphs I", Publ. Math. Debrecen 6, 290.
  2. (en) P. Erdős, « Some remarks on the theory of graphs », Bull. Amer. Math. Soc., vol. 53, no 4,‎ , p. 292-294 (lire en ligne). On considère souvent cet article comme marquant la naissance de la « méthode probabiliste » pour l'étude des graphes non aléatoires, en particulier pour la théorie de Ramsey.
  3. Pour un historique, voir (en) M. Karoński et A. Ruciński, « The origins of the theory of random graphs », dans The Mathematics of Paul Erdős, Berlin, Springer, coll. « Algorithms Combin. » (no 13), , p. 311-336.
  4. Pour plus de détails, voir Janson, Łuczak et Ruciński 2000, chap. 2, « Exponentially small probabilities ».
  5. Voir Janson, Łuczak et Ruciński 2000, section 1.4, « Asymptotic equivalence », p. 14.
  6. Voir (en) Galen R. Shorack et Jon A. Wellner, Empirical Processes With Applications to Statistics, SIAM, , 998 p. (ISBN 978-0-89871-684-9, lire en ligne), section 3.8, « Limiting distributions under the null hypothesis », p. 142, et chap. 18, « The Standardized Quantile Process », p. 637.
  7. a et b Janson, Łuczak et Ruciński 2000, Th. 6.7, p. 144.
  8. Voir l'article « Bijection de Joyal », ou bien Martin Aigner et Günter M. Ziegler, Raisonnements divins, 2e édition, 2006, p. 195-201, La formule de Cayley pour le nombre d’arbres.

Bibliographie

  • (en) Béla Bollobás, Random Graphs, Cambridge University Press, , 2e éd. (1re éd. 1985), 516 p. (ISBN 978-0-521-79722-1, lire en ligne).
  • (en) Svante Janson (en), Tomasz Łuczak et Andrzej Ruciński, Random Graphs, Wiley-Interscience, , 1re éd., 333 p., hardcover (ISBN 978-0-471-17541-4).
  • (en) Joel Spencer, « Nine lectures on random graphs », dans École d'été de Probabilités de Saint-Flour XXI-1991, Part 3, Springer, coll. « Lecture Notes in Math. » (no 1541), , p. 293-347.

Article connexe

Introduction de probabilités en théorie des graphes

Lien externe

Laurent Massoulié, Réseaux: contrôle distribué et phénomènes émergents, 2015

  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l'informatique théorique