Maximum de vraisemblance

Estimation du maximum de vraisemblance
Type
Méthode (d), estimationVoir et modifier les données sur Wikidata
Noms courts
(en) MLE, EMVVoir et modifier les données sur Wikidata
Décrit par
ISO 3534-1:2006(en) Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in probability (d)Voir et modifier les données sur Wikidata

modifier - modifier le code - modifier WikidataDocumentation du modèle

En statistique, l'estimateur du maximum de vraisemblance est un estimateur statistique utilisé pour inférer les paramètres de la loi de probabilité d'un échantillon donné en recherchant les valeurs des paramètres maximisant la fonction de vraisemblance.

Cette méthode a été développée par le statisticien Ronald Aylmer Fisher en 1922[1],[2].

Exemple

Soient neuf tirages aléatoires x1, …, x9 suivant une même loi[3] ; les valeurs tirées sont représentées sur les diagrammes ci-dessous par des traits verticaux pointillés. On souhaite modéliser ces valeurs par une loi normale. On va alors expliquer intuitivement la notion de vraisemblance, puis expliquer comment trouver les deux paramètres de la loi normale à savoir ici l'espérance μ (la moyenne) et l'écart type σ.

Lois normales de même écart type

Deux fonctions de densité avec deux espérances différentes : une courbe noire et une courbe bleue.

Prenons deux lois modèles de même écart type σ mais ayant une espérance μ différente. Pour chacun des cas, on détermine les hauteurs hi correspondant à la valeur de la fonction de densité en xi. La vraisemblance L est alors définie comme valant

L = h 1 × h 2 × × h 9 {\displaystyle L=h_{1}\times h_{2}\times \ldots \times h_{9}} ,

c'est-à-dire comme le produit des hauteurs. Dans le cas de la courbe bleue à droite, les valeurs sont majoritairement situées là où la fonction de densité est maximale — la zone est signalée par une accolade. Donc, la vraisemblance est plus importante pour la courbe bleue que pour la courbe noire. De manière générale, on doit avoir une densité de valeurs xi importante là où la fonction de densité est importante ; le maximum de vraisemblance est donc pertinent pour sélectionner le paramètre position, lorsqu'il a un sens, de la loi modèle.

Lois normales de même espérance

Trois fonctions de densité de trois lois normales centrées en 0, avec écarts types respectivement grand (à gauche), moyen (au milieu) et petit (à droite).

Prenons maintenant trois lois normales modèle toutes les trois avec la « bonne » espérance, mais ayant des écarts types différents. Dans le cas de la courbe verte à gauche, l'écart type est très important, la courbe est très large et donc « ne monte pas très haut » (la surface sous la courbe devant être de 1, quelle que soit la courbe) ; les hi sont donc bas et L est faible.

Dans le cas de la courbe noire à droite, l'écart type est petit ; le sommet de la courbe est haut, mais les hi des extrémités sont eux très faibles, donc le produit L n'est pas très élevé.

La courbe bleue au centre a à la fois des hauteurs relativement élevées pour les hi du centre et des hauteurs non négligeables pour les hi des extrémités, ce qui donne un L élevé ; le maximum de vraisemblance est donc pertinent pour sélectionner le paramètre dispersion, lorsqu'il a un sens, de la loi modèle.

Déterminer les paramètres

Pour notre exemple, si l'on trace la valeur de la vraisemblance L en fonction des paramètres μ et σ, on obtient une surface dont le maximum est en (μ = 0, σ = 1). La recherche de ce maximum est un problème d'optimisation classique.

Surface représentant la vraisemblance L (en z) en fonction des paramètres μ et σ de la loi normale.

Histoire

En 1912, au moment où Ronald Aylmer Fisher rédige son premier article consacré au maximum de vraisemblance, les deux méthodes statistiques les plus utilisées sont la méthode des moindres carrés et la méthode des moments[2]. Dans son article de 1912, il propose l'estimateur du maximum de vraisemblance qu'il appelle à l'époque le critère absolu[4],[2]. Il prend l'exemple d'une loi normale[2].

En 1921, il applique la même méthode à l'estimation d'un coefficient de corrélation[5],[2].

En 1912, un malentendu a laissé croire que le critère absolu pouvait être interprété comme un estimateur bayésien avec une loi a priori uniforme[2]. Fisher réfute cette interprétation en 1921[2]. En 1922, il utilise la loi binomiale pour illustrer son critère et montre en quoi il est différent d'un estimateur bayésien[6],[2]. C'est aussi en 1922 qu'il donne le nom de maximum de vraisemblance à sa méthode[2].

Définitions

Soit X {\displaystyle X} une variable aléatoire réelle, de loi D θ {\displaystyle {\mathcal {D}}_{\theta }} , de paramètre θ {\displaystyle \theta } inconnu. On définit une fonction f {\displaystyle f} selon que la loi est discrète ou continue.

  • Si X {\displaystyle X} est une variable discrète, alors on pose f ( x ; θ ) = P θ ( X = x ) {\displaystyle f(x;\theta )=P_{\theta }(X=x)} , c'est-à-dire la probabilité que X {\displaystyle X} vaut x.
  • Si X {\displaystyle X} est une variable continue, alors on pose f ( x ; θ ) = f θ ( x ) {\displaystyle f(x;\theta )=f_{\theta }(x)} , la densité de X au point x.

On appelle vraisemblance de θ {\displaystyle \theta } au vu des observations ( x 1 , , x n ) {\displaystyle (x_{1},\ldots ,x_{n})} d'un n-échantillon indépendamment et identiquement distribué selon la loi D θ {\displaystyle {\mathcal {D}}_{\theta }} , le nombre :

L ( x 1 , , x n ; θ ) = f ( x 1 ; θ ) × × f ( x n ; θ ) = i = 1 n f ( x i ; θ ) {\displaystyle L(x_{1},\ldots ,x_{n};\theta )=f(x_{1};\theta )\times \ldots \times f(x_{n};\theta )=\prod _{i=1}^{n}f(x_{i};\theta )}

À ( x 1 , , x n ) {\displaystyle (x_{1},\ldots ,x_{n})} fixé, on cherche à trouver le maximum de cette vraisemblance pour que les probabilités des réalisations observées soient aussi maximum. Ceci est un problème d'optimisation. Ainsi, un estimateur du maximum de vraisemblance est tout estimateur θ ^ {\displaystyle {\widehat {\theta }}} de θ vérifiant[7]

sup θ L ( x 1 , , x n ; θ ) = L ( x 1 , , x n ; θ ^ ) . {\displaystyle \sup _{\theta }L(x_{1},\ldots ,x_{n};\theta )=L(x_{1},\ldots ,x_{n};{\hat {\theta }}).}

A priori, il n'y a ni existence, ni unicité d'un estimateur du maximum de vraisemblance. Cependant, en pratique, dans la plupart des cas, il existe, est unique, et on peut le calculer[7]. Cette méthode se distingue de la recherche d'un estimateur non biaisé de θ, ce qui ne donne pas nécessairement la valeur la plus probable pour θ[réf. nécessaire].

Exemple d'une loi de Bernoulli

Considérons une variable X {\displaystyle X} de loi de Bernoulli où la probabilité que X = 1 {\displaystyle X=1} vaut p et la probabilité que X = 0 {\displaystyle X=0} vaut 1–p. Le paramètre inconnu est ici p. On a f ( 0 ; θ ) = 1 p {\displaystyle f(0;\theta )=1-p} et f ( 1 ; θ ) = p {\displaystyle f(1;\theta )=p} . On peut résumer cela à f ( x ; θ ) = p x ( 1 p ) 1 x {\displaystyle f(x;\theta )=p^{x}(1-p)^{1-x}} pour x valant 0 ou 1. Ainsi, L ( x 1 , , x n ; p ) = i = 1 n p x i ( 1 p ) 1 x i {\displaystyle L(x_{1},\ldots ,x_{n};p)=\prod _{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}} .

Calcul d'un estimateur du maximum de vraisemblance

On utilise généralement le fait que L est dérivable (ce qui n'est pas toujours le cas). Si L admet un maximum global en une valeur θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} , alors la dérivée première s'annule en θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} et la dérivée seconde est négative. Réciproquement, si la dérivée première s'annule en θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} et que la dérivée seconde est strictement négative en θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} , alors θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} est un maximum local de L ( x 1 , , x i , , x n ; θ ) {\displaystyle L(x_{1},\ldots ,x_{i},\ldots ,x_{n};\theta )} . Il est alors nécessaire de vérifier qu'il s'agit bien d'un maximum global. La vraisemblance étant positive et le logarithme népérien une fonction croissante, il est équivalent et souvent plus simple de maximiser le logarithme népérien de la vraisemblance (le produit se transforme en somme, plus simple à dériver). On peut facilement construire la statistique Y n = Θ {\displaystyle Y_{n}=\Theta } qui est l'estimateur voulu.

Ainsi en pratique :

  • La condition nécessaire L ( x 1 , , x n ; θ ) θ = 0 {\displaystyle {\frac {\partial L(x_{1},\ldots ,x_{n};\theta )}{\partial \theta }}=0} ou ln L ( x 1 , , x n ; θ ) θ = 0 {\displaystyle {\frac {\partial \ln L(x_{1},\ldots ,x_{n};\theta )}{\partial \theta }}=0} permet de trouver la valeur θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} .
  • θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} est un maximum local si la condition suffisante est remplie au point critique θ = θ ^ {\displaystyle \theta ={\hat {\theta }}}  : c'est-à-dire 2 L ( x 1 , , x n ; θ ) θ 2 < 0 {\displaystyle {\frac {\partial ^{2}L(x_{1},\ldots ,x_{n};\theta )}{\partial \theta ^{2}}}<0} ou 2 ln L ( x 1 , , x n ; θ ) θ 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln L(x_{1},\ldots ,x_{n};\theta )}{\partial \theta ^{2}}}<0} .

Pour simplifier, dans les cas de lois continues, où parfois la densité de probabilité est nulle sur un certain intervalle, on peut omettre d'écrire la vraisemblance pour cet intervalle uniquement.

Exemple d'une loi de Bernoulli

On cherche la valeur de p qui maximise L ( x 1 , , x n ; p ) = i = 1 n p x i ( 1 p ) 1 x i {\displaystyle L(x_{1},\ldots ,x_{n};p)=\prod _{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}} . En passant au logarithme népérien, cela revient à chercher p qui maximise

ln L ( x 1 , , x n ; p ) = i = 1 n x i ln p + ( 1 x i ) ln ( 1 p ) . {\displaystyle \ln L(x_{1},\ldots ,x_{n};p)=\sum _{i=1}^{n}x_{i}\ln p+(1-x_{i})\ln(1-p).}

Pour cela, on calcule la dérivée en p :

ln L ( x 1 , , x n ; p ) p = i = 1 n x i 1 p ( 1 x i ) 1 1 p {\displaystyle {\frac {\partial \ln L(x_{1},\ldots ,x_{n};p)}{\partial p}}=\sum _{i=1}^{n}x_{i}{\frac {1}{p}}-(1-x_{i}){\frac {1}{1-p}}} .

On trouve p ^ = 1 n i = 1 n x i {\displaystyle {\hat {p}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} , c'est-à-dire que l'estimateur par maximum de vraisemblance de p est la moyenne empirique de l'échantillon[8].

Généralisation

Cette section peut contenir un travail inédit ou des déclarations non vérifiées (mars 2012). Vous pouvez aider en ajoutant des références ou en supprimant le contenu inédit.

Pour une variable aléatoire réelle X de loi quelconque définie par une fonction de répartition F(x), on peut considérer des voisinages V de (x1, …, xn) dans R n {\displaystyle \mathbb {R} ^{n}} , par exemple une boule de rayon ε. On obtient ainsi une fonction de vraisemblance L ( θ ; V ) = P [ ( X 1 , θ , , X n , θ ) V ] {\displaystyle L(\theta ;V)=P[(X_{1,\theta },\ldots ,X_{n,\theta })\in V]} dont on cherche un maximum θ = θ ^ ( V ) {\displaystyle \theta ={\hat {\theta }}(V)} . On fait ensuite tendre la taille de V vers 0 dans θ ^ ( V ) {\displaystyle {\hat {\theta }}(V)} pour obtenir l'estimateur θ ^ {\displaystyle {\hat {\theta }}} de maximum de vraisemblance.

On retombe sur les fonctions de vraisemblance précédentes quand X est à loi discrète ou continue.

Si la loi de X est quelconque, il suffit de considérer la densité par rapport à une mesure dominante μ {\displaystyle \mu } .

Une famille de loi ( P θ ) θ Θ {\displaystyle (P_{\theta })_{\theta \in \Theta }} est dominée par la mesure μ {\displaystyle \mu } si A Ω , θ Θ , μ ( A ) = 0 P θ ( A ) = 0 {\displaystyle \forall A\in \Omega ,\forall \theta \in \Theta ,\quad \mu (A)=0\Rightarrow P_{\theta }(A)=0} .

Si X est une variable continue de dimension 1, alors on peut utiliser la mesure de Lebesgue sur R {\displaystyle \mathbb {R} } (ou sur un intervalle de R {\displaystyle \mathbb {R} } comme mesure dominante. Si X est une variable discrète de dimension 1, on peut utiliser la mesure de comptage sur N {\displaystyle \mathbb {N} } (ou sur un sous-ensemble de N {\displaystyle \mathbb {N} } ). On retrouve alors les définitions de la vraisemblance données pour les cas discrets et continus.

Propriétés

L'estimateur obtenu par la méthode du maximum de vraisemblance est :

En revanche, il peut être biaisé en échantillon fini.

Intervalles de confiance

Comme l'estimateur du maximum de vraisemblance est asymptotiquement normal, on peut construire un intervalle de confiance C n {\displaystyle C_{n}} tel qu'il contienne le vrai paramètre avec une probabilité 1 α {\displaystyle 1-\alpha } [13] :

C n = ( θ n ^ Φ 1 ( 1 α / 2 ) σ θ n ^ ^ , θ n ^ + Φ 1 ( 1 α / 2 ) σ θ n ^ ^ ) {\displaystyle C_{n}=\left({\hat {\theta _{n}}}-\Phi ^{-1}(1-\alpha /2){\widehat {\sigma _{\hat {\theta _{n}}}}},{\hat {\theta _{n}}}+\Phi ^{-1}(1-\alpha /2){\widehat {\sigma _{\hat {\theta _{n}}}}}\right)}

avec Φ 1 ( 1 α / 2 ) {\displaystyle \Phi ^{-1}(1-\alpha /2)} le quantile d'ordre 1 α / 2 {\displaystyle 1-\alpha /2} de la loi normale centrée réduite et σ θ n ^ ^ {\displaystyle {\widehat {\sigma _{\hat {\theta _{n}}}}}} l'écart-type estimé de θ n ^ {\displaystyle {\hat {\theta _{n}}}} . On a alors

P ( θ C n ) n + 1 α {\displaystyle \mathbb {P} (\theta \in C_{n}){\underset {n\rightarrow +\infty }{\longrightarrow }}1-\alpha }

Tests

Test de Wald

Article détaillé : Test de Wald.

Comme l'estimateur du maximum de vraisemblance est asymptotiquement normal, on peut appliquer le test de Wald[14].

On considère l'hypothèse nulle :

H 0 : θ = θ 0 {\displaystyle H_{0}:\theta =\theta _{0}}

contre l'hypothèse alternative

H a : θ θ 0 {\displaystyle H_{a}:\theta \neq \theta _{0}}

L'estimateur θ ^ {\displaystyle {\hat {\theta }}} est asymptotiquement normal :

θ ^ θ 0 σ θ ^ ^ N ( 0 , 1 ) {\displaystyle {\frac {{\hat {\theta }}-\theta _{0}}{\widehat {\sigma _{\hat {\theta }}}}}\sim {\mathcal {N}}(0,1)}

avec σ θ ^ ^ {\displaystyle {\widehat {\sigma _{\hat {\theta }}}}} l'écart-type estimé de l'estimateur θ ^ {\displaystyle {\hat {\theta }}}

On définit la statistique de test :

W = θ ^ θ 0 σ θ ^ ^ {\displaystyle W={\frac {{\hat {\theta }}-\theta _{0}}{\widehat {\sigma _{\hat {\theta }}}}}}

On rejette alors l'hypothèse nulle avec un risque de première espèce α {\displaystyle \alpha } lorsque la valeur absolue de la statistique de test est supérieure au quantile d'ordre 1 α / 2 {\displaystyle 1-\alpha /2} de la loi normale centrée réduite :

| W | > Φ 1 ( 1 α / 2 ) {\displaystyle |W|>\Phi ^{-1}(1-\alpha /2)}

avec Φ 1 ( . ) {\displaystyle \Phi ^{-1}(.)} la fonction quantile de la loi normale centrée réduite.

La p-value s'écrit alors[15] :

p-value = 2 Φ ( | w | ) {\displaystyle {\text{p-value}}=2\Phi (-|w|)}

avec w la valeur de la statistique de test dans les données.

Test du rapport de vraisemblance

Article détaillé : Test du rapport de vraisemblance.

Si on appelle θ {\displaystyle \theta } le vecteur des paramètres estimés, on considère un test du type[16] :

H 0 : θ Θ 0 {\displaystyle H_{0}:\theta \in \Theta _{0}}

contre

H a : θ Θ 0 {\displaystyle H_{a}:\theta \notin \Theta _{0}}

On définit alors θ ^ {\displaystyle {\hat {\theta }}} l'estimateur du maximum de vraisemblance et θ 0 ^ {\displaystyle {\widehat {\theta _{0}}}} l'estimateur du maximum de vraisemblance sous H 0 {\displaystyle H_{0}} . On définit enfin la statistique du test :

λ = 2 log ( L ( θ 0 ^ ) L ( θ ^ ) ) {\displaystyle \lambda =-2\log \left({\frac {{\mathcal {L}}({\hat {\theta _{0}}})}{{\mathcal {L}}({\widehat {\theta }})}}\right)}

On sait que sous l'hypothèse nulle, la statistique du test du rapport de vraisemblance suit une loi du χ 2 {\displaystyle \chi ^{2}} avec un nombre de degrés de liberté égal au nombre de contraintes imposées par l'hypothèse nulle (p) :

λ ( x 1 , , x n ) χ 2 ( p ) {\displaystyle \lambda (x_{1},\ldots ,x_{n})\sim \chi ^{2}(p)}

Par conséquent, on rejette le test au niveau α {\displaystyle \alpha } lorsque la statistique de test est supérieure au quantile d'ordre 1 α {\displaystyle 1-\alpha } de la loi du χ 2 {\displaystyle \chi ^{2}} à p degrés de libertés.

On peut donc définir la valeur limite (p-value)[note 1] de ce test :

p-value = 1 F χ p 2 ( λ ) {\displaystyle {\text{p-value}}=1-F_{\chi _{p}^{2}}(\lambda )}

Exemples

Loi de Poisson

On souhaite estimer le paramètre λ {\displaystyle \lambda } d'une loi de Poisson à partir d'un n-échantillon :

f ( x , λ ) = P λ ( X = x ) = e λ λ x x ! {\displaystyle f(x,\lambda )=P_{\lambda }(X=x)={\rm {e}}^{-\lambda }{\frac {\lambda ^{x}}{x!}}}

L'estimateur du maximum de vraisemblance est : λ ^ M L = x ¯ {\displaystyle {\hat {\lambda }}_{ML}={\bar {x}}}

Démonstration

La vraisemblance s'écrit :

L ( x 1 , . . . , x i , . . . , x n ; λ ) = i = 1 n e λ λ x i x i ! = e n λ i = 1 n λ x i x i ! {\displaystyle L(x_{1},...,x_{i},...,x_{n};\lambda )=\prod _{i=1}^{n}e^{-\lambda }{\frac {\lambda ^{x_{i}}}{x_{i}!}}=e^{-n\lambda }\prod _{i=1}^{n}{\frac {\lambda ^{x_{i}}}{x_{i}!}}}

La vraisemblance étant positive, on considère son logarithme naturel :

ln L ( x 1 , . . . , x i , . . . , x n ; λ ) = ln e λ n + ln i = 1 n λ x i x i ! = λ n + i = 1 n ln λ x i x i ! = λ n + ln λ i = 1 n x i i = 1 n ln ( x i ! ) {\displaystyle \ln L(x_{1},...,x_{i},...,x_{n};\lambda )=\ln e^{-\lambda n}+\ln \prod _{i=1}^{n}{\frac {\lambda ^{x_{i}}}{x_{i}!}}=-\lambda n+\sum _{i=1}^{n}\ln {\frac {\lambda ^{x_{i}}}{x_{i}!}}=-\lambda n+\ln \lambda \sum _{i=1}^{n}x_{i}-\sum _{i=1}^{n}\ln(x_{i}!)}

La dérivée première s'annule quand :

ln L ( x 1 , . . . , x i , . . . , x n ; λ ) λ = 0 {\displaystyle {\frac {\partial \ln L(x_{1},...,x_{i},...,x_{n};\lambda )}{\partial \lambda }}=0}

soit

λ ^ = i = 1 n x i n {\displaystyle {\hat {\lambda }}={\frac {\sum _{i=1}^{n}x_{i}}{n}}}

La dérivée seconde s'écrit :

2 ln L ( x 1 , . . . , x i , . . . , x n ; λ ) λ 2 = i = 1 n x i λ 2 0 {\displaystyle {\frac {\partial ^{2}\ln L(x_{1},...,x_{i},...,x_{n};\lambda )}{\partial \lambda ^{2}}}=-{\frac {\sum _{i=1}^{n}x_{i}}{\lambda ^{2}}}\leq 0}

Ce ratio étant toujours négatif alors, l'estimation est donnée par :

Y n = Λ = i = 1 n X i n = X ¯ {\displaystyle Y_{n}=\Lambda ={\frac {\sum _{i=1}^{n}X_{i}}{n}}={\bar {X}}}

Il est tout à fait normal de retrouver dans cet exemple didactique la moyenne empirique, car c'est le meilleur estimateur possible pour le paramètre λ {\displaystyle \lambda } (qui représente aussi l'espérance d'une loi de Poisson).

Loi exponentielle

On souhaite estimer le paramètre α {\displaystyle \alpha } d'une loi exponentielle à partir d'un n-échantillon.

f ( x , α ) = f α ( x ) = { α e α x si x 0 0 sinon {\displaystyle f(x,\alpha )=f_{\alpha }(x)={\begin{cases}\alpha {\rm {e}}^{-\alpha x}&{\text{si}}\quad x\geq 0\\0&{\text{sinon}}\end{cases}}}

L'estimateur du maximum de vraisemblance est : α ^ M L = 1 x ¯ {\displaystyle {\hat {\alpha }}_{ML}={\frac {1}{\bar {x}}}}

Démonstration

La vraisemblance s'écrit :

L ( x 1 , . . . , x i , . . . , x n ; α ) = i = 1 n α e α x i = α n i = 1 n e α x i = α n exp ( i = 1 n α x i ) = α n exp ( α i = 1 n x i ) {\displaystyle L(x_{1},...,x_{i},...,x_{n};\alpha )=\prod _{i=1}^{n}\alpha {\rm {e}}^{-\alpha x_{i}}=\alpha ^{n}\prod _{i=1}^{n}{\rm {e}}^{-\alpha x_{i}}=\alpha ^{n}\exp \left(\sum _{i=1}^{n}-\alpha x_{i}\right)=\alpha ^{n}\exp \left(-\alpha \sum _{i=1}^{n}x_{i}\right)}

La vraisemblance étant positive, on considère son logarithme népérien :

ln L ( x 1 , . . . , x i , . . . , x n ; α ) = ln [ α n exp ( α i = 1 n x i ) ] = n ln α α i = 1 n x i {\displaystyle \ln L(x_{1},...,x_{i},...,x_{n};\alpha )=\ln \left[\alpha ^{n}\exp \left(-\alpha \sum _{i=1}^{n}x_{i}\right)\right]=n\ln \alpha -\alpha \sum _{i=1}^{n}x_{i}}

La dérivée première s'annule quand :

ln L ( x 1 , . . . , x i , . . . , x n ; α ) α = n α i = 1 n x i = 0 {\displaystyle {\frac {\partial \ln L(x_{1},...,x_{i},...,x_{n};\alpha )}{\partial \alpha }}={\frac {n}{\alpha }}-\sum _{i=1}^{n}x_{i}=0}

soit

α ^ = n i = 1 n x i = 1 1 n i = 1 n x i {\displaystyle {\hat {\alpha }}={\frac {n}{\sum _{i=1}^{n}x_{i}}}={\frac {1}{{\frac {1}{n}}\sum _{i=1}^{n}x_{i}}}}

La dérivée seconde s'écrit :

2 ln L ( x 1 , . . . , x i , . . . , x n ; α ) α 2 = n α 2 0 {\displaystyle {\frac {\partial ^{2}\ln L(x_{1},...,x_{i},...,x_{n};\alpha )}{\partial \alpha ^{2}}}=-{\frac {n}{\alpha ^{2}}}\leq 0}

Ce ratio est toujours négatif donc l'estimation est donnée par:

Z n = A = 1 1 n i = 1 n X i = 1 X ¯ {\displaystyle Z_{n}=\mathrm {A} ={\frac {1}{{\frac {1}{n}}\sum _{i=1}^{n}X_{i}}}={\frac {1}{\bar {X}}}}

Là encore, il est tout à fait normal de retrouver l'inverse de la moyenne empirique, car on sait que l'espérance d'une loi exponentielle correspond à l'inverse du paramètre α {\displaystyle \alpha } .

Loi normale

L'estimateur du maximum de vraisemblance de l'espérance μ {\displaystyle \mu } et la variance σ 2 {\displaystyle \sigma ^{2}} d'une loi normale est[17] :

μ ^ M L = x ¯ = 1 n i = 1 n x i {\displaystyle {\hat {\mu }}_{ML}={\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}
σ ^ M L 2 = 1 n i = 1 n ( x i x ¯ ) 2 {\displaystyle {\widehat {\sigma }}_{ML}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}
Démonstration

Une loi normale N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} a pour fonction de densité :

f ( x μ , σ 2 ) = 1 σ 2 π exp ( ( x μ ) 2 2 σ 2 ) . {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}.}

La fonction de vraisemblance pour un échantillon de n valeurs indépendantes est alors :

f ( x 1 , , x n μ , σ 2 ) = i = 1 n f ( x i μ , σ 2 ) = ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i μ ) 2 2 σ 2 ) , {\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right),}

qui peut s'écrire plus simplement, par le théorème de König-Huyghens :

f ( x 1 , , x n μ , σ 2 ) = ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) , {\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right),}

x ¯ {\displaystyle {\bar {x}}} représente la moyenne de l'échantillon.

Il y a là deux paramètres : θ = μ , σ 2 {\displaystyle \theta =\mu ,\sigma ^{2}} , donc il faut maximiser la fonction L ( μ , σ ) = f ( x 1 , , x n μ , σ ) {\displaystyle {\mathcal {L}}(\mu ,\sigma )=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma )} selon les deux paramètres.

On va donc chercher la dérivée première et l'égaliser à zéro.

En l'occurrence, c'est la fonction de log-vraisemblance qui est maximisée ici.

0 = μ ln ( ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) ) = μ ( ln ( 1 2 π σ 2 ) n / 2 i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) = 0 2 n ( x ¯ μ ) 2 σ 2 {\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \mu }}\ln \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\&={\frac {\partial }{\partial \mu }}\left(\ln \left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=0-{\frac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\end{aligned}}}

et on obtient donc l'estimateur par le maximum de vraisemblance de l'espérance :

μ ^ = x ¯ = 1 n i = 1 n x i {\displaystyle {\hat {\mu }}={\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}

On peut montrer en plus que cet estimateur est sans biais :

E [ μ ^ ] = μ {\displaystyle \mathbb {E} \left[{\widehat {\mu }}\right]=\mu }

Pour le second paramètre, σ, on cherche par analogie le maximum en fonction de σ.

0 = σ ln ( ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) ) = σ ( n 2 ln ( 1 2 π σ 2 ) i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) = n σ + i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 σ 3 {\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\ln \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\&={\frac {\partial }{\partial \sigma }}\left({\frac {n}{2}}\ln \left({\frac {1}{2\pi \sigma ^{2}}}\right)-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=-{\frac {n}{\sigma }}+{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\end{aligned}}}

donc

σ ^ 2 = i = 1 n ( x i μ ^ ) 2 / n {\displaystyle {\widehat {\sigma }}^{2}=\sum _{i=1}^{n}(x_{i}-{\widehat {\mu }})^{2}/n}

et on obtient finalement l'estimateur par le maximum de vraisemblance de la variance

σ ^ 2 = 1 n i = 1 n ( x i x ¯ ) 2 {\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}

L'estimateur de la variance est par contre biaisé :

E [ σ ^ 2 ] = n 1 n σ 2 {\displaystyle \mathbb {E} \left[{\widehat {\sigma }}^{2}\right]={\frac {n-1}{n}}\sigma ^{2}}

L'estimateur de la variance est un bon exemple pour montrer que le maximum de vraisemblance peut fournir des estimateurs biaisés. En effet, un estimateur sans biais est donné par : σ ^ 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}} . Néanmoins, asymptotiquement, quand n tend vers l'infini, ce biais, qui est de σ 2 n , {\displaystyle {\frac {-\sigma ^{2}}{n}},} tend vers 0 et l'estimateur est alors asymptotiquement sans biais.

Loi uniforme

Dans le cas de l'estimation de la borne supérieure d'une loi uniforme, la vraisemblance ne peut pas être dérivée[18].

Représentation graphique de la vraisemblance d'un n-échantillon d'une loi uniforme.

On souhaite estimer le paramètre a d'une loi uniforme à partir d'un n-échantillon.

f ( x , a ) = f a ( x ) = { 1 a si x [ 0 ; a ] 0 sinon {\displaystyle f(x,a)=f_{a}(x)={\begin{cases}{\frac {1}{a}}&{\text{si}}\quad x\in [0;a]\\0&{\text{sinon}}\end{cases}}}

La vraisemblance s'écrit :

L ( x 1 , , x i , , x n ; a ) = i = 1 n f a ( x i ) = { 0 si a < max ( x 1 , , x n ) 1 a n si a max ( x 1 , , x n ) {\displaystyle L(x_{1},\ldots ,x_{i},\ldots ,x_{n};a)=\prod _{i=1}^{n}f_{a}(x_{i})={\begin{cases}0&{\text{si}}\quad a<\max(x_{1},\ldots ,x_{n})\\{\frac {1}{a^{n}}}&{\text{si}}\quad a\geq \max(x_{1},\ldots ,x_{n})\end{cases}}}

Cette fonction n'est pas dérivable en max ( x 1 , , x n ) {\displaystyle \max(x_{1},\ldots ,x_{n})} . Sa dérivée s'annule sur tout l'intervalle [ 0 , max ( x 1 , , x n ) [ {\displaystyle [0,\max(x_{1},\ldots ,x_{n})[} . Il est clair que pour trouver le maximum de cette fonction il ne faut pas regarder là où la dérivée s'annule.

La valeur de L sera maximale pour a ^ = max ( x 1 , , x n ) {\displaystyle {\hat {a}}=\max(x_{1},\ldots ,x_{n})} , car 1 a n {\displaystyle {\tfrac {1}{a^{n}}}} est décroissante pour a > 0 {\displaystyle a>0} .

Cet exemple permet de montrer également que le logarithme de la vraisemblance n'est pas toujours bien défini (sauf si on accepte que ln ( 0 ) = {\displaystyle \ln(0)=-\infty } ).

Applications

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

La méthode du maximum de vraisemblance est très souvent utilisée. Elle est notamment utilisée pour estimer le modèle de régression logistique ou le modèle probit. Plus généralement, elle est couramment utilisée pour estimer le modèle linéaire généralisé, classes de modèle qui inclut la régression logistique et le modèle probit.

Bibliographie

  • (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag, , 461 p. (ISBN 978-0-387-40272-7, lire en ligne)
  • (en) Colin Cameron et Pravin Trivedi, Microeconometrics : Methods And Applications, Cambridge University Press, , 1056 p. (ISBN 978-0-521-84805-3, lire en ligne)

Notes et références

Notes

  1. On rappelle que la p-value est définie comme la plus petite valeur du risque de première espèce ( α {\displaystyle \alpha } ) pour laquelle on rejette le test (Wasserman 2004, p. 156).

Références

  1. (en) John Aldrich, « R.A. Fisher and the making of maximum likelihood 1912-1922 », Statistical Science, vol. 12, no 3,‎ , p. 162-176 (lire en ligne, consulté le ).
  2. a b c d e f g h et i (en) Stephen Stigler, « The Epic Story of Maximum Likelihood », Statistical Science, vol. 22, no 4,‎ (lire en ligne, consulté le ).
  3. Pour des raisons pratiques, les xi sont les déciles de la loi normale centrée réduite (espérance μ = 0, écart type σ = 1).
  4. (en) Ronald Fisher, « On an absolute criterion for fitting frequency curves », Messenger of Mathematics, no 41,‎ , p. 155-160.
  5. (en) Ronald Fisher, « On the "probable error" of a coefficient of correlation deduced from a small sample », Metron, no 1,‎ .
  6. (en) Ronald Fisher, « On the mathematical foundations of theoretical statistics », Philos. Trans. Roy. Soc. London Ser. A,‎ .
  7. a et b « De l'intégration aux probabilités - 2e édition augmentée », sur www.editions-ellipses.fr (consulté le ), p. 347-348, équation (13.4).
  8. Chloé-Agathe Azencott, Introduction au Machine Learning, (lire en ligne), p. 253-254.
  9. a b et c Wasserman 2004, p. 126.
  10. Cameron et Trivedi 2005, p. 119.
  11. Wasserman 2004, p. 129, théorème 9.18.
  12. Cameron et Trivedi 2005, p. 121.
  13. Wasserman 2004, p. 129, théorème 9.19.
  14. Wasserman 2004, p. 153, définition 10.3.
  15. Wasserman 2004, p. 158, théorème 10.13.
  16. Wasserman 2004, p. 164.
  17. Wasserman 2004, p. 123, exemple 9.11.
  18. Wasserman 2004, p. 124, exemple 9.12.

Voir aussi

  • icône décorative Portail des probabilités et de la statistique