Suurimman uskottavuuden estimointi

Suurimman uskottavuuden estimointi on tilastotieteellinen menetelmä, jota käytetään tilastollisen mallin parametrien estimointiin. Suurimman uskottavuuden menetelmä maksimoi uskottavuusfunktion mallin parametrien suhteen.

Historia

Suurimman uskottavuuden estimointi on alun perin Ronald Fisherin vuosina 1912–1922 esittelemä ja nimeämä menetelmä. Alkuperäistä teoriaa ovat sittemmin paikkailleet niin Fisher kuin myös Abraham Wald ja Harald Cramér, jotka molemmat tekivät lisärajoituksia teorian oletuksiin.

Suurimman uskottavuuden historian voidaan kuitenkin katsoa alkavan jo paljon aikaisemmin. Joseph-Louis Lagrange päätteli jo vuonna 1769, että halutun keskiarvon todennäköisin arvo on havaintojen aritmeettinen keskiarvo. Myös muun muassa Jakob Bernoullin (1769, 1778) ja Pierre-Simon Laplacen (1774) voidaan katsoa käyttäneen menetelmää. Carl Friedrich Gauss esitteli vuonna 1809 pienimmän neliösumman menetelmän, jonka tuottamat estimaatit ovat myös suurimman uskottavuuden estimaatteja silloin, kun satunnaisvirheet ovat normaalijakautuneita. Karl Pearson ja L.N.G Filon käsittelivät vuonna 1898 yleisen tason estimointiongelmaa, jossa on joukko moniulotteisia havaintoja, joiden jakauma riippuu tuntemattomista parametreista.[1]

Karl Pearson kritisoi Fisheriä ja suurimman uskottavuuden menetelmää siitä, ettei menetelmä uusi, vaan vain muunnos Gaussin esittämästä menetelmästä. Arthur Bowley vertasi suurimman uskottavuuden menetelmää Francis Ysidro Edgeworthin vuosina 1908-1909 tekemään työhön.[1][2]

Määritelmä

Suurimman uskottavuuden menetelmän käyttämiseksi tarvitaan uskottavuusfunktio.

Olkoon

  • θ {\displaystyle \theta } on vektori, joka sisältää uskottavuusfunktion parametrit
  • { x 1 , x 2 , x 3 x n } {\displaystyle \{x_{1},x_{2},x_{3}\cdots x_{n}\}} on n {\displaystyle n} havainnon otos (data)
  • f θ {\displaystyle f_{\theta }} on datan todennäköisyysjakauman tiheysfunktio

Uskottavuusfunktio voidaan nyt määritellä seuraavasti

L ( θ ) = f θ ( x 1 , , x n θ ) . {\displaystyle {\mathcal {L}}(\theta )=f_{\theta }(x_{1},\dots ,x_{n}\mid \theta ).\,\!}

Menetelmä etsii θ {\displaystyle \theta } :lle sellaisen estimaatin, joka maksimoi uskottavuusfunktion L(θ) arvon. Suurimman uskottavuuden estimaattori määritellään siis seuraavasti:

θ ^ = a r g   m a x θ   L ( θ ) . {\displaystyle {\widehat {\theta }}={\underset {\theta }{\operatorname {arg\ max} }}\ {\mathcal {L}}(\theta ).}

Usein oletetaan, että havainnot ovat toisistaan riippumattomia ja samoin jakautuneita. Tällöin voidaan lauseke kirjoittaa muotoon

L ( θ ) = i = 1 n f θ ( x i θ ) . {\displaystyle {\mathcal {L}}(\theta )=\prod _{i=1}^{n}f_{\theta }(x_{i}\mid \theta ).}

Koska lineaarisen ja logaritmisen funktion ääriarvot löytyvät samoista pisteistä, voidaan sama esittää myös logaritmifunktioiden avulla, jolloin kertolaskun sijaan voidaan käyttää log-uskottavuutta, eli summaa

( θ ) = log L ( θ ; x 1 , , x n ) = i = 1 n log f ( x i | θ ) , {\displaystyle \ell (\theta )=\log {\mathcal {L}}(\theta \,;\,x_{1},\ldots ,x_{n})=\sum _{i=1}^{n}\log f(x_{i}|\theta ),}

Suurimman uskottavuuden menetelmä estimoi θ0:n etsimällä sellaisen θ:n arvon, joka maksimoi uskottavuusfunktion. Tämä estimointimenetelmä määrää θ0:n suurimman uskottavuuden estimaatin

{ θ ^ m l e } { a r g m a x θ Θ   ^ ( θ ; x 1 , , x n ) } . {\displaystyle \{{\hat {\theta }}_{\mathrm {mle} }\}\subseteq \{{\underset {\theta \in \Theta }{\operatorname {arg\,max} }}\ {\hat {\ell }}(\theta \,;\,x_{1},\ldots ,x_{n})\}.}

mikäli sellainen on olemassa. Suurimman uskottavuuden estimaatti on sama riippumatta siitä, maksimoidaanko uskottavuus- vai log-uskottavuusfunktiota, sillä logaritmi on monotonisesti kasvava funktio.

Ominaisuuksia

Suurimman uskottavuuden estimaattoreilla ei ole optimaalisia ominaisuuksia äärellisillä otoksilla.[3] Suurimman uskottavuuden estimointimenetelmä kuitenkin omaa useita haluttuja ominaisuuksia: Otoskoon kasvaessa kohti ääretöntä suurimman uskottavuuden estimaattoreilla on seuraavat ominaisuudet:

  • Tarkentuvuus: suurimman uskottavuuden estimaatit suppenevat kohti estimoitavaa arvoa
  • Asymptoottinen normaalisuus: otoskoon kasvaessa suurimman uskottavuuden estitmaattien jakauma lähestyy normaalijakaumaa
  • Tehokkuus, eli se saavuttaa Cramér–Rao alarajan otoskoon lähestyessä ääretöntä. Tämä tarkoittaa sitä, ettei millään tarkentuvalla estimaattorilla ole alhaisempaa keskineliövirhettä kuin suurimman uskottavuuden estimaatilla

Esimerkkejä

Jatkuva jakauma, jatkuva parametriavaruus

Normaalijakaumalla N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} on tiheysfunktio

f ( x μ , σ 2 ) = 1 2 π   σ   exp ( ( x μ ) 2 2 σ 2 ) , {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)},}

jolloin yhteistiheysfunktio n:n kokoiselle otokselle riippumattomia ja identtisesti jakautuneita normaalisia satunnaismuuttujia on

f ( x 1 , , x n μ , σ 2 ) = i = 1 n f ( x i μ , σ 2 ) = ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i μ ) 2 2 σ 2 ) , {\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right),}

eli

f ( x 1 , , x n μ , σ 2 ) = ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) , {\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right),}

missä x ¯ {\displaystyle {\bar {x}}} on otoksen keskiarvo.

Tällä jakaumaperheellä on kaksi parametria θ = (μσ), joten maksimoimme uskottavuuden, L ( μ , σ ) = f ( x 1 , , x n μ , σ ) {\displaystyle {\mathcal {L}}(\mu ,\sigma )=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma )} , molempien parametrien suhteen.

Nyt voidaan laskujen helpottamiseksi käyttää log-uskottavuutta, sillä sen maksimoivat samat parametrien arvot jotka maksimoivat uskottavuuden.

0 = μ log ( ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) ) = μ ( log ( 1 2 π σ 2 ) n / 2 i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) = 0 2 n ( x ¯ μ ) 2 σ 2 {\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \mu }}\left(\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=0-{\frac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\end{aligned}}}

josta saadaan ratkaisu μ {\displaystyle \mu } :n estimaatiksi

μ ^ = x ¯ = i = 1 n x i / n . {\displaystyle {\hat {\mu }}={\bar {x}}=\sum _{i=1}^{n}x_{i}/n.}

Joka on funktion maksimi μ {\displaystyle \mu } :lle, sillä se on funktion ainoa käännepiste ja funktion toinen derivaatta on pienempi kuin nolla. Koska μ ^ {\displaystyle {\hat {\mu }}} :n odotusarvo on annetun jakauman parametrin μ {\displaystyle \mu } arvo,

E [ μ ^ ] = μ , {\displaystyle E\left[{\widehat {\mu }}\right]=\mu ,\,}

niin suurimman uskottavuuden estimaattori μ ^ {\displaystyle {\widehat {\mu }}} on harhaton.

Vastaavasti derivoidaan log-uskottavuus σ:n suhteen ja asetetaan tulos nollaksi:

0 = σ log ( ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) ) = σ ( n 2 log ( 1 2 π σ 2 ) i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) = n σ + i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 σ 3 {\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \sigma }}\left({\frac {n}{2}}\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=-{\frac {n}{\sigma }}+{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\end{aligned}}}

jonka ratkaisu on

σ ^ 2 = i = 1 n ( x i μ ^ ) 2 / n . {\displaystyle {\widehat {\sigma }}^{2}=\sum _{i=1}^{n}(x_{i}-{\widehat {\mu }})^{2}/n.}

ja sijoittamalla μ ^ {\displaystyle {\widehat {\mu }}} saadaan

σ ^ 2 = 1 n i = 1 n ( x i x ¯ ) 2 = 1 n i = 1 n x i 2 1 n 2 i = 1 n j = 1 n x i x j . {\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.}

Nyt odotusarvo voidaan laskea merkitsemällä δ i μ x i {\displaystyle \delta _{i}\equiv \mu -x_{i}} , jolloin saadaan estimaatiksi

σ ^ 2 = 1 n i = 1 n ( μ δ i ) 2 1 n 2 i = 1 n j = 1 n ( μ δ i ) ( μ δ j ) . {\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).}

ja hyödyntämällä tietoa E [ δ i ] = 0 {\displaystyle E\left[\delta _{i}\right]=0} ja E [ δ i 2 ] = σ 2 {\displaystyle E[\delta _{i}^{2}]=\sigma ^{2}} , saadaan

E [ σ ^ 2 ] = n 1 n σ 2 . {\displaystyle E\left[{\widehat {\sigma }}^{2}\right]={\frac {n-1}{n}}\sigma ^{2}.}

Tämä tarkoittaa sitä, että σ ^ {\displaystyle {\widehat {\sigma }}} on harhainen. Mutta σ ^ {\displaystyle {\widehat {\sigma }}} on kuitenkin tarkentuva.

Formaalisti sanotaan, että θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} :n suurimman uskottavuuden estimaattori on:

θ ^ = ( μ ^ , σ ^ 2 ) . {\displaystyle {\widehat {\theta }}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).}

Riippuvat muuttujat

Moniulotteista normaalijakaumaa noudattavat satunnaismuuttujat X ja Y ovat riippumattomia vain, mikäli niiden yhteistiheysfunktio on niiden tiheysfunktioiden tulo, eli

f ( x , y ) = f ( x ) f ( y ) {\displaystyle f(x,y)=f(x)f(y)\,}

Olkoon nyt kokoa n oleva vektori satunnaismuuttujia ( x 1 , , x n ) {\displaystyle (x_{1},\ldots ,x_{n})\,} , jossa jokaisella muuttujalla on keskiarvo ( μ 1 , , μ n ) {\displaystyle (\mu _{1},\ldots ,\mu _{n})\,} . merkitään lisäksi kovarianssimatriisi Σ {\displaystyle \Sigma } :lla.

Tällöin näiden n:n satunnaismuuttujan yhteistiheysfunktio on

f ( x 1 , , x n ) = 1 ( 2 π ) n / 2 det ( Σ ) exp ( 1 2 [ x 1 μ 1 , , x n μ n ] Σ 1 [ x 1 μ 1 , , x n μ n ] T ) {\displaystyle f(x_{1},\ldots ,x_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {{\text{det}}(\Sigma )}}}}\exp \left(-{\frac {1}{2}}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]\Sigma ^{-1}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]^{T}\right)}

Kahden muuttujan tapauksessa yhteistiheysfunktioksi saadaan

f ( x , y ) = 1 2 π σ x σ y 1 ρ 2 exp [ 1 2 ( 1 ρ 2 ) ( ( x μ x ) 2 σ x 2 2 ρ ( x μ x ) ( y μ y ) σ x σ y + ( y μ y ) 2 σ y 2 ) ] {\displaystyle f(x,y)={\frac {1}{2\pi \sigma _{x}\sigma _{y}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(x-\mu _{x})^{2}}{\sigma _{x}^{2}}}-{\frac {2\rho (x-\mu _{x})(y-\mu _{y})}{\sigma _{x}\sigma _{y}}}+{\frac {(y-\mu _{y})^{2}}{\sigma _{y}^{2}}}\right)\right]}

Tällaisissa tapauksissa, joissa yhteistiheysfunktio on olemassa uskottavuusfunktio määritellään, kuten yllä määritelmässä.

Lähteet

  1. a b Stigler, Stephen M. (2007). "The Epic Story of Maximum Likelihood". Statistical Science 22 (4): 598–620. doi:10.1214/07-STS249. 
  2. Aldrich, John (1997). "R. A. Fisher and the making of maximum likelihood 1912–1922". Statistical Science 12 (3): 162–176. doi:10.1214/ss/1030037906. 
  3. Pfanzagl, Johann (1994). Parametric statistical theory, with the assistance of R. Hamböker, Berlin, DE: Walter de Gruyter, 207–208. ISBN 3-11-013863-8. 

Aiheesta muualla

  • In Jae Myung: Tutorial on maximum likelihood estimation. Journal of Mathematical Psychology, 2002. [1] (Arkistoitu – Internet Archive)
  • Stock, James H. - Watson, Mark W.: Introduction to Econometrics. Addison Wesley, 2003.