Metoda maximální věrohodnosti

Metoda maximální věrohodnosti označuje jednu z centrálních metod matematické statistiky. Jednou z hlavních úloh matematické statistiky je, zjednodušeně řečeno, odhad neznámých veličin v závislosti na pozorovaných (experimentálních) datech.

Odhad v kontextu matematické statistiky sestává ze dvou částí

  1. formulace pravděpodobnostního modelu, který popisuje danou reálnou situaci
  2. ověření shody daného modelu se skutečností na základě pozorovaných dat.

Z těchto dat se dále odhadují hodnoty volných parametrů modelu. [1] Metoda maximální věrohodnosti je univerzální metoda pro konstrukci odhadů parametrů.

Definice

Pozorovaná data se uvažují jako soubor stejně rozdělených nezávislých náhodných veličin X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\ldots ,X_{n}} s neznámou funkcí hustoty f θ {\displaystyle f_{\theta }} . Dostupnou informací je, že tato funkce náleží do parametrické množiny { g θ , θ Θ } {\displaystyle \{g_{\theta },\theta \in \Theta \}} , jejíž prvky se liší pouze hodnotou parametru Θ {\displaystyle \Theta } . Jinými slovy existuje hodnota θ 0 {\displaystyle \theta _{0}} taková, že f θ = g θ 0 {\displaystyle f_{\theta }=g_{\theta _{0}}} . Protože hodnota θ 0 {\displaystyle \theta _{0}} je neznámá, je potřeba se jí pomocí nějakého odhadu θ ^ {\displaystyle {\hat {\theta }}} co nejlépe přiblížit.

Pro soubor stejně rozdělených, nezávislých náhodných veličin platí, že jejich sdruženou hustotu lze faktorizovat (tj. rozdělit na součin hustot jednotlivých rozdělení)

f ( X 1 , X 2 , , X n | θ ) = f ( X 1 | θ ) f ( X 2 | θ ) f ( X n | θ ) = i = 1 N f ( X i | θ ) {\displaystyle f(X_{1},X_{2},\ldots ,X_{n}|\theta )=f(X_{1}|\theta )f(X_{2}|\theta )\ldots f(X_{n}|\theta )=\prod _{i=1}^{N}f(X_{i}|\theta )}

Chceme-li odhadovat hodnoty θ {\displaystyle \theta } , pak získáme přepsáním předchozí rovnice vztah pro odhad L ( θ | . ) {\displaystyle {\mathcal {L}}(\theta |.)}

L ( θ | X 1 , X 2 , , X n ) = f ( X 1 | θ ) f ( X 2 | θ ) f ( X n | θ ) = i = 1 N f ( X i | θ ) {\displaystyle {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})=f(X_{1}|\theta )f(X_{2}|\theta )\ldots f(X_{n}|\theta )=\prod _{i=1}^{N}f(X_{i}|\theta )}

Funkci L ( θ | . ) {\displaystyle {\mathcal {L}}(\theta |.)} nazýváme věrohodnostní funkce[2].

Velmi často se využívá logaritmus věrohodnostní funkce L {\displaystyle {\mathcal {L}}} , tj.

log L ( θ | X 1 , X 2 , , X n ) = i = 1 N log f ( X i | θ ) {\displaystyle \log {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{N}\log f(X_{i}|\theta )}

Jednou z výhod logaritmu je převod součinu na součet, se kterým se v některých případech lépe pracuje.

Jestliže existuje hodnota θ ^ {\displaystyle {\hat {\theta }}} taková, že pro všechny možné hodnoty parametru θ {\displaystyle \theta } platí

L ( θ | X 1 , X 2 , , X n ) L ( θ ^ | X 1 , X 2 , , X n ) {\displaystyle {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})\leq {\mathcal {L}}({\hat {\theta }}|X_{1},X_{2},\ldots ,X_{n})}

pak nazveme θ ^ {\displaystyle {\hat {\theta }}} maximálním věrohodným odhadem.

Alternativní formulace je

θ ^ = arg max θ Θ L ( θ | X 1 , X 2 , , X n ) {\displaystyle {\hat {\theta }}=\arg \max _{\theta \in \Theta }{\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})}

Příklady

Diskrétní rozdělení

Uvažujme náhodný výběr ( X 1 , X 2 , X 3 , X 4 ) {\displaystyle (X_{1},X_{2},X_{3},X_{4})} z alternativního rozdělení, tj. X {\displaystyle X} nabývá pouze hodnot 0 a 1 a sice s pravděpodobností P ( X = 1 ) = p {\displaystyle P(X=1)=p} a P ( X = 0 ) = 1 p {\displaystyle P(X=0)=1-p} . Získaná data jsou (0,0,1,0). Úkol je odhadnout hodnotu parametru p {\displaystyle p} , přičemž náš model předpokládá hodnoty buď p = 0,25 nebo p = 0 , 8 {\displaystyle p=0,8} .

Pro pravděpodobnost pozorovaných dat máme podle alternativního rozdělení:

P ( X 1 = 0 , X 2 = 0 , X 3 = 1 , X 4 = 0 ) = p ( 1 p ) 3 {\displaystyle P(X_{1}=0,X_{2}=0,X_{3}=1,X_{4}=0)=p(1-p)^{3}}

což je pro p = 0 , 25 {\displaystyle p=0,25} rovno 0,1055 a pro p = 0 , 8 {\displaystyle p=0,8} rovno 0,0064. Princip maximálního věrohodného odhadu spočívá v tom, že za odhad p {\displaystyle p} vezmeme tu hodnotu, pro kterou je výsledek nejpravděpodobnější, tedy p = 0 , 25 {\displaystyle p=0,25} [1].

Spojité rozdělení

Uvažujme situaci popsanou normálním rozdělením N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} s hustotou

f ( x μ , σ 2 ) = 1 2 π   σ   exp ( ( x μ ) 2 2 σ 2 ) , {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)},}

kde parametr σ 2 {\displaystyle \sigma ^{2}} je znám. Pro odhad parametru μ {\displaystyle \mu } metodou maximální věrohodnosti dostáváme vztah

log L ( θ | X 1 , X 2 , , X n ) = log ( i = 1 N 1 2 π   σ   exp ( ( X i θ ) 2 2 σ 2 ) ) = n 2 log 2 π n 2 log σ 2 1 2 σ 2 i = 1 N ( X i θ ) 2 {\displaystyle \log {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})=\log \left(\prod _{i=1}^{N}{\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(X_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)}\right)=-{\frac {n}{2}}\log 2\pi -{\frac {n}{2}}\log \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{N}(X_{i}-\theta )^{2}}

Pro výpočet maximálního věrohodného odhadu θ ^ {\displaystyle {\hat {\theta }}} postačuje pomocí první derivace určit maxima funkce na pravé straně, tj. najít řešení rovnice

log L ( θ | X 1 , X 2 , , X n ) θ = 1 σ 2 i = 1 N ( X i θ ) = 0 {\displaystyle {\frac {\partial \log {\mathcal {L}}(\theta |X_{1},X_{2},\ldots ,X_{n})}{\partial \theta }}={\frac {1}{\sigma ^{2}}}\sum _{i=1}^{N}(X_{i}-\theta )=0}

které je

θ ^ = 1 n X i = X ¯ n {\displaystyle {\hat {\theta }}={\frac {1}{n}}\sum {X_{i}}={\bar {X}}_{n}}

tedy výběrový průměr.

Vlastnosti

Statistické odhady lze charakterizovat pomocí několika základních vlastností:

  • Odhad ϕ ( x ) {\displaystyle \phi (x)} parametrické funkce g ( θ ) {\displaystyle g(\theta )} nazveme nestranný odhad, jestliže odhad není zatížen systematickou chybou, tj. E θ ϕ ( x ) = θ {\displaystyle \mathbb {E} _{\theta }\phi (x)=\theta } .
  • Odhad ϕ n ( X 1 , X 2 , , X n ) {\displaystyle \phi _{n}(X_{1},X_{2},\ldots ,X_{n})} parametrické funkce g ( θ ) {\displaystyle g(\theta )} na základě náhodného výběru X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\ldots ,X_{n}} nazveme konzistentní odhad, jestliže zvyšováním počtu pozorování lze chybu odhadu udělat libovolně malou, tj. platí P θ ( lim n ϕ n ( X 1 , X 2 , , X n ) = g ( θ ) ) = 1 {\displaystyle \textstyle P_{\theta }\left(\lim _{n\to \infty }\phi _{n}(X_{1},X_{2},\ldots ,X_{n})=g(\theta )\right)=1} .

Přednosti

V některých případech odhadu parametrů založeném na malém počtu pozorování se maximálně věrohodný odhad nechová nestranně, nicméně při splnění mírných předpokladů má řadu důležitých vlastností [3].

  1. Je konzistentní.
  2. Pro dostatečně velká n {\displaystyle n} má přibližně normální rozdělení, tj. pro odhad θ ^ {\displaystyle {\hat {\theta }}} a parametr θ Θ {\displaystyle \theta \in \Theta } platí n ( θ ^ θ ) d N ( 0 , I 1 ( θ ) ) {\displaystyle {\sqrt {n}}({\hat {\theta }}-\theta ){\xrightarrow {d}}{\mathcal {N}}\left(0,{\mathcal {I}}^{-1}(\theta )\right)} .
    Přičemž se jedná o tzv. konvergenci v distribuci. Veličina I ( θ ) {\displaystyle {\mathcal {I}}(\theta )} označuje Fisherovu informaci, kterou lze chápat jako míru informace o parametru θ {\displaystyle \theta } obsažené v jednom pozorování.[1]
  3. Je asymptoticky (pro počet pozorování n {\displaystyle n\to \infty } ) eficientní, tj. odhaduje neznámý parametr nejlepším možným způsobem.
  4. Pro spojité parametrické funkce g ( θ ) {\displaystyle g(\theta )} je maximální věrohodný odhad roven g ( θ ^ ) {\displaystyle g({\hat {\theta }})} .

Nedostatky

  • Základní předpoklad pro využití maximálního věrohodnostního odhadu je přesný a správný popis pravděpodobnostního modelu. Je-li tento popis reálné situace nepřesný, pak jsou získané odhady nekonzistentní s pozorovanými daty.
  • Věrohodnostní funkce mohou být na základě zvoleného modelu a neznámých parametrů libovolně komplikované. Důsledkem jsou věrohodnostní rovnice, pro které nemusí existovat analytické řešení a při hledání maxima věrohodnostní funkce je pak nutné použít numerické metody.
  • Přednosti maximálního věrohodnostního odhadu vycházejí z asymptotických vlastností. Pro nízké počty pozorování je tedy vhodnější použít jiné metody odhadu.[3]

Využití

Metoda maximální věrohodnosti má široké využití v matematické statistice, například

  1. při testování hypotéz,
  2. ve faktorové analýze.

Navíc se tato metoda často využívá i v jiných oborech, například

  1. při rozpoznávání objektů v obrazových datech,
  2. v ekonometrii a modelování finančních trhů,
  3. při přesné lokalizaci (pomocí GPS apod.).

Reference

  1. a b c DUPAČ, Václav; HUŠKOVÁ, Marie. Pravděpodobnost a matematická statistika. Praha: Nakladatelství Karolinum, 2005. 162 s. ISBN 80-246-0009-9. 
  2. KOHOUT, Václav. Teorie odhadu, Skriptum ZCU [online]. ZČU Plzeň: 22.04.2004 [cit. 2011-03-31]. Kapitola 10. Dostupné v archivu pořízeném dne 2013-05-12. 
  3. a b STOCKER, Herbert. Angewandte Ökonometrie, Skriptum [online]. Univ. Innsbruck: [cit. 2011-03-31]. Kapitola Maximum-Likelihood. Dostupné v archivu pořízeném dne 2010-11-21. (německy) 

Externí odkazy

  • Logo Wikimedia Commons Obrázky, zvuky či videa k tématu Metoda maximální věrohodnosti na Wikimedia Commons