Procena maksimalne verovatnoće

U statistici, procena maksimalne verovatnoće (engl. maximum likelihood estimation - MLE) metod je procenjivanja parametara raspodele verovatnoće maksimizovanjem funkcije verovatnoće, tako da su po pretpostavljenom statističkom modelu uočeni podaci najverovatniji. Tačka u parametarskom prostoru koja maksimizira funkciju verovatnoće naziva se procenom maksimalne verovatnoće.[1] Logika maksimalne verovatnoće je intuitivna i fleksibilna, i kao takva metoda je postala dominantno sredstvo statističkog zaključivanja.[2][3][4]

Ako je funkcija verovatnoće diferencijabilna, može se primeniti derivatni test za određivanje maksima. U nekim slučajevima se uslovi prvog reda funkcije verovatnoće mogu eksplicitno rešiti; na primer, procenjivač običnih najmanjih kvadrata maksimizira verovatnoću linearnog regresionog modela.[5] Međutim, u većini okolnosti, numeričke metode su neophodne da bi se pronašao maksimum funkcije verovatnoće.

Sa stanovišta Bajesovog zaključivanja, MLE je poseban slučaj maksimalne posteriorne procene (MAP) koji pretpostavlja uniformnu priornu raspodelu parametara. U frekvencionističkom zaključivanju, MLE je poseban slučaj procenjivača ekstrema, čija je objektivna funkcija verovatnoća.

Principi

Sa statističkog stanovišta, dati skup zapažanja je slučajni uzorak iz nepoznate populacije. Cilj procene maksimalne verovatnoće je da se izvedu zaključci o populaciji iz koje je uzorak najverovatnije generisn,[6] specifično o zajedničkoj raspodeli verovatnoće slučajnih promenljivih { y 1 , y 2 , } {\displaystyle \left\{y_{1},y_{2},\ldots \right\}} , koje nisu nužno nezavisno i identično distribuirane. Sa svakom distribucijom verovatnoće povezan je jedinstveni vektor θ = [ θ 1 , θ 2 , , θ k ] T {\displaystyle \theta =\left[\theta _{1},\,\theta _{2},\ldots \,,\theta _{k}\right]^{\mathsf {T}}} parametara koji indeksiraju distribuciju verovatnoće unutar porodice parametara { f ( ; θ ) θ Θ } {\displaystyle \{f(\cdot \,;\theta )\mid \theta \in \Theta \}} , gde se Θ {\displaystyle \Theta } naziva prostorom parametara, koji je konačno dimenzionalni podskup Euklidskog prostora. Procena zajedničke gustine na posmatranom uzorku podataka y = ( y 1 , y 2 , , y n ) {\displaystyle \mathbf {y} =(y_{1},y_{2},\ldots ,y_{n})} daje realno-vrednosnu funkciju,

L n ( θ ) = L n ( θ ; y ) = f n ( y ; θ ) {\displaystyle L_{n}(\theta )=L_{n}(\theta ;\mathbf {y} )=f_{n}(\mathbf {y} ;\theta )}

koja se naziva funkcijom verovatnoće. Za nezavisne i identično raspodeljene slučajne promenljive, f n ( y ; θ ) {\displaystyle f_{n}(\mathbf {y} ;\theta )} će biti proizvod univarijantnih funkcija gustine.

Cilj procene maksimalne verovatnoće je da se pronađu vrednosti parametara modela koje maksimiziraju funkciju verovatnoće u prostoru parametara,[6] to jest

θ ^ = a r g m a x θ Θ   L ^ n ( θ ; y ) {\displaystyle {\hat {\theta }}={\underset {\theta \in \Theta }{\operatorname {arg\;max} }}\ {\widehat {L}}_{n}(\theta \,;\mathbf {y} )}

Intuitivno, ovim se biraju vrednosti parametara koje čine posmatrane podatke najverovatnijim. Specifična vrednost θ ^ = θ ^ n ( y ) Θ {\displaystyle {\hat {\theta }}={\hat {\theta }}_{n}(\mathbf {y} )\in \Theta } koja maksimizuje funkciju verovatnoće L n {\displaystyle L_{n}} se zove procena maksimalne verovatnoće. Dalje, ako je funkcija θ ^ n : R n Θ {\displaystyle {\hat {\theta }}_{n}:\mathbb {R} ^{n}\to \Theta } tako definisana da je merljiva, onda se ona naziva procenjivačem maksimalne verovatnoće. To je generalno funkcija definisana nad prostorom uzorka, tj. ona uzima određeni uzork kao svoj argument. Dovoljan ali ne i neophodan uslov za njeno postojanje je da funkcija verovatnoće bude kontinuirana na parametarskom prostoru Θ {\displaystyle \Theta } koji je kompaktan.[7] Za otvoreno Θ {\displaystyle \Theta } funkcija verovatnoće se može povećati bez premašivanja supremumske vrednosti.

U praksi je često prikladno raditi s prirodnim logaritamom funkcije verovatnoće, zvanim logaritamska verovatnoća[8]:

( θ ; y ) = ln L n ( θ ; y ) . {\displaystyle \ell (\theta \,;\mathbf {y} )=\ln L_{n}(\theta \,;\mathbf {y} ).}

Pošto je logaritam monotona funkcija, maksimum od ( θ ; y ) {\displaystyle \ell (\theta \,;\mathbf {y} )} se javlja na istoj vrednosti θ {\displaystyle \theta } kao i maksimum od L n {\displaystyle L_{n}} .[9] Ako je ( θ ; y ) {\displaystyle \ell (\theta \,;\mathbf {y} )} diferencijabilno u θ {\displaystyle \theta } , potrebni uslovi za pojavljivanje maksimuma (ili minimuma) su

θ 1 = 0 , θ 2 = 0 , , θ k = 0 , {\displaystyle {\frac {\partial \ell }{\partial \theta _{1}}}=0,\quad {\frac {\partial \ell }{\partial \theta _{2}}}=0,\quad \ldots ,\quad {\frac {\partial \ell }{\partial \theta _{k}}}=0,}

što je poznato kao jednačina verovatnoće. Za neke modele, ove jednačine mogu se eksplicitno rešiti za θ ^ {\displaystyle {\widehat {\theta \,}}} , ali generalno rešenja zatvorenog oblika za probleme maksimizacije nisu poznata ili dostupna, a MLE se može pronaći samo numeričkom optimizacijom. Još jedan problem je što u konačnim uzorcima može postojati više korena za jednačine verovatnoće.[10] Da li je identifikovani koren θ ^ {\displaystyle {\widehat {\theta \,}}} jednačine verovatnoće zaista (lokalni) maksimum, zavisi od toga da li je matrica drugog reda parcijalnih i unakrsno parcijalnih derivata,

H ( θ ^ ) = [ 2 θ 1 2 | θ = θ ^ 2 θ 1 θ 2 | θ = θ ^ 2 θ 1 θ k | θ = θ ^ 2 θ 2 θ 1 | θ = θ ^ 2 θ 2 2 | θ = θ ^ 2 θ 2 θ k | θ = θ ^ 2 θ k θ 1 | θ = θ ^ 2 θ k θ 2 | θ = θ ^ 2 θ k 2 | θ = θ ^ ] , {\displaystyle \mathbf {H} ({\widehat {\theta \,}})={\begin{bmatrix}\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\vdots &\vdots &\ddots &\vdots \\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}\end{bmatrix}},}

poznata kao Hesijan negativno poludefinitivna u θ ^ {\displaystyle {\widehat {\theta \,}}} , što daje indikaciju o postojanju lokalne konkavnosti. Povoljno je da su najčešće raspodele verovatnoće - naročito eksponencijalna porodica - logaritamski konkavne.[11][12]

Reference

  1. ^ Rossi, Richard J. (2018). Mathematical Statistics : An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. стр. 227. ISBN 978-1-118-77104-4. 
  2. ^ Hendry, David F.; Nielsen, Bent (2007). Econometric Modeling: A Likelihood Approach. Princeton: Princeton University Press. ISBN 978-0-691-13128-3. 
  3. ^ Chambers, Raymond L.; Steel, David G.; Wang, Suojin; Welsh, Alan (2012). Maximum Likelihood Estimation for Sample Surveys. Boca Raton: CRC Press. ISBN 978-1-58488-632-7. 
  4. ^ Ward, Michael Don; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. New York: Cambridge University Press. ISBN 978-1-107-18582-1. 
  5. ^ Press, W. H.; Flannery, B. P.; Teukolsky, S. A.; Vetterling, W. T. (1992). „Least Squares as a Maximum Likelihood Estimator”. Numerical Recipes in FORTRAN: The Art of Scientific Computing (2nd изд.). Cambridge: Cambridge University Press. стр. 651—655. ISBN 978-0-521-43064-7. 
  6. ^ а б Myung, I. J. (2003). „Tutorial on Maximum Likelihood Estimation”. Journal of Mathematical Psychology. 47 (1): 90—100. doi:10.1016/S0022-2496(02)00028-7. 
  7. ^ Gourieroux, Christian; Monfort, Alain (1995). Statistics and Econometrics Models. Cambridge University Press. стр. 161. ISBN 978-0-521-40551-5. 
  8. ^ Log-likelihood
  9. ^ Kane, Edward J. (1968). Economic Statistics and EconometricsНеопходна слободна регистрација. New York: Harper & Row. стр. 179. ISBN. 
  10. ^ Small, Christoper G.; Wang, Jinfang (2003). „Working with Roots”. Numerical Methods for Nonlinear Estimating Equations. Oxford University Press. стр. 74—124. ISBN 978-0-19-850688-1. 
  11. ^ Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York: John Wiley & Sons. стр. 14. ISBN 978-0-471-82668-2. 
  12. ^ Papadopoulos, Alecos (25. 9. 2013). „Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?”. Stack Exchange. 

Literatura

  • Cramer, J. S. (1986). Econometric Applications of Maximum Likelihood Methods. New York: Cambridge University Press. ISBN 978-0-521-25317-8. 
  • Eliason, Scott R. (1993). Maximum Likelihood Estimation : Logic and Practice. Newbury Park: Sage. ISBN 978-0-8039-4107-6. 
  • King, Gary (1989). Unifying Political Methodology : the Likehood Theory of Statistical Inference. Cambridge University Press. ISBN 978-0-521-36697-7. 
  • Le Cam, Lucien (1990). „Maximum likelihood : An Introduction”. ISI Review. 58 (2): 153—171. JSTOR 1403464. 
  • Magnus, Jan R. (2017). „Maximum Likelihood”. Introduction to the Theory of Econometrics. Amsterdam: VU University Press. стр. 53—68. ISBN 978-90-8659-766-6. 
  • Millar, Russell B. (2011). Maximum Likelihood Estimation and Inference. Hoboken: Wiley. ISBN 978-0-470-09482-2. 
  • Pickles, Andrew (1986). An Introduction to Likelihood AnalysisНеопходна слободна регистрација. Norwich: W. H. Hutchins & Sons. ISBN 978-0-86094-190-3. 
  • Severini, Thomas A. (2000). Likelihood Methods in Statistics. New York: Oxford University Press. ISBN 978-0-19-850650-8. 
  • Ward, Michael D.; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. Cambridge University Press. ISBN 978-1-316-63682-4. 
  • Edgeworth, F. Y. (jun 1908). „On the Probable Errors of Frequency-Constants”. Journal of the Royal Statistical Society. 71 (2): 381—397. JSTOR 2339461. doi:10.2307/2339461. 
  • Edgeworth, F. Y. (septembar 1908). „On the Probable Errors of Frequency-Constants (Contd.)”. Journal of the Royal Statistical Society. 71 (3): 499—512. JSTOR 2339293. doi:10.2307/2339293. 
  • Edgeworth, F. Y. (decembar 1908). „On the Probable Errors of Frequency-Constants (Contd.)”. Journal of the Royal Statistical Society. 71 (4): 651—678. JSTOR 2339378. doi:10.2307/2339378. 
  • Frieden, B. R.. Science from Fisher Information: A Unification. Cambridge University Press. 2004. ISBN 978-0-521-00911-9..
  • Frieden, B. Roy; Gatenby, Robert A. (2013). „Principle of maximum Fisher information from Hardy's axioms applied to statistical systems”. Physical Review E. 88 (4): 042144. Bibcode:2013PhRvE..88d2144F. PMID 24229152. arXiv:1405.0007 Слободан приступ. doi:10.1103/PhysRevE.88.042144. 
  • Hald, A. (maj 1999). „On the History of Maximum Likelihood in Relation to Inverse Probability and Least Squares”. Statistical Science. 14 (2): 214—222. JSTOR 2676741. doi:10.1214/ss/1009212248. 
  • Hald, A. (1998). A History of Mathematical Statistics from 1750 to 1930. New York: Wiley. ISBN 978-0-471-17912-2. 
  • Lehmann, E. L.; Casella, G. (1998). Theory of Point Estimation (2nd изд.). Springer. ISBN 978-0-387-98502-2. 
  • Le Cam, Lucien (1986). Asymptotic Methods in Statistical Decision Theory. Springer-Verlag. ISBN 978-0-387-96307-5. 
  • Pratt, John W. (maj 1976). „F. Y. Edgeworth and R. A. Fisher on the Efficiency of Maximum Likelihood Estimation”. Annals of Statistics. 4 (3): 501—514. JSTOR 2958222. doi:10.1214/aos/1176343457. 
  • Savage, L. J. (maj 1976). „On Rereading R. A. Fisher”. Annals of Statistics. 4 (3): 441—500. JSTOR 2958221. doi:10.1214/aos/1176343456. 
  • Schervish, Mark J. (1995). Theory of Statistics. New York: Springer. ISBN 978-0-387-94546-0. 
  • Stigler, S. M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900Неопходна слободна регистрација. Harvard University Press. ISBN 978-0-674-40340-6. 
  • Stigler, S. M. (1978). „Francis Ysidro Edgeworth, Statistician”. Journal of the Royal Statistical Society, Series A. 141 (3): 287—322. JSTOR 2344804. doi:10.2307/2344804. 
  • Stigler, S. M. (1999). Statistics on the Table: The History of Statistical Concepts and Methods. Harvard University Press. ISBN 978-0-674-83601-3. 
  • Van Trees, H. L. (1968). Detection, Estimation, and Modulation Theory, Part I. New York: Wiley. ISBN 978-0-471-09517-0. 

Spoljašnje veze

Procena maksimalne verovatnoće na Vikimedijinoj ostavi.
  • Hazewinkel Michiel, ур. (2001). „Maximum-likelihood method”. Encyclopaedia of Mathematics. Springer. ISBN 978-1556080104. 
  • Purcell, S. „Maximum Likelihood Estimation”. Архивирано из оригинала 27. 10. 2019. г. Приступљено 23. 12. 2019. 
  • Sargent, Thomas; Stachurski, John. „Maximum Likelihood Estimation”. Quantitative Economics with Python. Архивирано из оригинала 21. 06. 2019. г. Приступљено 23. 12. 2019. 
  • Toomet, Ott; Henningsen, Arne (19. 5. 2019). „maxLik: A package for maximum likelihood estimation in R”. 
  • п
  • р
  • у
Deskriptivna statistikaAnalitička (inferencijalna) statistika
testiranje hipoteza - značaj - nulta hipoteza/alternativna hipoteza - greška - Z-test - Studentova t-statistika - maksimalna verodostojnost - Standard score/Z score - P-vrednost - analiza varijanse
Analiza preživljavanja
Funkcija preživljavanja - Kaplan-Mejer - Mantel-Koksov test - stopa kvarenja - modeli proporcionalnih rizika
Raspodele verovatnoćeKorelacija
Confounding variable - Pirsonov koeficijent korelacije - rang korelacije (Spearman's rank correlation coefficient, Kendalov tau koeficijent)
regresiona analiza