Máxima verossimilhança

Em estatística, a estimativa por máxima verossimilhança (maximum-likelihood estimation- MLE) é um método para estimar os parâmetros de um modelo estatístico. Assim, a partir de um conjunto de dados e dado um modelo estatístico, a estimativa por máxima verossimilhança estima valores para os diferentes parâmetros do modelo.

Por exemplo, alguém pode estar interessado na altura de girafas fêmeas adultas, mas devido à restrições de custo ou tempo, medir a altura de todas essas girafas de uma população pode ser impossível. Podemos assumir que as alturas são normalmente distribuídas (modelo estatístico), mas desconhecemos a média e variância (parâmetros do modelo) dessa distribuição. Esses parâmetros da distribuição podem então ser estimados por MLE a partir da medição de uma amostra da população. O método busca aqueles valores para os parâmetros de maneira a maximizar a probabilidade dos dados amostrados, dado o modelo assumido (no caso, distribuição normal).

De maneira geral, posto um conjunto de dados e um modelo estatístico, o método de máxima verossimilhança estima os valores dos diferentes parâmetros do modelo estatístico de maneira a maximizar a probabilidade dos dados observados (isto é, busca parâmetros que maximizem a função de verossimilhança). O método de máxima verossimilhança apresenta-se como um método geral para estimação de parâmetros, principalmente no caso de distribuições normais.

História

Ronald Fisher em 1913

Foi recomendado, analisado e popularizado por R. A. Fisher entre 1912 e 1922, ainda que tenha sido utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele e Francis Edgeworth.[1] A determinação de regiões de confiança em torno de estimativas dos parâmetros só foi possível a partir da publicação, em 1938, do Teorema de Wilk's.[2]

Fundamentos

Suponha-se que se tenha uma amostra x1, x2, …, xn de n observações independentes e identicamente distribuídas extraídas de uma função de distribuição desconhecida com função densidade (ou função probabilidade) f0(·). Se sabe, porém, que f0 pertence a uma família de distribuições { f(·|θ), θ ∈ Θ }, chamada modelo paramétrico, de maneira que f0 corresponde a θ = θ0, que é o verdadeiro valor do parâmetro. Se deseja encontrar o valor θ ^ {\displaystyle \scriptstyle {\hat {\theta }}} (ou estimador) que esteja o mais próximo possível ao verdadeiro valor θ0.

Tanto xi como θ podem ser vetores.

A idéia desse método é encontrar primeiro a função densidade de todas as observações, que sob condições de independência, é

f ( x 1 , x 2 , , x n | θ ) = f ( x 1 | θ ) f ( x 2 | θ ) f ( x n | θ ) {\displaystyle f(x_{1},x_{2},\ldots ,x_{n}\;|\;\theta )=f(x_{1}|\theta )\cdot f(x_{2}|\theta )\cdots f(x_{n}|\theta )\,}

Observando esta função sob um ângulo ligeiramente distinto, pode-se supor que os valores observados x1, x2, …, xn são fixos enquanto que θ pode variar livremente. Esta é a função de verossimilhança:

L ( θ | x 1 , , x n ) = i = 1 n f ( x i | θ ) . {\displaystyle {\mathcal {L}}(\theta \,|\,x_{1},\ldots ,x_{n})=\prod _{i=1}^{n}f(x_{i}|\theta ).}

Na prática, é geralmente usado o logaritmo dessa função:

^ ( θ | x 1 , , x n ) = ln L = i = 1 n ln f ( x i | θ ) . {\displaystyle {\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n})=\ln {\mathcal {L}}=\sum _{i=1}^{n}\ln f(x_{i}|\theta ).}

O método da máxima verossimilhança estima θ0 buscando o valor de θ que maximiza ^ ( θ | x ) {\displaystyle \scriptstyle {\hat {\ell }}(\theta |x)} . Este é o chamado estimador de máxima verossimilhança (MLE) de θ0:

θ ^ m l e = a r g m a x θ Θ   ^ ( θ | x 1 , , x n ) . {\displaystyle {\hat {\theta }}_{\mathrm {mle} }={\underset {\theta \in \Theta }{\operatorname {arg\,max} }}\ {\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n}).}

Às vezes, esse estimador é uma função explícita dos dados observados x1, …, xn, mas muitas vezes se precisa recorrer à otimizações numéricas. Também pode acontecer que o máximo não seja único ou não exista.

Na exposição anterior, a independência das observações foi assumida, mas não é um requisito necessário: é suficiente para poder construir a função de probabilidade conjunta dos dados para poder aplicar o método. Um contexto em que isso é comum é a análise de séries temporais.

Propriedades do estimador de máxima verossimilhança

Em muitos casos, o estimador obtido por máxima verossimilhança possui um conjunto de propriedades assintóticas atrativas:

  • consistência,
  • normalidade assintótica,
  • eficiência,
  • e inclusive eficiência de segunda ordem depois de corrigir o viés.

Consistência

Sob certas condições bastante habituais,[3] o estimador de máxima verossimilhança é consistente: se o número de observações n tende ao infinito, o estimador θ ^ {\displaystyle \scriptstyle {\hat {\theta }}} converge em probabilidade a seu valor verdadeiro:

θ ^ m l e   p   θ 0   . {\displaystyle {\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {p}}\ \theta _{0}\ .}

Sob condições um pouco mais fortes,[3] a convergência é quase certa:

θ ^ m l e   a . s .   θ 0   . {\displaystyle {\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {a.s.}}\ \theta _{0}\ .}

Normalidade assintótica 2

Se as condições de consistência forem atendidas e também,

  1. θ 0 i n t e r i o r ( θ ) {\displaystyle \theta _{0}\in interior(\theta )}  ;
  2. f ( x | θ ) > 0 {\displaystyle f(x|\theta )>0} e é duas vezes continuamente diferenciável em relação a θ em algum entorno N de θ0;
  3. ∫ supθN||∇θf(x|θ)||dx < ∞, y ∫ supθN||∇θθf(x|θ)||dx < ∞;
  4. I = E[∇θlnf(x|θ0) ∇θlnf(x|θ0)′] existe e não é singular;
  5. E [ s u p θ N θ θ ln ( f ( x | θ ) ) ] < {\displaystyle E[sup_{\theta \in N}\parallel \bigtriangledown _{\theta \theta }\ln(f(x|\theta ))\parallel ]<\infty } ,

então o estimador de probabilidade máxima tem uma distribuição assintótica normal:[4]

n ( θ ^ m l e θ 0 )   d   N ( 0 , I 1 ) . {\displaystyle {\sqrt {n}}{\big (}{\hat {\theta }}_{\mathrm {mle} }-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,I^{-1}).}

Invariância funcional

Se θ ^ {\displaystyle {\widehat {\theta }}} é o EMV de θ e g(θ) é uma transformação de θ, então o EMV de α = g(θ) é

α ^ = g ( θ ^ ) . {\displaystyle {\widehat {\alpha }}=g({\widehat {\theta }}).\,\!}

Além disso, o EMV é invariável contra certas transformações de dados. De fato se Y = g ( X ) {\displaystyle Y=g(X)} e g {\displaystyle g} uma aplicação bijetiva que não depende dos parâmetros estimados, a função densidade de Y é

f Y ( y ) = f X ( x ) / | g ( x ) | {\displaystyle f_{Y}(y)=f_{X}(x)/|g'(x)|}

Ou seja, as funções de densidade de X e Y diferem apenas em um termo que não depende dos parâmetros. Então, por exemplo, o EMV para os parâmetros de uma distribuição log-normal são os mesmos que os de uma distribuição normal ajustada sobre o logaritmo dos dados de entrada.

Outras propriedades

O EMV é √n-consistente e assintoticamente eficiente. Em particular, isto significa que o viés é zero até a ordem n−1/2. Entretanto, ao obter os termos de ordem mais alta da expansão de Edgeworth da distribuição do estimador, θemv tem um viés de ordem −1. Este viés é igual a[5]

b s E [ ( θ ^ m l e θ 0 ) s ] = 1 n I s i I j k ( 1 2 K i j k + J j , i k ) , {\displaystyle b_{s}\equiv \operatorname {E} [({\hat {\theta }}_{\mathrm {mle} }-\theta _{0})_{s}]={\frac {1}{n}}\cdot I^{si}I^{jk}{\big (}{\tfrac {1}{2}}K_{ijk}+J_{j,ik}{\big )},}

fórmula onde se tem adotado a convenção de Einstein para expressar somas; Ijk representa l j,k-ésima componente da inversa da matriz de informação de Fisher e

1 2 K i j k + J j , i k = E [ 1 2 3 ln f θ 0 ( x t ) θ i θ j θ k + ln f θ 0 ( x t ) θ j 2 ln f θ 0 ( x t ) θ i θ k ] . {\displaystyle {\tfrac {1}{2}}K_{ijk}+J_{j,ik}=\operatorname {E} {\bigg [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{j}\,\partial \theta _{k}}}+{\frac {\partial \ln f_{\theta _{0}}(x_{t})}{\partial \theta _{j}}}{\frac {\partial ^{2}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\bigg ]}.}

Graças a essas fórmulas, é possível estimar o viés de segunda ordem do estimador e corrigi-lo por subtração:

θ ^ m l e = θ ^ m l e b ^ . {\displaystyle {\hat {\theta }}_{\mathrm {mle} }^{*}={\hat {\theta }}_{\mathrm {mle} }-{\hat {b}}.}

Este estimador, sem viés até a ordem n−1, se chama estimador de máxima verossimilhança com correção do viés.

Exemplos

Distribuição uniforme discreta

Suponha que n bolas numeradas de 1 a n sejam colocadas em uma urna e que uma delas seja sorteada aleatoriamente. Se n for desconhecido, seu EMV é o número m que aparece na bola extraída: a função de verossimilhança é 0 para n < m e 1/n para n ≥ m; que alcança seu máximo quando n = m. O valor esperado de n ^ {\displaystyle {\hat {n}}} , é (n + 1)/2. Como consequência, o EMV de n subestimará o verdadeiro valor de n por (n − 1)/2.

Distribuição discreta com parâmetros discretos

Suponha-se que uma moeda inclinada seja jogada no ar 80 vezes. A amostra resultante pode ser algo assim como x1 = H, x2 = T, ..., x80 = T, e se conta o número de caras, "H". A probabilidade que se obtenha cara é p e a de que se obtenha coroa, 1 − p (de modo que p é o parâmetro θ). Suponha-se que se obtenha 49 caras e 31 coroas. Imagine-e que a moeda foi extraída de uma caixa contendo três delas e que estas tem probabilidades p iguais a 1/3, 1/2 e 2/3 ainda que não se saiba qual delas é qual.

A partir dos dados obtidos do experimento se pode saber qual é a moeda com a máxima verossimilhança. Usando a função de probabilidade da distribuição binomial com uma amostra de tamanho 80, número de êxitos igual a 49 e distintos valores de p, a função de verossimilhança toma os seguintes três valores:

Pr ( H = 49 p = 1 / 3 ) = ( 80 49 ) ( 1 / 3 ) 49 ( 1 1 / 3 ) 31 0.000 , Pr ( H = 49 p = 1 / 2 ) = ( 80 49 ) ( 1 / 2 ) 49 ( 1 1 / 2 ) 31 0.012 , Pr ( H = 49 p = 2 / 3 ) = ( 80 49 ) ( 2 / 3 ) 49 ( 1 2 / 3 ) 31 0.054. {\displaystyle {\begin{aligned}\Pr(\mathrm {H} =49\mid p=1/3)&={\binom {80}{49}}(1/3)^{49}(1-1/3)^{31}\approx 0.000,\\[6pt]\Pr(\mathrm {H} =49\mid p=1/2)&={\binom {80}{49}}(1/2)^{49}(1-1/2)^{31}\approx 0.012,\\[6pt]\Pr(\mathrm {H} =49\mid p=2/3)&={\binom {80}{49}}(2/3)^{49}(1-2/3)^{31}\approx 0.054.\end{aligned}}}

A verossimilhança é máxima quando p = 2/3 e este é, portanto, o EMV de p.

Distribuição discreta com parâmetros contínuos

Agora, suponha que houvesse apenas uma moeda, mas sua p poderia ter sido qualquer valor 0 ≤ p ≤ 1. A função de probabilidade a ser maximizada é

L ( p ) = f D ( H = 49 p ) = ( 80 49 ) p 49 ( 1 p ) 31 , {\displaystyle L(p)=f_{D}(\mathrm {H} =49\mid p)={\binom {80}{49}}p^{49}(1-p)^{31},}

e a maximização está acima de todos os valores possíveis 0 ≤ p ≤ 1.

Probabilidade de diferentes valores de parâmetros de proporção para um processo binomial com t = 3 e n = 10

Uma maneira de maximizar essa função é por diferenciação com relação a p e definindo para zero:

0 = p ( ( 80 49 ) p 49 ( 1 p ) 31 ) 49 p 48 ( 1 p ) 31 31 p 49 ( 1 p ) 30 = p 48 ( 1 p ) 30 [ 49 ( 1 p ) 31 p ] = p 48 ( 1 p ) 30 [ 49 80 p ] {\displaystyle {\begin{aligned}{0}&{}={\frac {\partial }{\partial p}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)\\[8pt]&{}\propto 49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\[8pt]&{}=p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\[8pt]&{}=p^{48}(1-p)^{30}\left[49-80p\right]\end{aligned}}}

a qual tem soluções p = 0, p = 1, e p = 49/80. A solução que maximiza a probabilidade é claramente p = 49/80 (desde que p = 0 e p = 1 resulta em uma probabilidade zero). Então o estimador de probabilidade máxima para p é 49/80.

Esse resultado é facilmente generalizado substituindo uma letra como t no lugar de 49 para representar o número observado de 'sucessos' de nossos ensaios de Bernoulli, e uma letra tal como n no lugar de 80 para representar o número de ensaios de Bernoulli. Exatamente o mesmo cálculo produz o estimador de probabilidade máxima t / n para qualquer sequência de n ensaios de Bernoulli resultando em t 'sucessos'.

Distribuição contínua com parâmetros contínuos

Para a distribuição normal N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} a qual tem função densidade de probabilidade

f ( x μ , σ 2 ) = 1 2 π   σ   exp ( ( x μ ) 2 2 σ 2 ) , {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)},}

a função densidade de probabilidade correspondente para uma amostra de n variáveis aleatórias variáveis aleatórias independentes e identicamente distribuídas normais (a probabilidade) é

f ( x 1 , , x n μ , σ 2 ) = i = 1 n f ( x i μ , σ 2 ) = ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i μ ) 2 2 σ 2 ) , {\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right),}

ou mais convenientemente:

f ( x 1 , , x n μ , σ 2 ) = ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) , {\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right),}

onde x ¯ {\displaystyle {\bar {x}}} é a média amostral.

Esta família de distribuições possui dois parâmetros: θ = (μσ), então maximizamos a verossimilhança, L ( μ , σ ) = f ( x 1 , , x n μ , σ ) {\displaystyle {\mathcal {L}}(\mu ,\sigma )=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma )} , sobre os dois parâmetros simultaneamente ou, se possível, individualmente.

Dado que logaritmo é uma função contínua estritamente crescente sobre o contradomínio da verossimilhança, os valores que maximizam a verossimilhança também maximizarão seu logaritmo. Como maximizar o logaritmo geralmente requer álgebra mais simples, é o logaritmo que é maximizado abaixo. (Nota: a verossimilhança de log está intimamente relacionada a entropia da informação e informação de Fisher.)

0 = μ log ( ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) ) = μ ( log ( 1 2 π σ 2 ) n / 2 i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) = 0 2 n ( x ¯ μ ) 2 σ 2 {\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \mu }}\left(\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=0-{\frac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\end{aligned}}}

que é resolvido por

μ ^ = x ¯ = i = 1 n x i / n . {\displaystyle {\hat {\mu }}={\bar {x}}=\sum _{i=1}^{n}x_{i}/n.}

Este é realmente o máximo da função, pois é o único ponto de virada em μ e a segunda derivada é estritamente menor que zero. Seu valor esperado é igual ao parâmetro μ da distribuição dada,

E [ μ ^ ] = μ , {\displaystyle E\left[{\widehat {\mu }}\right]=\mu ,\,}

o que significa que o estimador de verossimilhança máxima μ ^ {\displaystyle {\widehat {\mu }}} é imparcial.

Similarmente diferenciamos a verossimilhança de log em relação a σ e equivale a zero:

0 = σ log ( ( 1 2 π σ 2 ) n / 2 exp ( i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) ) = σ ( n 2 log ( 1 2 π σ 2 ) i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 2 σ 2 ) = n σ + i = 1 n ( x i x ¯ ) 2 + n ( x ¯ μ ) 2 σ 3 {\displaystyle {\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \sigma }}\left({\frac {n}{2}}\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=-{\frac {n}{\sigma }}+{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\end{aligned}}}

que é resolvido por

σ ^ 2 = i = 1 n ( x i μ ^ ) 2 / n . {\displaystyle {\widehat {\sigma }}^{2}=\sum _{i=1}^{n}(x_{i}-{\widehat {\mu }})^{2}/n.}

Inserindo μ ^ {\displaystyle {\widehat {\mu }}} obtem-se

σ ^ 2 = 1 n i = 1 n ( x i x ¯ ) 2 = 1 n i = 1 n x i 2 1 n 2 i = 1 n j = 1 n x i x j . {\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.}

Para calcular seu valor esperado, é conveniente reescrever a expressão em termos de variáveis aleatórias com média zero (erro estatístico) δ i μ x i {\displaystyle \delta _{i}\equiv \mu -x_{i}} . Expressar a estimativa nessas variáveis resulta

σ ^ 2 = 1 n i = 1 n ( μ δ i ) 2 1 n 2 i = 1 n j = 1 n ( μ δ i ) ( μ δ j ) . {\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).}

Simplificando a expressão acima, utilizando os fatos que E [ δ i ] = 0 {\displaystyle E\left[\delta _{i}\right]=0} e E [ δ i 2 ] = σ 2 {\displaystyle E[\delta _{i}^{2}]=\sigma ^{2}} , nos permite obter

E [ σ 2 ^ ] = n 1 n σ 2 . {\displaystyle E\left[{\widehat {\sigma ^{2}}}\right]={\frac {n-1}{n}}\sigma ^{2}.}

Isso significa que o estimador σ ^ {\displaystyle {\widehat {\sigma }}} é tendencioso. Contudo, σ ^ {\displaystyle {\widehat {\sigma }}} é consistente.

Formalmente dizemos que o estimador de máxima verossimilhança (EMV) para θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} é:

θ ^ = ( μ ^ , σ ^ 2 ) . {\displaystyle {\widehat {\theta }}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).}

Neste caso os EMVs pode ser obtido individualmente. Em geral, esse pode não ser o caso, e o EMVs teria que ser obtido simultaneamente.

Variáveis não independentes

Pode ser que as variáveis estejam correlacionadas, ou seja, não sejam independentes. Duas variáveis aleatórias X e Y são independentes apenas se a função de densidade de probabilidade conjunta for o produto das funções individuais de densidade de probabilidade, i.e.

f ( x , y ) = f ( x ) f ( y ) {\displaystyle f(x,y)=f(x)f(y)\,}

Suponha que se construa um vetor Gaussiano de ordem n fora de variáveis aleatórias ( x 1 , , x n ) {\displaystyle (x_{1},\ldots ,x_{n})\,} , onde cada variável tem médias dadas por ( μ 1 , , μ n ) {\displaystyle (\mu _{1},\ldots ,\mu _{n})\,} . Além disso, faz-se a matriz de covariância ser indicada por Σ , {\displaystyle \Sigma ,}

A função densidade de probabilidade conjunta dessas n variáveis randômicas é então dada por:

f ( x 1 , , x n ) = 1 ( 2 π ) n / 2 det ( Σ ) exp ( 1 2 [ x 1 μ 1 , , x n μ n ] Σ 1 [ x 1 μ 1 , , x n μ n ] T ) {\displaystyle f(x_{1},\ldots ,x_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {{\text{det}}(\Sigma )}}}}\exp \left(-{\frac {1}{2}}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]\Sigma ^{-1}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]^{T}\right)}

Nos dois casos variáveis, a função densidade de probabilidade conjunta é dada por:

f ( x , y ) = 1 2 π σ x σ y 1 ρ 2 exp [ 1 2 ( 1 ρ 2 ) ( ( x μ x ) 2 σ x 2 2 ρ ( x μ x ) ( y μ y ) σ x σ y + ( y μ y ) 2 σ y 2 ) ] {\displaystyle f(x,y)={\frac {1}{2\pi \sigma _{x}\sigma _{y}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(x-\mu _{x})^{2}}{\sigma _{x}^{2}}}-{\frac {2\rho (x-\mu _{x})(y-\mu _{y})}{\sigma _{x}\sigma _{y}}}+{\frac {(y-\mu _{y})^{2}}{\sigma _{y}^{2}}}\right)\right]}

Neste e em outros casos em que existe uma função de densidade articular, a função de probabilidade é definida como acima, em Fundamentos, usando essa densidade.

Referências

  1. Edgeworth (Set 1908, Dez 1908)
  2. Wilks, S. S. (1938). «The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses». Annals of Mathematical Statistics. 9: 60–62. doi:10.1214/aoms/1177732360 
  3. a b Newey & McFadden (1994, Theorem 2.5.)
  4. Newey & McFadden (1994, Theorem 3.3.)
  5. Cox & Snell (1968, formula (20))
  • v
  • d
  • e
Regressão linear
Regressão não-linear
Ajustes nos modelos
Correlação serial · Endogeneidade · Heteroscedasticidade · Mínimos quadrados de dois estágios  · Multicolinearidade · Variável dummy · Variáveis instrumentais · Regressão quantílica · Teste de especificação de Hausman
Variável dependente limitada
Série temporal
Softwares
EViews · Gretl · LIMDEP & NLOGIT · IGEst  · MATLAB  · R  · Shazam software  · Stata  · Octave  · JMulTi  · PSPP
Pessoas
Adrien-Marie Legendre  · Carl Friedrich Gauss  · David Dickey · George Box  · Gwilym Jenkins  · George Chow · Lars Peter Hansen  · Ronald Fisher  · Wayne Fuller
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de probabilidade e estatística