Modelo linear geral

O modelo linear geral ou modelo de regressão multivariada geral é uma maneira compacta de escrever simultaneamente vários modelos de regressão linear múltipla. Nesse sentido, não é um modelo linear estatístico separado. Os vários modelos de regressão linear múltipla podem ser escritos de forma compacta como [1]

Y = X B + U , {\displaystyle \mathbf {Y} =\mathbf {X} \mathbf {B} +\mathbf {U} ,}

onde Y é uma matriz com séries de medições multivariadas (cada coluna sendo um conjunto de medições em uma das variáveis dependentes), X é uma matriz de observações em variáveis independentes que podem ser uma matriz de projeto (cada coluna sendo um conjunto de observações sobre uma das variáveis independentes), B é uma matriz contendo parâmetros que normalmente devem ser estimados e U é uma matriz contendo erros (ruído). Os erros são geralmente assumidos como não correlacionados entre as medições e seguem uma distribuição normal multivariada. Se os erros não seguem uma distribuição normal multivariada, modelos lineares generalizados podem ser usados para relaxar as suposições sobre Y e U.

O modelo linear geral incorpora vários modelos estatísticos diferentes: ANOVA, ANCOVA, MANOVA, MANCOVA, regressão linear ordinária, teste t e teste <i id="mwKQ">F</i>. O modelo linear geral é uma generalização da regressão linear múltipla para o caso de mais de uma variável dependente. Se Y, B e U fossem vetores de coluna, a equação matricial acima representaria regressão linear múltipla.

Testes de hipóteses com o modelo linear geral podem ser feitos de duas maneiras: como multivariados ou como vários testes univariados independentes. Nos testes multivariados as colunas de Y são testadas em conjunto, enquanto nos testes univariados as colunas de Y são testadas independentemente, ou seja, como múltiplos testes univariados com a mesma matriz de projeto.

Comparação com regressão linear múltipla

A regressão linear múltipla é uma generalização da regressão linear simples para o caso de mais de uma variável independente, e um caso especial de modelos lineares gerais, restritos a uma variável dependente. O modelo básico para regressão linear múltipla é

Y i = β 0 + β 1 X i 1 + β 2 X i 2 + + β p X i p + ϵ i {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\epsilon _{i}}

para cada observação i = 1, ..., n.

Na fórmula acima, consideramos n observações de uma variável dependente e p variáveis independentes. Assim, Y é a i ésima observação da variável dependente, Xij é a i ésima observação da j ésima variável independente, j = 1, 2, ..., p . Os valores βj representam os parâmetros a serem estimados, e εi é o i ésimo erro normal independente identicamente distribuído.

Comparação com o modelo linear generalizado

O modelo linear geral e o modelo linear generalizado [2] [3] (GLM) são duas famílias de métodos estatísticos comumente usados para relacionar algum número de preditores contínuos e/ou categóricos a uma única variável de resultado.

A principal diferença entre as duas abordagens é que o modelo linear geral supõe estritamente que os resíduos seguirão uma distribuição condicionalmente normal, [4] enquanto o GLM afrouxa essa suposição e permite uma variedade de outras distribuições da família exponencial para os resíduos. [2] De notar que o modelo linear geral é um caso especial do GLM em que a distribuição dos resíduos segue uma distribuição condicionalmente normal.

A distribuição dos resíduos depende em grande parte do tipo e distribuição da variável de resultado. Diferentes tipos de variáveis de resultado levam à variedade de modelos dentro da família GLM. Modelos comumente usados na família GLM incluem regressão logística binária [5] para resultados binários ou dicotômicos, regressão de Poisson [6] para resultados de contagem e regressão linear para resultados contínuos e normalmente distribuídos. Isso significa que o GLM pode ser considerado uma família geral de modelos estatísticos ou modelos específicos para tipos de resultados específicos.

Veja também

Referências

  1. K. V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. [S.l.]: Academic Press. ISBN 0-12-471252-5 
  2. a b McCullagh, P.; Nelder, J. A. (1989), «An outline of generalized linear models», ISBN 9780412317606, Springer US, Generalized Linear Models: 21–47, doi:10.1007/978-1-4899-3242-6_2 
  3. Fox, J. (2015). Applied regression analysis and generalized linear models. Sage Publications.
  4. Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences.
  5. Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.
  6. Gardner, W.; Mulvey, E. P.; Shaw, E. C. (1995). «Regression analyses of counts and rates: Poisson, overdispersed Poisson, and negative binomial models.». Psychological Bulletin. 118 (3): 392–404. doi:10.1037/0033-2909.118.3.392 

Bibliografia

  • Christensen, Ronald (2002). Plane Answers to Complex Questions: The Theory of Linear Models Third ed. New York: Springer. ISBN 0-387-95361-2 
  • Wichura, Michael J. (2006). The coordinate-free approach to linear models. Col: Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. pp. xiv+199. ISBN 978-0-521-86842-6. MR 2283455 
  • Pantula; Dickey, eds. (1998). «Applied Regression Analysis». Springer Texts in Statistics. ISBN 0-387-98454-2. doi:10.1007/b98890  |nome1= sem |sobrenome1= em Editors list (ajuda)
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais