Problem pominiętych zmiennych

Problem pominiętych zmiennych (ang. omitted-variable bias, OVB) – w estymacji statystycznej we wnioskowaniu przyczynowym, błąd oszacowania (np. pozorna korelacja) wynikający z nieuwzględnienia części czynników przyczynowych wśród zmiennych objaśniających w modelu zjawiska. Rezultatem błędu jest mylne przypisanie wpływu brakujących zmiennych do elementów uwzględnionych, i vice versa.

W języku technicznym problem pominiętych zmiennych to błąd estymacji parametrów np. w analizie regresji, pojawiający się, gdy założona została niewłaściwa specyfikacja modelu, pomijająca zmienne objaśniające, które są przyczynami zarówno zmiennej objaśnianej, jak i co najmniej jednej uwzględnionej zmiennej objaśniającej.

Przykładowo, jeśli interesuje nas efekt spożycia wina na zdrowie, a spożycie to jest w rzeczywistości skorelowane z ogólnie zdrowszą dietą, czego nie uwzględnimy w analizie, uzyskamy przeszacowanie związku (lub całkowicie pozorną korelację) konsumpcji wina ze zdrowiem[1].

Zagadnienie wzajemnego powiązania zmiennych obecnych i nieobecnych w modelu nazywa się ogólnie endogenicznością. Model statystyczny wolny od pominięć zmiennych zakłócających nazywa się egzogenicznym; taki stan jest z reguły założeniem poprawnego działania metod statystycznych, na przykład regresji liniowej.

Fakt, że pominięcie zmiennych objaśniających prowadzi do błędu, nie oznacza, że badacze powinni dodawać do podstawowych wyrazów modelu statystycznego każdy dostępny wskaźnik. W szczególności, uwzględnienie wśród zmiennych objaśniających następstwa objaśnianego zjawiska również wprowadza do oszacowań błąd. Jest to ważnym problemem z jakim boryka się naukowe wnioskowanie przyczynowe.

Role zmiennych w specyfikacji modelu

Ilustracja przedstawia graf zawierający przyczynę, skutek, mediator, zmienną zakłócającą i collider.
Przykład grafu systemu przyczynowego, w którym badanemu związkowi przyczyny X {\displaystyle X} ze skutkiem Y {\displaystyle Y} towarzyszy mediator M , {\displaystyle M,} zmienna zakłócająca Z {\displaystyle Z} i kolider K . {\displaystyle K.} Typowy problem pominiętej zmiennej dotyczy ominięcia w analizie regresji czynników typu Z . {\displaystyle Z.} Statystyczne kontrolowanie zmiennych typu M {\displaystyle M} i K {\displaystyle K} zwiększa błąd oszacowania.

Teoretyczny model odzwierciedlający rzeczywiste relacje przyczynowe wszystkich czynników wpływających na badane zjawisko, przełożony na model statystyczny, pozwala trafnie oszacowywać wielkość efektu poszczególnych zmiennych. W takiej sytuacji problemem pozostaje jedynie odwrotnie proporcjonalny do wielkości próby błąd przypadkowy. Jest to idealizacja i stan docelowy; praca badawcza polega na poszukiwaniu i dążeniu do takiego modelu[2].

Zmienne dostępne w praktyce do pomiaru i analizy mogą mieć różnorodne wzajemne relacje przyczynowo-skutkowe. Każdy ich rodzaj wymaga innego, właściwego umieszczenia w modelach statystycznych. Wśród metateorii opisujących zależności przyczynowe podejście oparte o skierowane grafy typu DAG pozwala rozróżnić podstawowe przypadki[3][4]:

  • Relacje przyczynowo-skutkowe (przyczyna A {\displaystyle A} i skutek B {\displaystyle B} ): A B . {\displaystyle A\to B.} Zmienne objaśniające i objaśniane wybrane przez badaczy do modelu pełnią zwykle tę rolę.
  • Czynniki zapośredniczające część lub całość przyczynowości ( M ) , {\displaystyle (M),} takie jak mediatory: A M B . {\displaystyle A\to M\to B.} Mediator dodany do modelu regresji przejmie właściwą sobie część siły efektu. Nie zawsze jest to pożądane, zawsze zaś wymaga rozpoznania i specyficznej interpretacji: mediatorem nie nazywamy bowiem zmiennej, która jest prawdziwą pierwotną przyczyną zjawiska, choć jest z nią wysoce współliniowa; wynik regresji może jednak sugerować, że to z nim ma ono silniejszą bezpośrednią zależność[5]. Skrajnym przypadkiem są tu redundantne wskaźniki tej samej zmiennej – w ich przypadku oszacowane w zwykłej regresji parametry będą nonsensowne[6]. Na przykład badanie wpływu środka grzybobójczego na plony rolnicze, uwzględniające w modelu zarówno ilość użytego fungicydu, jak i zagrzybienie roślin, może przypisać całą siłę związku z wielkością plonów temu drugiemu czynnikowi (który jest de facto skutkiem pierwszego), sprawiając, że efektywność fungicydu okaże się pozornie nieistotna statystycznie i bliska zeru[5].
  • Zmienne zakłócające – zewnętrzne czynniki, które są wplecione w badaną ścieżkę przyczynową w co najmniej dwóch punktach. Jest to zmienna Z , {\displaystyle Z,} która również bywa przyczyną B , {\displaystyle B,} i jest częściowo skorelowana z uwzględnioną już zmienną A : A Z B . {\displaystyle A\colon A\leftrightsquigarrow Z\to B.} Problem pominiętych zmiennych dotyczy tego typu czynników. Przykładowo, badanie związku jakości snu uczniów z wynikami szkolnymi, nieuwzględniające ich statusu socjoekonomicznego (w domyśle: dodatkowych obowiązków i stresu), będzie przeszacowywać siłę tego związku[7]. Szczególnym przypadkiem takiej sytuacji jest paradoks Simpsona[8].
  • Kolidery (zmienne „kolidujące”) – czynniki, które są skutkowym następstwem co najmniej dwóch różnych elementów: A K B . {\displaystyle A\to K\leftarrow B.} Model statystyczny uwzględniający wśród zmiennych objaśniających ich własne skutki będzie uzyskiwać błędne estymacje. Są to czynniki, które należy pomijać. Szczególnym przypadkiem zmiennej kolidującej jest uwzględniane implicite w modelu nielosowe kryterium doboru do próby, jak w przypadku błędu selekcji lub paradoksu Berksona. Dawes zilustrował to badaniem związku ocen testów szkolnych z osiągnięciami w nauce uniwersyteckiej wśród swoich studentów. Zademonstrował obecność paradoksalnej, silnie negatywnej korelacji pomiędzy tymi zmiennymi. Jest to konsekwencją błędu selekcji – wykonanego implicite ograniczenia próby do osób, które cechując się wysokimi wynikami testów dostały się na studia[9].

Relacje te są względne – ta sama zmienna może pełnić różne role w stosunku do różnych sąsiadów, zależnie od tego, jaką analizujemy „ścieżkę przyczynową” w systemie. Nota bene, metateoria przyczynowości używająca grafów, reprezentowana m.in. przez Pearla, nie jest jedyną ani uniwersalnie stosowaną perspektywą rozpatrywania tego zagadnienia – alternatywą jest np. podejście Neymana-Rubina[10]. Kładzie ona większy nacisk na poprawność prognoz płynących z modelu, niż na precyzyjne określenie jego wewnętrznych parametrów[11][12].

Pominięcie zmiennych w regresji liniowej

Załóżmy, że prawdziwy związek przyczynowy odzwierciedla model regresji

y = a + b x + c z + u {\displaystyle y=a+bx+cz+u}

zawierający parametry a , {\displaystyle a,} b , {\displaystyle b,} c , {\displaystyle c,} zmienną objaśnianą y , {\displaystyle y,} zmienne objaśniające x {\displaystyle x} i z , {\displaystyle z,} oraz wyraz błędu u . {\displaystyle u.} Badacz zainteresowany siłą efektu x {\displaystyle x} na y {\displaystyle y} chce uzyskać prawidłowe oszacowanie parametru b . {\displaystyle b.} Problem pominięcia zmiennych pojawia się, gdy model przyjęty przez badacza nie uwzględnia zmiennej z , {\displaystyle z,} a jest ona częściowo skorelowana z x : {\displaystyle x{:}}

z = d + f x + e {\displaystyle z=d+fx+e}

z parametrami d , {\displaystyle d,} f , {\displaystyle f,} i wyrazem błędu e . {\displaystyle e.} Po podstawieniu do pierwszego równania uzyskujemy:

y = ( a + c d ) + ( b + c f ) x + ( u + c e ) . {\displaystyle y=(a+cd)+(b+cf)x+(u+ce).}

Jeśli regresja jest wykonana jedynie na zmiennej x , {\displaystyle x,} parametr b {\displaystyle b} zostanie błędnie oszacowany jako b + c f , {\displaystyle b+cf,} stanowiąc nie tylko estymację własnej siły efektu x , {\displaystyle x,} ale jego sumy z efektem zapośredniczonym przez korelację x {\displaystyle x} i z . {\displaystyle z.} Innymi słowy, przez pominięcie zmiennej z {\displaystyle z} w regresji, oszacowujemy pochodną zupełną x {\displaystyle x} względem y , {\displaystyle y,} a nie odpowiednią pochodną cząstkową.

Środki zaradcze

Badacze złożonych zjawisk obawiający się problemu pominiętych zmiennych mogą porównać wyniki kilku alternatywnych modelów, uwzględniających różne zestawy zmiennych objaśniających, w celu weryfikacji odporności oszacowań na takie zmiany założeń[4]. Pozwala to także na wykonanie podstawowego „testu OVB”, sprawdzającego zmienność oszacowań pomiędzy modelami[13].

Modele hierarchiczne (klasyczne lub bayesowskie) umieszczające zmienne objaśniające w ściślej wyrażonych relacjach (w przypadku bayesowskim, także z rozkładem apriorycznym precyzującym oczekiwane wartości parametrów) mogą ograniczyć problem endogeniczności zmiennych. Opierają się one jednak na sformułowaniu i implementacji konkretnych założeń co do przyczynowego modelu badanego zjawiska. Badacze preferujący metateorię Neymana-Rubina odradzają także bezpośrednie interpretowanie punktowych oszacowań parametrów regresji, rekomendując za to analizowanie ich prognoz (pełnych rozkładów prognostycznych a posteriori) uzyskanych w analizie – wyrażają bowiem zależność zmiennych łącznie z niepewnością tego oszacowania[11][12].

Przypisy

  1. A.A. Tjønneland A.A. i inni, Wine intake and diet in a random sample of 48763 Danish men and women, „The American Journal of Clinical Nutrition”, 69 (1), 1999, s. 49–54, DOI: 10.1093/ajcn/69.1.49, ISSN 0002-9165, PMID: 9925122 [dostęp 2018-04-29] .
  2. FelixF. Elwert FelixF., Graphical Causal Models, [w:] StephenS. Morgan (red.), Handbook of Causal Analysis for Social Research, 27 marca 2013, s. 245–273, DOI: 10.1007/978-94-007-6094-3_13, ISSN 1389-6903 [dostęp 2018-04-28] .
  3. FelixF. Elwert FelixF., ChristopherCh. Winship ChristopherCh., Endogenous Selection Bias: The Problem of Conditioning on a Collider Variable, „Annual Review of Sociology”, 40 (1), 2014, s. 31–53, DOI: 10.1146/annurev-soc-071913-043455 [dostęp 2018-04-29] .
  4. a b JuliaJ. Rohrer JuliaJ., Thinking Clearly About Correlations and Causation: Graphical Causal Models for Observational Data, „Advances in Methods and Practices in Psychological Science”, 2018, s. 251524591774562, DOI: 10.1177/2515245917745629 [dostęp 2018-04-29] .
  5. a b RichardR. McElreath RichardR., Statistical rethinking: a Bayesian course with examples in R and Stan, Boca Raton, s. 150, ISBN 978-1-4822-5344-3, OCLC 920672225 .
  6. RichardR. McElreath RichardR., Statistical rethinking: a Bayesian course with examples in R and Stan, Boca Raton 2016, s. 142, ISBN 978-1-4822-5344-3, OCLC 920672225 .
  7. James F.J.F. Pagel James F.J.F., NatalieN. Forister NatalieN., CarolC. Kwiatkowki CarolC., Adolescent sleep disturbance and school performance: the confounding variable of socioeconomics, „Journal of clinical sleep medicine: JCSM: official publication of the American Academy of Sleep Medicine”, 3 (1), 2007, s. 19–23, ISSN 1550-9389, PMID: 17557448 [dostęp 2018-04-29] .
  8. Steven A.S.A. Julious Steven A.S.A., Mark A.M.A. Mullee Mark A.M.A., Confounding and Simpson’s paradox, „British Medical Journal”, 309 (6967), 1994, s. 1480–1481, DOI: 10.1136/bmj.309.6967.1480, ISSN 0959-8138, PMID: 7804052 [dostęp 2018-04-29]  (ang.).
  9. Robyn M.R.M. Dawes Robyn M.R.M., Graduate Admission Variables and Future Success, „Science”, 187 (4178), 1975, s. 721–723, DOI: 10.1126/science.187.4178.721, ISSN 0036-8075, PMID: 17795237 [dostęp 2018-04-29]  (ang.).
  10. JasjeetJ. Sekhon JasjeetJ., The Neyman-Rubin Model of Causal Inference and Estimation Via Matching Methods, Janet M.J.M. Box-Steffensmeier, Henry E.H.E. Brady, DavidD. Collier (red.), [w:] The Oxford Handbook of Political Methodology, 21 sierpnia 2008, DOI: 10.1093/oxfordhb/9780199286546.001.0001/oxfordhb-9780199286546-e-11 [dostęp 2018-04-30]  (ang.).
  11. a b 6: Model checking, 7: Evaluating, comparing and expanding models, [w:] AndrewA. Gelman AndrewA., Bayesian Data Analysis, wyd. 2nd ed, Boca Raton, Fla.: Chapman & Hall/CRC, 2004, ISBN 1-58488-388-X, OCLC 51991499 .
  12. a b RichardR. McElreath RichardR., Statistical rethinking: a Bayesian course with examples in R and Stan, Boca Raton, ISBN 978-1-4822-5344-3, OCLC 920672225 .
  13. Jörn-SteffenJ.S. Pischke Jörn-SteffenJ.S., JoshuaJ. Angrist JoshuaJ., Mostly harmless econometrics: an empiricist’s companion, Princeton: Princeton University Press, 2009, s. 44, ISBN 978-0-691-12034-8, OCLC 231586808 .