Kendallin järjestyskorrelaatiokerroin

Kendallin järjestyskorrelaatiokerroin, eli Kendallin tau on ei-parametrinen tilastollinen tunnusluku kahden järjestysasteikollisen suureen välisen korrelaation mittaamiseen. Testin kehitti Maurice Kendall, vuonna 1938.[1]

Määritelmä

Olkoon ( x 1 , y 1 ) , ( x 2 , y 2 ) , , ( x n , y n ) {\displaystyle (x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{n},y_{n})} havaintoja muuttujien X {\displaystyle X} ja Y {\displaystyle Y} yhteisjakaumasta. Parit ( x i , y i ) {\displaystyle (x_{i},y_{i})} ja ( x j , y j ) {\displaystyle (x_{j},y_{j})} ovat samansuuntaisia, mikäli x i > x j {\displaystyle x_{i}>x_{j}} ja y i > y j {\displaystyle y_{i}>y_{j}} , tai x i < x j {\displaystyle x_{i}<x_{j}} ja y i < y j {\displaystyle y_{i}<y_{j}} . Muuten parit ovat vastakkaissuuntaisia. Määritelmän mukaan mikäli x i = x j {\displaystyle x_{i}=x_{j}} tai y i = y j {\displaystyle y_{i}=y_{j}} parit eivät ole vastakkais- eivätkä samansuuntaisia.

Kendallin tau-järjestyskorrelaatiokerroin on

τ = n s n v n 0 , {\displaystyle \tau ={\frac {n_{s}-n_{v}}{n_{0}}},} [2]

missä

n s = samansuuntaisten parien lukumäärä {\displaystyle n_{s}={\text{samansuuntaisten parien lukumäärä}}}
n v = vastakkaissuuntaisten parien lukumäärä {\displaystyle n_{v}={\text{vastakkaissuuntaisten parien lukumäärä}}}
n 0 = n ( n 1 ) / 2  (parien lukumäärä yhteensä) {\displaystyle n_{0}=n(n-1)/2{\text{ (parien lukumäärä yhteensä)}}} .

Näin ollen taun kertoimen arvo on välillä 1 τ 1 {\displaystyle -1\leq \tau \leq 1} .

Merkitsevyyden testaaminen

Kendallin järjestyskorrelaatiokerrointa voidaan käyttää testisuureena testaamaan hypoteesia kahden muuttujan välisestä riippuvuudesta. Testi ei vaadi oletuksien muuttujien X {\displaystyle X} tai Y {\displaystyle Y} jakaumista tai näiden yhteisjakaumasta.

Nollahypoteesin ollessa voimassa (muuttujien X {\displaystyle X} ja Y {\displaystyle Y} ollessa riippumattomia) korrelaatiokertoimen τ {\displaystyle \tau } otosjakauman odotusarvo on nolla. Tarkkaa jakaumaa ei voida ilmaista yleisesti tunnettujen jakaumien avulla, mutta se on laskettavissa otoskokojen ollessa pieniä. Suurille otoskoille voidaan käyttää approksimaatiota normaalijakaumasta keskiarvolla nolla ja varianssilla

2 ( 2 n + 5 ) 9 n ( n 1 ) {\displaystyle {\frac {2(2n+5)}{9n(n-1)}}} .[3]

Tasatulokset

Tilanteessa, jossa muuttujien järjestysluvuissa esiintyy tasatuloksia eli sidoksia voidaan tunnusluvusta käyttää versioita, joissa tasatulokset on otettu huomioon.[4]

Lähteet

  1. Kendall, M. (1938). "A New Measure of Rank Correlation". Biometrika 30 (1–2): 81–89. doi:10.1093/biomet/30.1-2.81. 
  2. Nelsen, R.B.: Kendall tau metric. Encyclopedia of Mathematics, 2001. ISBN 978-1-55608-010-4. Artikkelin verkkoversio. [vanhentunut linkki]
  3. Prokhorov, A.V.: Kendall coefficient of rank correlation. Encyclopedia of Mathematics, 2001. ISBN 978-1-55608-010-4. Artikkelin verkkoversio. [vanhentunut linkki]
  4. Agresti, A. (2010). Analysis of Ordinal Categorical Data, Second, New York: John Wiley & Sons. 

Aiheesta muualla

  • Yhteiskuntatieteellinen tietoarkisto, menetelmäopetuksen tietovaranto