Rangkorrelationskoeffizient

Ein Rangkorrelationskoeffizient ist ein parameterfreies Maß für Korrelationen. Das heißt, er misst, wie gut eine beliebige monotone Funktion den Zusammenhang zwischen zwei Variablen beschreiben kann, ohne irgendwelche Annahmen über die Wahrscheinlichkeitsverteilung der Variablen zu machen. Die namensgebende Eigenschaft dieser Maßzahlen ist es, dass sie nur den Rang der beobachteten Werte berücksichtigen, also nur ihre Position in einer geordneten Liste.

Anders als der Pearson’sche Korrelationskoeffizient benötigen Rangkorrelationskoeffizienten nicht die Annahme, dass die Beziehung zwischen den Variablen linear ist. Sie sind robust gegenüber Ausreißern.

Es gibt zwei bekannte Rangkorrelationskoeffizienten: den Spearman’schen Rangkorrelationskoeffizienten (Spearman’sches Rho) und den Kendall’schen Rangkorrelationskoeffizienten (Kendall’sches Tau). Zur Ermittlung der Übereinstimmung zwischen mehreren Beobachtern (Interrater-Reliabilität) auf Ordinalskalenniveau wird dagegen auf den mit den Rangkorrelationskoeffizienten verwandten Konkordanzkoeffizienten, auch Kendall’scher Konkordanzkoeffizient, nach dem Statistiker Maurice George Kendall (1907–1983), zurückgegriffen.

Konzept

Wir beginnen mit N {\displaystyle N} Paaren von Messungen ( x i , y i ) {\displaystyle (x_{i},y_{i})} . Das Konzept der nichtparametrischen Korrelation besteht darin, den Wert x i {\displaystyle x_{i}} einer jeden Messung durch den Rang relativ zu allen anderen x j {\displaystyle x_{j}} in der Messung zu ersetzen, also 1 , 2 , 3 , , N {\displaystyle 1,2,3,\dots ,N} . Nach dieser Operation stammen die Werte von einer wohlbekannten Verteilung, nämlich einer Gleichverteilung von Zahlen zwischen 1 und N {\displaystyle N} . Falls die x i {\displaystyle x_{i}} alle unterschiedlich sind, kommt jede Zahl genau einmal vor. Falls manche x i {\displaystyle x_{i}} identische Werte haben, wird ihnen der Mittelwert der Ränge zugewiesen, die sie erhalten hätten, wenn sie leicht unterschiedlich gewesen wären. In diesem Fall wird von Bindungen oder Ties gesprochen.[1] Dieser gemittelte Rang ist manchmal eine ganze Zahl, manchmal ein „halber“ Rang. In allen Fällen ist die Summe aller zugewiesenen Ränge gleich der Summe aller Zahlen von 1 bis N {\displaystyle N} , nämlich N ( N + 1 ) / 2 {\displaystyle N(N+1)/2} .

Anschließend wird genau dieselbe Prozedur mit den y i {\displaystyle y_{i}} durchgeführt und jeder Wert durch seinen Rang unter allen y j {\displaystyle y_{j}} ersetzt.

Durch das Ersetzen intervallskalierter Messwerte durch die entsprechenden Ränge geht Information verloren. Die Anwendung bei intervallskalierten Daten kann aber dennoch sinnvoll sein, da eine nichtparametrische Korrelation robuster ist als die lineare Korrelation, widerstandsfähiger gegen ungeplante Fehler und Ausreißerwerte in den Daten, genau wie der Median robuster ist als der Mittelwert. Liegen als Daten nur Rangreihen, also Daten auf Ordinalniveau vor, gibt es zudem keine Alternative zu Rangkorrelationen.

Spearman’scher Rangkorrelationskoeffizient

Der Spearman’sche Rangkorrelationskoeffizient ist benannt nach Charles Spearman und wird oft mit dem griechischen Buchstaben ρ (rho) oder – in Abgrenzung zum Pearson’schen Produkt-Moment-Korrelationskoeffizienten – als r s {\displaystyle r_{s}} bezeichnet.

Spearman’scher Rangkorrelationskoeffizient für Zufallsvariablen

Definition

Gegeben sei ein Zufallsvektor ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} mit den stetigen Randverteilungsfunktionen F 1 , F 2 {\displaystyle F_{1},F_{2}} . Definiere den Zufallsvektor ( U 1 , U 2 ) := ( F 1 ( X 1 ) , F 2 ( X 2 ) ) {\displaystyle (U_{1},U_{2}):=(F_{1}(X_{1}),F_{2}(X_{2}))} . Dann ist der Spearmansche Rangkorrelationskoeffizient ρ S {\displaystyle \rho _{S}} für den Zufallsvektor ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} gegeben durch:

ρ S := ρ S ( X 1 , X 2 ) := ρ ( U 1 , U 2 ) = ρ ( F 1 ( X 1 ) , F 2 ( X 2 ) ) {\displaystyle \rho _{S}:=\rho _{S}(X_{1},X_{2}):=\rho (U_{1},U_{2})=\rho (F_{1}(X_{1}),F_{2}(X_{2}))}

Dabei handelt es sich bei ρ {\displaystyle \rho } um den gewöhnlichen Pearson'schen Korrelationskoeffizienten.

Man beachte, dass der Wert von ρ S ( X 1 , X 2 ) {\displaystyle \rho _{S}(X_{1},X_{2})} unabhängig von den konkreten (Rand-)Verteilungsfunktionen F 1 , F 2 {\displaystyle F_{1},F_{2}} ist. Tatsächlich hängt der stochastische Rangkorrelationskoeffizient nur von der Copula ab, die dem Zufallsvektor ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} zugrunde liegt. Ein weiterer Vorteil im Vergleich zum Pearson’schen Korrelationskoeffizient ist die Tatsache, dass ρ S {\displaystyle \rho _{S}} immer existiert, da die U 1 , U 2 {\displaystyle U_{1},U_{2}} quadratisch integrierbar sind.

Unabhängigkeit von den Randverteilungen

Dass der Spearman’scher Rangkorrelationskoeffizient nicht von den Randverteilungen des Zufallsvektors beeinflusst wird, lässt sich wie folgt illustrieren: Gemäß dem Satz von Sklar existiert für den Zufallsvektor ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} mit der gemeinsamen Verteilungsfunktion F {\displaystyle F} und den stetigen univariaten Randverteilungsfunktionen F 1 , F 2 {\displaystyle F_{1},F_{2}} eine eindeutige Copula C : [ 0 , 1 ] 2 [ 0 , 1 ] {\displaystyle C\colon [0,1]^{2}\to [0,1]} , so dass gilt:

C ( F 1 ( x 1 ) , F 2 ( x 2 ) ) = F ( x 1 , x 2 ) {\displaystyle C(F_{1}(x_{1}),F_{2}(x_{2}))=F(x_{1},x_{2})} .

Nun wird der Zufallsvektor ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} auf den Zufallsvektor ( U 1 , U 2 ) := ( F 1 ( X 1 ) , F 2 ( X 2 ) ) {\displaystyle (U_{1},U_{2}):=(F_{1}(X_{1}),F_{2}(X_{2}))} transformiert. Da Copulas invariant unter strikt monoton steigenden Transformation sind, und wegen der Stetigkeit von F 1 , F 2 {\displaystyle F_{1},F_{2}} hat ( U 1 , U 2 ) {\displaystyle (U_{1},U_{2})} dieselbe Copula wie ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} . Darüber hinaus sind die Randverteilungen von ( U 1 , U 2 ) {\displaystyle (U_{1},U_{2})} uniform verteilt, da

P ( U i x ) = P ( F i ( X i ) x ) = P ( X i F i 1 ( x ) ) = F i ( F i 1 ( x ) ) = x {\displaystyle P(U_{i}\leq x)=P(F_{i}(X_{i})\leq x)=P(X_{i}\leq F_{i}^{-1}(x))=F_{i}(F_{i}^{-1}(x))=x}

für alle i { 1 , 2 } {\displaystyle i\in \{1,2\}} und x ( 0 , 1 ) {\displaystyle x\in (0,1)} .

Aus diesen beiden Beobachtungen folgt, dass ρ S ( X 1 , X 2 ) {\displaystyle \rho _{S}(X_{1},X_{2})} zwar von der Copula von ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} abhängt, aber nicht von seinen Randverteilungen.

Empirischer Spearman’scher Rangkorrelationskoeffizient

Im Prinzip ist r s {\displaystyle r_{s}} ein Spezialfall des Pearson’schen Produkt-Moment-Korrelationskoeffizienten, bei dem die Daten in Ränge konvertiert werden, bevor der Korrelationskoeffizient berechnet wird:

r s = i ( R ( x i ) R ¯ x ) ( R ( y i ) R ¯ y ) i ( R ( x i ) R ¯ x ) 2 i ( R ( y i ) R ¯ y ) 2 = 1 n i ( R ( x i ) R ( y i ) ) R x ¯ R y ¯ s R x s R y = s R x , R y s R x s R y . {\displaystyle r_{s}={\frac {\sum _{i}(R(x_{i})-{\overline {R}}_{x})(R(y_{i})-{\overline {R}}_{y})}{{\sqrt {\sum _{i}(R(x_{i})-{\overline {R}}_{x})^{2}}}{\sqrt {\sum _{i}(R(y_{i})-{\overline {R}}_{y})^{2}}}}}={\frac {{\frac {1}{n}}\sum _{i}(R(x_{i})R(y_{i}))-{\overline {R_{x}}}{\overline {R_{y}}}}{s_{R_{x}}s_{R_{y}}}}={\frac {s_{R_{x},R_{y}}}{s_{R_{x}}s_{R_{y}}}}.}

Dabei ist

R ( x i ) {\displaystyle R(x_{i})} der Rang von x i {\displaystyle x_{i}} ,
R ¯ x {\displaystyle {\overline {R}}_{x}} der Mittelwert der Ränge von x {\displaystyle x} ,
s R x {\displaystyle s_{R_{x}}} die Standardabweichung der Ränge von x {\displaystyle x} und
s R x , R y {\displaystyle s_{R_{x},R_{y}}} die Stichprobenkovarianz von R ( x ) {\displaystyle R(x)} und R ( y ) {\displaystyle R(y)} .

In der Praxis wird meistens eine einfachere Formel zur Berechnung von r s {\displaystyle r_{s}} benutzt, die aber nur korrekt ist, wenn alle Ränge genau einmal vorkommen. Es liegen für zwei metrische Merkmale X {\displaystyle X} und Y {\displaystyle Y} die verbundenen Stichproben x 1 , x 2 , , x n {\displaystyle x_{1},x_{2},\ldots ,x_{n}} bzw. y 1 , y 2 , , y n {\displaystyle y_{1},y_{2},\ldots ,y_{n}} vor. Durch Rangskalierung der X {\displaystyle X} - bzw. Y {\displaystyle Y} -Werte ergeben sich die (verbundenen) Rangreihen R ( x 1 ) , R ( x 2 ) , , R ( x n ) {\displaystyle R(x_{1}),R(x_{2}),\ldots ,R(x_{n})} bzw. R ( y 1 ) , R ( y 2 ) , , R ( y n ) {\displaystyle R(y_{1}),R(y_{2}),\ldots ,R(y_{n})} . Wenn die X {\displaystyle X} - und Y {\displaystyle Y} -Reihe so verbunden sind, dass jeweils die kleinsten Werte, die zweitkleinsten Werte usw. miteinander korrespondieren, dann gilt R ( x i ) = R ( y i ) {\displaystyle R(x_{i})=R(y_{i})} , d. h., die beiden Rangreihen sind identisch. Stellt man nun die Rangzahlenpaare in der ( x , y ) {\displaystyle (x,y)} -Ebene als Punkte dar, indem man horizontal R ( x i ) {\displaystyle R(x_{i})} und vertikal R ( y i ) {\displaystyle R(y_{i})} aufträgt, so liegen die Punkte auf einer Geraden mit der Steigung + 1 {\displaystyle +1} . In diesem Fall spricht von einer perfekten positiven Rangkorrelation, der der maximale Korrelationswert r s = + 1 {\displaystyle r_{s}=+1} zugeordnet ist. Um die Abweichung von der perfekten positiven Rangkorrelation zu erfassen, ist nach Spearman die Quadratsumme:[2]

Q = i = 1 n ( R ( x i ) R ( y i ) ) 2 {\displaystyle Q=\sum \limits _{i=1}^{n}(R(x_{i})-R(y_{i}))^{2}}

der Rangdifferenzen d i = R ( x i ) R ( y i ) {\displaystyle d_{i}=R(x_{i})-R(y_{i})} zu bilden. Der Spearman’sche Rangkorrelationskoeffizient r s {\displaystyle r_{s}} ist dann gegeben durch:

r s = 1 6 Q n ( n 1 ) ( n + 1 ) {\displaystyle r_{s}=1-{\frac {6Q}{n(n-1)(n+1)}}}

Sind alle Ränge verschieden, ergibt diese einfache Formel exakt dasselbe Ergebnis.

Bei Bindungen

Wenn identische Werte für X {\displaystyle X} oder Y {\displaystyle Y} (also Bindungen) existieren, wird die Formel etwas komplizierter. Aber solange nicht sehr viele Werte identisch sind, ergeben sich nur kleine Abweichungen:[3]

r s = n 3 n 1 2 T x 1 2 T y 6 Q ( n 3 n T x ) ( n 3 n T y ) {\displaystyle r_{s}={\frac {n^{3}-n-{\frac {1}{2}}T_{x}-{\frac {1}{2}}T_{y}-6Q}{\sqrt {\left(n^{3}-n-T_{x}\right)\left(n^{3}-n-T_{y}\right)}}}}

mit T = k ( t , k 3 t , k ) {\displaystyle \textstyle T_{\bullet }=\sum _{k}(t_{\bullet ,k}^{3}-t_{\bullet ,k})} . Dabei ist t , k {\displaystyle t_{\bullet ,k}} die Anzahl der Beobachtungen mit gleichem Rang; wobei {\displaystyle \bullet } entweder für X {\displaystyle X} oder für Y {\displaystyle Y} steht.

Beispiele

Beispiel 1

Als Beispiel sollen Größe und Körpergewicht verschiedener Menschen untersucht werden. Die Paare von Messwerten seien 175 cm, 178 cm und 190 cm und 65 kg, 70 kg und 98 kg.

In diesem Beispiel besteht die maximale Rangkorrelation: Die Datenreihe der Körpergrößen wird nach Rang geordnet, und die Rangzahlen der Körpergrößen entsprechen auch den Rangzahlen der Körpergewichte. Eine niedrige Rangkorrelation herrscht, wenn etwa die Körpergröße im Verlauf der Datenreihe größer wird, das Gewicht jedoch abnimmt. Dann kann man nicht „Der schwerste Mensch ist der größte“ sagen. Der Rangkorrelationskoeffizient ist der zahlenmäßige Ausdruck des Zusammenhanges zweier Rangordnungen.

Beispiel 2
Dieser Artikel oder Abschnitt bedarf einer grundsätzlichen Überarbeitung. Näheres sollte auf der Diskussionsseite angegeben sein. Bitte hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Gegeben sind acht Beobachtungen zweier Variablen a und b:

i 1 2 3 4 5 6 7 8
a i {\displaystyle a_{i}} 2,0 3,0 3,0 5,0 5,5 8,0 10,0 10,0
b i {\displaystyle b_{i}} 1,5 1,5 4,0 3,0 1,0 5,0 5,0 9,5

Um den Rang für die Beobachtungen von b zu ermitteln, wird folgendermaßen vorgegangen: Zunächst wird nach dem Wert sortiert, dann wird der Rang vergeben (d. h. neu durchnummeriert) und normiert, d. h. bei gleichen Werten wird der Mittelwert gebildet. Zuletzt wird die Eingangsreihenfolge wiederhergestellt, damit dann die Differenzen der Ränge gebildet werden können.

Eingang Sort(Wert) Rang ermitteln Sort(Index)
Index Wert 1 1 , 5 2 1 , 5 3 4 , 0 4 3 , 0 5 1 , 0 6 5 , 0 7 5 , 0 8 9 , 5 {\displaystyle {\begin{array}{c|c}{\text{Index}}&{\text{Wert}}\\\hline 1&1{,}5\\2&1{,}5\\3&4{,}0\\4&3{,}0\\5&1{,}0\\6&5{,}0\\7&5{,}0\\8&9{,}5\\\end{array}}} Index Wert 5 1 , 0 1 1 , 5 2 1 , 5 4 3 , 0 3 4 , 0 6 5 , 0 7 5 , 0 8 9 , 5 {\displaystyle {\begin{array}{c|c}{\text{Index}}&{\text{Wert}}\\\hline 5&1{,}0\\1&1{,}5\\2&1{,}5\\4&3{,}0\\3&4{,}0\\6&5{,}0\\7&5{,}0\\8&9{,}5\\\end{array}}} Index Wert Rang Normiert 5 1 , 0 1 1 1 1 , 5 2 ( 2 + 3 ) / 2 2 1 , 5 3 = 2 , 5 4 3 , 0 4 4 3 4 , 0 5 5 6 5 , 0 6 ( 6 + 7 ) / 2 7 5 , 0 7 = 6 , 5 8 9 , 5 8 8 {\displaystyle {\begin{array}{c|c|c||c}{\text{Index}}&{\text{Wert}}&{\text{Rang}}&{\text{Normiert}}\\\hline 5&1{,}0&1&1\\\hline 1&1{,}5&2&(2+3)/2\\2&1{,}5&3&=2{,}5\\\hline 4&3{,}0&4&4\\\hline 3&4{,}0&5&5\\\hline 6&5{,}0&6&(6+7)/2\\7&5{,}0&7&=6{,}5\\\hline 8&9{,}5&8&8\\\end{array}}} Index Wert Rang Normiert 1 1 , 5 2 , 5 2 1 , 5 2 , 5 3 4 , 0 5 , 0 4 3 , 0 4 , 0 5 1 , 0 1 , 0 6 5 , 0 6 , 5 7 5 , 0 6 , 5 8 9 , 5 8 , 0 {\displaystyle {\begin{array}{c|c|c}{\text{Index}}&{\text{Wert}}&{\text{Rang Normiert}}\\\hline 1&1{,}5&2{,}5\\2&1{,}5&2{,}5\\3&4{,}0&5{,}0\\4&3{,}0&4{,}0\\5&1{,}0&1{,}0\\6&5{,}0&6{,}5\\7&5{,}0&6{,}5\\8&9{,}5&8{,}0\\\end{array}}}

Aus den zwei Datenreihen a und b ergibt sich folgende Zwischenrechnung:

Werte von a Werte von b Rang von a Rang von b d = R ( a ) R ( b ) {\displaystyle d=R(a)-R(b)} ( R ( a ) R ( b ) ) 2 {\displaystyle (R(a)-R(b))^{2}}
2,0 1,5 1,0 2,5 −1,5 2,25
3,0 1,5 2,5 2,5 0,0 0,00
3,0 4,0 2,5 5,0 −2,5 6,25
5,0 3,0 4,0 4,0 0,0 0,00
5,5 1,0 5,0 1,0 4,0 16,00
8,0 5,0 6,0 6,5 −0,5 0,25
10,0 5,0 7,5 6,5 1,0 1,00
10,0 9,5 7,5 8,0 −0,5 0,25
        = 26 {\displaystyle \sum =26}

Die Tabelle ist nach der Variablen a geordnet. Wichtig ist, dass sich Einzelwerte einen Rang teilen können. In der Reihe a gibt es zweimal „3“, und sie haben jeweils den „durchschnittlichen“ Rang (2+3)/2 = 2,5. Dasselbe geschieht bei der Reihe b.

Werte von a Werte von b t a , k {\displaystyle t_{a,k}} t a , k 3 t a , k {\displaystyle t_{a,k}^{3}-t_{a,k}} t b , k {\displaystyle t_{b,k}} t b , k 3 t b , k {\displaystyle t_{b,k}^{3}-t_{b,k}}
2,0 1,5 1 0 2 6
3,0 1,5 2 6 - -
3,0 4,0 - - 1 0
5,0 3,0 1 0 1 0
5,5 1,0 1 0 1 0
8,0 5,0 1 0 2 6
10,0 5,0 2 6 - -
10,0 9,5 - - 1 0
    T a = 12 {\displaystyle T_{a}=12} T b = 12 {\displaystyle T_{b}=12}

Mit der Korrektur nach Horn ergibt sich schließlich

r s = 8 3 8 6 6 6 26 ( 8 3 8 12 ) ( 8 3 8 12 ) = 336 492 0,682 9. {\displaystyle r_{s}={\frac {8^{3}-8-6-6-6\cdot 26}{\sqrt {\left({8^{3}-8}-12\right)\left(8^{3}-8-12\right)}}}={\frac {336}{492}}\approx 0{,}6829.}

Bestimmung der Signifikanz

Der moderne Ansatz für den Test, ob der beobachtete Wert von ρ {\displaystyle \rho } sich signifikant von null unterscheidet führt zu einem Permutationstest. Dabei wird die Wahrscheinlichkeit berechnet, dass ρ {\displaystyle \rho } für die Nullhypothese größer oder gleich dem beobachteten ρ {\displaystyle \rho } ist.

Dieser Ansatz ist traditionellen Methoden überlegen, wenn der Datensatz nicht zu groß ist, um alle notwendigen Permutationen zu erzeugen, und weiterhin, wenn klar ist, wie man für die gegebene Anwendung sinnvolle Permutationen für die Nullhypothese erzeugt (was aber normalerweise recht einfach ist).

Kendall’sches Tau

Im Gegensatz zum Spearman’schen ρ {\displaystyle \rho } nutzt das Kendall’sche τ {\displaystyle \tau } nur den Unterschied in den Rängen und nicht die Differenz der Ränge. In der Regel ist der Wert des Kendall’schen τ {\displaystyle \tau } etwas kleiner als der Wert des Spearman’schen ρ {\displaystyle \rho } . τ {\displaystyle \tau } erweist sich darüber hinaus auch für intervallskalierte Daten als hilfreich, wenn die Daten nicht normalverteilt sind, die Skalen ungleiche Teilungen aufweisen oder bei sehr kleinen Stichprobengrößen.

Kendall’sches Tau für Zufallsvariable

Sei ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} ein bivariater Zufallsvektor mit Copula C {\displaystyle C} und Randverteilungsfunktionen F 1 , F 2 {\displaystyle F_{1},F_{2}} . Damit hat ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} gemäß dem Satz von Sklar die gemeinsame Verteilungsfunktion F ( x 1 , x 2 ) = C ( F 1 ( x 1 ) , F 2 ( x 2 ) ) {\displaystyle F(x_{1},x_{2})=C(F_{1}(x_{1}),F_{2}(x_{2}))} . Das Kendall'sches Tau für den Zufallsvektor ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} ist dann definiert als:

τ := τ C := 4 0 1 0 1 C ( u 1 , u 2 ) d C ( u 1 , u 2 ) 1 = 4 E [ C ( F 1 ( X 1 ) , F 2 ( X 2 ) ) ] 1 {\displaystyle \tau :=\tau _{C}:=4\int _{0}^{1}\int _{0}^{1}C(u_{1},u_{2})\;dC(u_{1},u_{2})-1=4\,\mathbb {E} [C(F_{1}(X_{1}),F_{2}(X_{2}))]-1}

Man bemerke, dass τ {\displaystyle \tau } unabhängig von den Randverteilungen des Zufallsvektors ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} ist. Der Wert hängt daher nur von seiner Copula ab.

Empirisches Kendall’sches Tau

Um das empirische τ {\displaystyle \tau } zu berechnen, betrachten wir Paare von nach x {\displaystyle x} sortierten Beobachtungen ( x i , y i ) {\displaystyle (x_{i},y_{i})} und ( x j , y j ) {\displaystyle (x_{j},y_{j})} mit i = 1 , , n 1 {\displaystyle i=1,\ldots ,n-1} und j = i + 1 , , n {\displaystyle j=i+1,\ldots ,n} . Es gilt also:

x 1 x 2 x n . {\displaystyle x_{1}\leq x_{2}\leq \ldots \leq x_{n}.}

Dann wird das Paar 1 mit allen folgenden Paaren ( 2 , 3 , , n {\displaystyle 2,3,\ldots ,n} ) verglichen, das Paar 2 mit allen folgenden Paaren ( 3 , , n {\displaystyle 3,\ldots ,n} ) usw. Es werden also insgesamt n ( n 1 ) / 2 {\displaystyle n(n-1)/2} Paarvergleiche durchgeführt. Gilt für ein Paar:

  • x i < x j {\displaystyle x_{i}<x_{j}} und y i < y j {\displaystyle y_{i}<y_{j}} , so heißt es konkordant oder übereinstimmend,
  • x i < x j {\displaystyle x_{i}<x_{j}} und y i > y j {\displaystyle y_{i}>y_{j}} , so heißt es diskonkordant oder uneinig,
  • x i x j {\displaystyle x_{i}\neq x_{j}} und y i = y j {\displaystyle y_{i}=y_{j}} , so ist es eine Bindung in Y {\displaystyle Y} ,
  • x i = x j {\displaystyle x_{i}=x_{j}} und y i y j {\displaystyle y_{i}\neq y_{j}} , so ist es eine Bindung in X {\displaystyle X} und
  • x i = x j {\displaystyle x_{i}=x_{j}} und y i = y j {\displaystyle y_{i}=y_{j}} , so ist es eine Bindung in X {\displaystyle X} und Y {\displaystyle Y} .

Die Anzahl der Paare, die

  • konkordant oder übereinstimmend sind, wird mit C {\displaystyle C} ,
  • diskonkordant oder uneinig sind, wird mit D {\displaystyle D} ,
  • die Bindungen in Y {\displaystyle Y} sind, wird mit T Y {\displaystyle T_{Y}} ,
  • die Bindungen in X {\displaystyle X} sind, wird mit T X {\displaystyle T_{X}} und
  • die Bindungen in X {\displaystyle X} und Y {\displaystyle Y} sind, wird mit T X Y {\displaystyle T_{XY}} bezeichnet.

Das Kendall’sche τ {\displaystyle \tau } Werte vergleicht nun die Zahl der konkordanten und der diskonkordanten Paare:

τ = C D ( C + D + T X ) ( C + D + T Y ) {\displaystyle \tau ={\frac {C-D}{\sqrt {(C+D+T_{X})\cdot (C+D+T_{Y})}}}}

Ist das Kendall’sche τ {\displaystyle \tau } positiv, so gibt es mehr konkordante Paare als diskonkordante, d. h. es ist wahrscheinlich, dass wenn x i x j {\displaystyle x_{i}\leq x_{j}} ist, dann auch y i y j {\displaystyle y_{i}\leq y_{j}} gilt. Ist das Kendall’sche Tau τ {\displaystyle \tau } negativ, so gibt es mehr diskonkordante Paare als konkordante, d. h. es ist wahrscheinlich, dass wenn x i x j {\displaystyle x_{i}\leq x_{j}} ist, dann auch y i y j {\displaystyle y_{i}\geq y_{j}} gilt. Der Wert ( C + D + T X ) ( C + D + T Y ) {\displaystyle {\sqrt {(C+D+T_{X})\cdot (C+D+T_{Y})}}} normiert das Kendall’sche τ {\displaystyle \tau } , so dass gilt:

1 τ + 1. {\displaystyle -1\leq \tau \leq +1.}

Test des Kendall’schen Taus

Betrachtet man die Zufallsvariable τ {\displaystyle \tau } , so hat Kendall herausgefunden, dass für den Test

H 0 : τ = 0 {\displaystyle H_{0}\colon \tau =0} vs. H 1 : τ 0 {\displaystyle H_{1}\colon \tau \neq 0}

diese unter Nullhypothese approximativ normalverteilt ist: T N ( 0 ; 4 n + 10 9 n ( n 1 ) ) {\displaystyle \mathrm {T} \sim {\mathcal {N}}\left(0;{\frac {4n+10}{9n(n-1)}}\right)} . Neben dem approximativen Test kann auch ein exakter Permutationstest durchgeführt werden.

Weitere τ-Koeffizienten

Mit den obigen Definitionen hatte Kendall insgesamt drei τ {\displaystyle \tau } -Koeffizienten definiert:

Kendalls τ a = C D n ( n 1 ) / 2 {\displaystyle {\text{Kendalls}}\tau _{a}={\frac {C-D}{n(n-1)/2}}}
Kendalls τ b = C D C + D + T x C + D + T y {\displaystyle {\text{Kendalls}}\tau _{b}={\frac {C-D}{{\sqrt {C+D+T_{x}}}{\sqrt {C+D+T_{y}}}}}} (siehe oben)
Kendalls τ c = 2 m ( C D ) ( m 1 ) n 2 {\displaystyle {\text{Kendalls}}\tau _{c}={\frac {2m(C-D)}{(m-1)n^{2}}}}

Das Kendall’sche Tau τ a {\displaystyle \tau _{a}} kann nur auf Daten ohne Bindungen angewandt werden. Das Kendall’sche τ b {\displaystyle \tau _{b}} erreicht auf nicht quadratischen Kontingenztabellen nicht die Extremwerte + 1 {\displaystyle +1} bzw. 1 {\displaystyle -1} und berücksichtigt, da T x y {\displaystyle T_{xy}} nicht einfließt, keine Bindungen in X {\displaystyle X} und Y {\displaystyle Y} . Bei Vierfeldertafeln ist τ b {\displaystyle \tau _{b}} mit dem Vierfelderkoeffizienten Φ {\displaystyle \Phi } (Phi) und, wenn die Ausprägungen der beiden dichotomen Variablen jeweils mit 0 und 1 kodiert sind, auch mit dem Pearson’schen Korrelationskoeffizienten identisch.

Tetra- und polychorische Korrelation

Im Zusammenhang mit Likert-Items wird oft auch die tetra- (bei zwei binären Variablen) oder polychorische Korrelation berechnet. Dabei geht man davon aus, dass z. B. bei einer Frage mit der Antwortform (Trifft überhaupt nicht zu, …, Trifft vollständig zu) die Befragten eigentlich in einem metrischen Sinn geantwortet hätten, aber aufgrund der Antwortform sich für eine der Alternativen entscheiden mussten.

Das heißt hinter den beobachteten Variablen X i {\displaystyle X_{i}\,} , die ordinal sind, stehen also unbeobachtete intervallskalierte Variablen X i {\displaystyle X_{i}^{*}} . Die Korrelation zwischen den unbeobachteten Variablen heißt tetra- oder polychorische Korrelation.

Die Anwendung der tetra- bzw. polychorischen Korrelation bei Likert-Items empfiehlt sich, wenn die Zahl der Kategorien bei den beobachteten Variablen kleiner als sieben ist.[4] In der Praxis wird stattdessen oft der Bravais-Pearson-Korrelationskoeffizient zu Berechnung der Korrelation benutzt, jedoch kann man zeigen, dass damit die wahre Korrelation unterschätzt wird.[5]

Schätzverfahren für die tetra- oder polychorische Korrelation

Unter der Annahme, dass die unbeobachteten Variablen X i {\displaystyle X_{i}^{*}} paarweise bivariat normalverteilt sind, kann man mit Hilfe der Maximum-Likelihood-Methode die Korrelation zwischen den unbeobachteten Variablen schätzen. Dafür gibt es zwei Verfahren:

  1. Man schätzt zuerst die Intervallgrenzen für jede Kategorie für jede unbeobachtete Variable X i {\displaystyle X_{i}^{*}} (unter Annahme der univariaten Normalverteilung für die jeweilige unbeobachtete Variable). Danach wird in einem zweiten Schritt die Korrelation mit den zuvor geschätzten Intervallgrenzen nur noch die Korrelation mit der Maximum-Likelihood-Methode geschätzt (twostep Methode).
  2. Sowohl die unbekannten Intervallgrenzen als auch die unbekannte Korrelation gehen als Parameter in die Maximum-Likelihood-Funktion ein. Sie werden dann in einem Schritt geschätzt.

Approximationsformel für die tetrachorische Korrelation

X 1 {\displaystyle X_{1}} \ X 2 {\displaystyle X_{2}} 0 1
0 n 00 {\displaystyle n_{00}} n 10 {\displaystyle n_{10}}
1 n 01 {\displaystyle n_{01}} n 11 {\displaystyle n_{11}}

Für zwei binäre Variablen kann mit Hilfe der Kreuztabelle rechts eine Näherungsformel für die tetrachorische Korrelation angegeben werden:

r t e t = cos ( π 1 + n 00 n 11 n 01 n 10 ) {\displaystyle r_{tet}=\cos \left({\frac {\pi }{1+{\sqrt {\frac {n_{00}n_{11}}{n_{01}n_{10}}}}}}\right)}

Eine Korrelation von r t e t = 1 {\displaystyle r_{tet}=-1} liegt genau dann vor, wenn n 00 = n 11 = 0 {\displaystyle n_{00}=n_{11}=0} . Entsprechend liegt eine Korrelation von r t e t = + 1 {\displaystyle r_{tet}=+1} genau dann vor, wenn n 01 = n 10 = 0 {\displaystyle n_{01}=n_{10}=0} .

Einzelnachweise

  1. Fahrmeir et al.: Statistik. 2004, S. 142.
  2. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 3. Auflage. 2013, S. 303.
  3. D. Horn: A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 1942, S. 686–690.
  4. D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki: The Analysis and Interpretation of Multivariate Data for Social Scientists. Chapman & Hall / CRC, 2002
  5. K. G. Jöreskog, D. Sorbom: PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville 1988