Coeficiente de correlação tau de Kendall

Estatística
  • v
  • d
  • e

Em estatística, o coeficiente de correlação de postos de Kendall, comumente chamado de coeficiente tau de Kendall (devido à letra grega τ), é uma estatística usada para medir a correlação de postos entre duas quantidades medidas. Um teste tau é um teste de hipóteses não paramétrico referente à dependência estatística baseada no coeficiente tau.

É uma medida de correlação de postos, ou seja, verifica a semelhança entre as ordens dos dados quando classificados por cada uma das quantidades. Recebe este nome em homenagem ao estatístico britânico Maurice Kendall, que o desenvolveu em 1938.[1] O filósofo alemão Gustav Fechner propôs uma medida semelhante no contexto das séries temporais em 1897.[2]

Intuitivamente, a correlação de Kendall entre duas variáveis será elevada se as observações tiverem uma classificação semelhante (ou idêntica no caso de correlação igual a 1), comparadas as duas variáveis. Por classificação, entende-se a descrição das posições relativas das observações no interior de cada variável. A correlação de Kendall será baixa quando as observações tiverem uma classificação diferente (ou completamente diferente no caso de correlação igual a -1) comparadas as duas variáveis.[3]

Tanto o coeficiente τ {\displaystyle \tau } , como o coeficiente ρ {\displaystyle \rho } de Spearman podem ser formulados como casos especiais de um coeficiente de correlação geral.

Definição

Considere ( x 1 , y 1 ) {\displaystyle (x_{1},y_{1})} , ( x 2 , y 2 ) {\displaystyle (x_{2},y_{2})} , ..., ( x n , y n ) {\displaystyle (x_{n},y_{n})} um conjunto de observações das variáveis aleatórias conjuntas X {\displaystyle X} e Y {\displaystyle Y} respectivamente, tal que todos os valores de ( x i ) {\displaystyle (x_{i})} e ( y i ) {\displaystyle (y_{i})} sejam únicos. Qualquer par de observações ( x i , y i ) {\displaystyle (x_{i},y_{i})} e ( x j , y j ) {\displaystyle (x_{j},y_{j})} , em que i j {\displaystyle i\neq j} , é concordante se as classificações de ambos os elementos concordarem uma com a outra, isto é, se x i > x j {\displaystyle x_{i}>x_{j}} e y i > y j {\displaystyle y_{i}>y_{j}} ou se x i < x j {\displaystyle x_{i}<x_{j}} e y i < y j {\displaystyle y_{i}<y_{j}} . Elas são discordantes se x i > x j {\displaystyle x_{i}>x_{j}} e y i < y j {\displaystyle y_{i}<y_{j}} ou se x i < x j {\displaystyle x_{i}<x_{j}} e y i > y j {\displaystyle y_{i}>y_{j}} . Se x i = x j {\displaystyle x_{i}=x_{j}} ou y i = y j {\displaystyle y_{i}=y_{j}} , o par não é nem concordante, nem discordante.

O coeficiente τ {\displaystyle \tau } de Kendall é definido como:

τ = ( quantidade de pares concordantes ) ( quantidade de pares discordantes ) n ( n 1 ) / 2 . {\displaystyle \tau ={\frac {({\text{quantidade de pares concordantes}})-({\text{quantidade de pares discordantes}})}{n(n-1)/2}}.} [4]

Propriedades

  • O denominador é o número total de combinações de pares, então, o coeficiente deve estar no intervalo 1 τ 1 {\displaystyle -1\leq \tau \leq 1} .
  • Se a concordância entre as duas classificações for perfeita (isto é, se as duas classificações forem iguais), o coeficiente tem valor 1.
  • Se a discordância entre as duas classificações for perfeita (isto é, se uma classificação for o reverso da outra), o coeficiente tem valor -1.
  • Se X {\displaystyle X} e Y {\displaystyle Y} forem independentes, espera-se que o coeficiente seja próximo de zero.

Teste de hipóteses

O coeficiente de postos de Kendall é frequentemente usado como uma estatística de teste em um teste de hipóteses para estabelecer se duas variáveis podem ser consideradas estatisticamente dependentes. O teste é não paramétrico, já que não se apoia em pressupostos sobre as distribuições de X {\displaystyle X} ou Y {\displaystyle Y} ou a distribuição de ( X , Y ) {\displaystyle (X,Y)} .

Sob a hipótese nula da independência de X {\displaystyle X} e Y {\displaystyle Y} , a distribuição amostral de τ {\displaystyle \tau } tem valor esperado igual a zero.[5] Esta distribuição não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada com exatidão para pequenas amostras.[6] No caso de amostras maiores, é comum usar uma aproximação da distribuição normal com média zero e variância igual a:

2 ( 2 n + 5 ) 9 n ( n 1 ) {\displaystyle {\frac {2(2n+5)}{9n(n-1)}}} .[7]

Repetições

Um par { ( x i , y i ) , ( x j , y j ) } {\displaystyle \{(x_{i},y_{i}),(x_{j},y_{j})\}} é considerado empatado se x i = x j {\displaystyle x_{i}=x_{j}} ou y i = y j {\displaystyle y_{i}=y_{j}} . Um par empatado não é concordante, nem discordante. Quando pares empatados aparecem nos dados, o coeficiente pode ser modificado de várias maneiras para que se mantenha no intervalo [ 1 , 1 ] {\displaystyle [-1,1]} .

Tau-a

A estatística de Tau-a testa a razão de possibilidades de tabelas de contingência. Ambas as variáveis devem ser ordinais. Tau-a não fará ajustes para empates. É definida como:

τ A = n c n d n 0 {\displaystyle \tau _{A}={\frac {n_{c}-n_{d}}{n_{0}}}}

em que n c {\displaystyle n_{c}} , n d {\displaystyle n_{d}} e n 0 {\displaystyle n_{0}} são definidas na próxima seção.

Tau-b

A estatística de Tau-b, diferentemente de Tau-a, faz ajustes para empates.[8] Valores de Tau-b variam entre -1 (associação 100% negativa ou inversão perfeita) e +1 (associação 100% positiva ou concordância perfeita). Sendo igual a zero, indica ausência de associação.

O coeficiente Tau-b de Kendall é definido como:

τ B = n c n d ( n 0 n 1 ) ( n 0 n 2 ) {\displaystyle \tau _{B}={\frac {n_{c}-n_{d}}{\sqrt {(n_{0}-n_{1})(n_{0}-n_{2})}}}}

em que

  • n 0 = n ( n 1 ) / 2 {\displaystyle n_{0}=n(n-1)/2} ;
  • n 1 = i t i ( t i 1 ) / 2 {\displaystyle n_{1}=\sum _{i}t_{i}(t_{i}-1)/2} ;
  • n 2 = j u j ( u j 1 ) / 2 {\displaystyle n_{2}=\sum _{j}u_{j}(u_{j}-1)/2} ;
  • n c {\displaystyle n_{c}} é o número de pares concordantes;
  • n d {\displaystyle n_{d}} é o número de pares discordantes;
  • t i {\displaystyle t_{i}} é o número de valores empatados no i {\displaystyle i} -ésimo grupo de empates para a primeira quantidade;
  • u j {\displaystyle u_{j}} é o número de valores empatados no j {\displaystyle j} -ésimo grupo de empates para a segunda quantidade.

Tau-c

A estatística de Tau-c (também chamada de Tau-c de Stuart-Kendall) difere de Tau-b na medida em que é mais adequada para tabelas retangulares do que para tabelas quadradas.

Testes de significância

Quando duas quantidades são estatisticamente independentes, a distribuição de τ {\displaystyle \tau } não é facilmente caracterizável em termos de distribuições conhecidas.[9] Entretanto, para τ A {\displaystyle \tau _{A}} , a seguinte estatística, z A {\displaystyle z_{A}} , é aproximadamente distribuída como uma normal padrão quando as variáveis são estatisticamente independentes:

z A = 3 ( n c n d ) n ( n 1 ) ( 2 n + 5 ) / 2 {\displaystyle z_{A}={3(n_{c}-n_{d}) \over {\sqrt {n(n-1)(2n+5)/2}}}}

Assim, para testar se as duas variáveis são estatisticamente dependentes, computa-se z A {\displaystyle z_{A}} e encontra-se a probabilidade cumulativa para a distribuição normal padrão em | z A | {\displaystyle -|z_{A}|} . Para um teste bicaudal, multiplica-se aquele número por dois para obter o valor-p. Se o valor-p, estiver abaixo de um dado nível de significância, rejeita-se a hipótese nula (àquele nível de significância) de que as quantidades são estatisticamente independentes.

Numerosos ajustes devem ser acrescentados a z A {\displaystyle z_{A}} quando se levam em conta os empates. A seguinte estatística, z B {\displaystyle z_{B}} , tem distribuição igual à distribuição τ B {\displaystyle \tau _{B}} e é mais uma vez aproximadamente igual à distribuição normal padrão quando as quantidades forem estatisticamente independentes:

z B = n c n d v {\displaystyle z_{B}={n_{c}-n_{d} \over {\sqrt {v}}}}

em que

  • v = ( v 0 v t v u ) / 18 + v 1 + v 2 {\displaystyle v=(v_{0}-v_{t}-v_{u})/18+v_{1}+v_{2}} ;
  • v 0 = n ( n 1 ) ( 2 n + 5 ) {\displaystyle v_{0}=n(n-1)(2n+5)} ;
  • v t = i t i ( t i 1 ) ( 2 t i + 5 ) {\displaystyle v_{t}=\sum _{i}t_{i}(t_{i}-1)(2t_{i}+5)} ;
  • v u = j u j ( u j 1 ) ( 2 u j + 5 ) {\displaystyle v_{u}=\sum _{j}u_{j}(u_{j}-1)(2u_{j}+5)} ;
  • v 1 = i t i ( t i 1 ) j u j ( u j 1 ) / ( 2 n ( n 1 ) ) {\displaystyle v_{1}=\sum _{i}t_{i}(t_{i}-1)\sum _{j}u_{j}(u_{j}-1)/(2n(n-1))} ;
  • v 2 = i t i ( t i 1 ) ( t i 2 ) j u j ( u j 1 ) ( u j 2 ) / ( 9 n ( n 1 ) ( n 2 ) ) {\displaystyle v_{2}=\sum _{i}t_{i}(t_{i}-1)(t_{i}-2)\sum _{j}u_{j}(u_{j}-1)(u_{j}-2)/(9n(n-1)(n-2))} .

Ver também

Referências

  1. Kendall, M. G. (1 de junho de 1938). «A NEW MEASURE OF RANK CORRELATION». Biometrika. 30 (1-2): 81–93. ISSN 0006-3444. doi:10.1093/biomet/30.1-2.81 
  2. Kruskal, William H. (1 de dezembro de 1958). «Ordinal Measures of Association». Journal of the American Statistical Association. 53 (284): 814–861. ISSN 0162-1459. doi:10.2307/2281954 
  3. Kendall, Maurice George (1 de janeiro de 1970). Rank Correlation Methods (em inglês). [S.l.]: Griffin. ISBN 9780852641996 
  4. «Kendall tau metric - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017 
  5. Daniel, Wayne W. (1990). Applied nonparametric statistics (em inglês). [S.l.]: PWS-Kent Publ. ISBN 9780534919764 
  6. Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/bf02294183 
  7. «Kendall coefficient of rank correlation - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017 
  8. Agresti, Alan (6 de julho de 2012). Analysis of Ordinal Categorical Data (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118209998 
  9. Abdi, Hervé (2007). «The Kendall Rank Correlation Coefficient». In: Salkind, Neil. Encyclopedia of Measurement and Statistics (PDF). Thousand Oaks (Califórnia): Sage. Consultado em 21 de junho de 2017 

Ligações externas

  • Software on-line para computar coeficiente de correlação tau de Kendall
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de probabilidade e estatística