Tableau de contingence

Tableau de contingence
Type
TableauVoir et modifier les données sur Wikidata
Inventeur
Karl PearsonVoir et modifier les données sur Wikidata

modifier - modifier le code - modifier WikidataDocumentation du modèle

Un tableau de contingence est une méthode de représentation de données issues d’un comptage permettant d'estimer la dépendance entre deux caractères. Elle consiste à croiser deux caractères d'une population (par exemple une classe d'âge et un score) en dénombrant l'effectif correspondant à la conjonction « caractère 1 » et « caractère 2 ».

Les effectifs partiels sont rassemblés dans un tableau à double entrée, par ligne pour le premier caractère, et par colonne en fonction du second caractère : c'est le « tableau de contingence ».

Cet outil simple répond à un problème crucial en statistique : la détection d’éventuelles dépendances entre les qualités relevées sur les individus d'une population. L’existence de dépendances conditionnelles suggère en effet la possibilité de stocker les résultats d'un sondage de façon plus condensée[1].

La notion de tableau croisé dynamique, proposée par les tableurs, est une généralisation du tableau de contingence classique.

L'expression tableau de contingence a été introduite par le statisticien britannique Karl Pearson dans un essai intitulé On the Theory of Contingency and Its Relation to Association and Normal Correlation[2], en 1904.

Exemple

On pratique des études sur plusieurs caractères, en essayant alors de déterminer s'il existe une quelconque liaison entre eux. Pour cela on étudie les individus recensant plusieurs caractères à la fois.

Par exemple, l’âge et le nombre de fois où l’on tombe malade sont-ils liés ?

Âge / Malade 0 fois 1 fois 2 fois 3 fois 4 fois
20 ≤ âge < 30 ans 4 individus 2 individus 2 individus 1 individu 1 individu
30 ≤ âge < 40 ans 4 3 3 1 1
40 ≤ âge < 50 ans 7 2 1 0 0
50 ≤ âge < 60 ans 3 2 1 1 1
âge ≥ 60 ans 0 0 0 1 1

Application aux probabilités conditionnelles

Le tableau de contingence amène naturellement à la notion de probabilité conditionnelle dans le cas discret.

Avec un tableau de p lignes et q colonnes, si l'on note nij l'effectif à l'intersection de la i-ème ligne (avec p lignes) et de la j-ème colonne, le nombre total d'individus triés par le tableau est : n = i = 1 p j = 1 q n i j {\displaystyle n=\sum _{i=1}^{p}\sum _{j=1}^{q}n_{ij}}

De même, on peut calculer les totaux par ligne n i . = j = 1 q n i j {\displaystyle n_{i.}=\sum _{j=1}^{q}n_{ij}} et par colonne : n . j = i = 1 p n i j {\displaystyle n_{.j}=\sum _{i=1}^{p}n_{ij}}

L'effectif partiel nij représente un pourcentage fij de l'effectif total :

f i j = n i j n {\displaystyle f_{ij}={\frac {n_{ij}}{n}}}


On peut regarder ce pourcentage comme une probabilité (puisque i = 1 p j = 1 q f i j = 1 {\displaystyle \sum _{i=1}^{p}\sum _{j=1}^{q}f_{ij}=1} ) : c'est la probabilité conjointe qu'un individu de la population étudiée remplisse simultanément le critère associé à la ligne i (Li) et à la colonne j (Cj).

f i j = ( L i e t C j ) {\displaystyle f_{ij}=\wp (L_{i}\quad et\quad C_{j})}


n i . n {\displaystyle {\frac {n_{i.}}{n}}} est la probabilité qu'un individu réponde à la condition Li.
n i j n . j {\displaystyle {\frac {n_{ij}}{n_{.j}}}} est une probabilité conditionnelle : c'est la probabilité qu'un individu réponde à la condition Li sachant qu'il respecte la condition Cj.

n i j n . j = ( L i | C j ) {\displaystyle {\frac {n_{ij}}{n_{.j}}}=\wp (L_{i}|C_{j})}


et de même :

n i j n i . = ( C j | L i ) {\displaystyle {\frac {n_{ij}}{n_{i.}}}=\wp (C_{j}|L_{i})}


On a donc :

( L i | C j ) = n i j n . j = n i j n i . × n i . n n . j n = ( C j | L i ) × ( L i ) ( C j ) {\displaystyle \wp (L_{i}|C_{j})={\frac {n_{ij}}{n_{.j}}}={\frac {{\frac {n_{ij}}{n_{i.}}}\times {\frac {n_{i.}}{n}}}{\frac {n_{.j}}{n}}}={\frac {\wp (C_{j}|L_{i})\times \wp (L_{i})}{\wp (C_{j})}}}


qui est la formule de Bayes.

  • Exemple

Avec l'exemple précédent, n = 42 et l'on a par exemple les résultats suivants :

  • P (l'individu a entre 30 et 40 ans) = 12/42 = 2/7
  • P (2 arrêts maladie)= 7/42 = 1/6
  • P (l'individu a entre 30 et 40 ans | 2 arrêts maladie) = 3/7
  • P (2 arrêts maladie | l'individu a entre 30 et 40 ans)= 3/12 = 1/4.

Notes et références

Notes

  1. Cf. à ce sujet Steffen L. Lauritzen, Lectures on Contingency Tables, (réimpr. 1979, 1982, 1989) (lire en ligne)
  2. Karl Pearson, « Mathematical contributions to the theory of evolution », sur The Internet Archive, Dulau & Co.,

Bibliographie

  • Jérôme Pagès, Statistique générale pour utilisateurs, vol. 1 : Méthodologie, Pr. Univ. de Rennes, coll. « Pratique de la statistique », (réimpr. 2010, 2e éd. revue et augmentée), 264 p. (ISBN 978-2-7535-1215-3 et 2-7535-1215-9)
  • Xavier Bry, Analyse factorielle des données, Paris, éd. Economica, , 112 p. (ISBN 2-7178-2859-1)

Articles connexes

Sur les autres projets Wikimedia :

  • tableau de contingence, sur le Wiktionnaire
v · m
Index du projet probabilités et statistiques
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
  • icône décorative Portail des probabilités et de la statistique