You are on page 1of 55

Autour des tableaux de contingence Etude de la liaison entre deux variables

Chapitre 3. Les distributions à deux variables

Jean-François Coeurjolly
http://www-ljk.imag.fr/membres/Jean-Francois.Coeurjolly/

Laboratoire Jean Kuntzmann (LJK), Grenoble University


Autour des tableaux de contingence Etude de la liaison entre deux variables

1 Autour des tableaux de contingence


Définition
Distributions conditionnelles
Relations entre les différentes fréquences
Moyennes et Variances conditionnelles

2 Etude de la liaison entre deux variables


Mesure de la dépendance entre deux variables
Définition de l’indépendance totale
Définition de la dépendance totale
χ2 et coefficient de Cramer
Mesure de la liaison fonctionnelle
Courbes de régression
Rapport de corrélation
Régression linéaire
Autour des tableaux de contingence Etude de la liaison entre deux variables

Définition

Tableau de contingence

= tableau statistique permettant de présenter deux séries


statistiques simultanément et de manière croisée.
exemple : dans une entreprise de 200 salariés, on étudie les
variables X =âge et Y =salaires.
X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200
X et Y sont des variables continues (regroupées en classes)
On note I le nombre de modalités de X (ici I = 3 ) et J le
nombre de modalités de Y (ici J = 2 ).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Définition

Tableau de contingence (2)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200

i désigne l’indice d’une ligne et j désigne l’indice d’une colonne .


nij désigne l’ effectif partiel .
Exemple : n12 = 6 salariés sont âgés entre 20 et 22 ans et ont
un salaire compris entre 1000 et 1200 e.
on note ni• l’ effectif marginal de X (eff. total en lignes)
et n•j l’ effectif marginal de Y (effectif total en colonnes).
Exemple : n2• = 74 salariés sont âgés entre 22 et 24 ans ;
n•1 = 62 salariés ont un salaire ente 800 et 1000e.
n = n•• correspond à l’effectif total.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Définition

Tableau de contingence (3)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200
Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J

J
X
ni• = nij
j =1
I
X
ni• = nij
i=1
I
X J
X I X
X J
n = n•• = ni• = n•j = nij .
i=1 j =1 i=1 j =1
Autour des tableaux de contingence Etude de la liaison entre deux variables

Définition

Fréquences partielles et marginales


BLes fréquences sont notées entre parenthèses.
X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 7 %) 6 ( 3 %) 20 ( 10 %)
[22, 24[ (i = 2) 28 ( 14 %) 46 ( 23 %) 74 ( 37 %)
[24, 26[ (i = 3) 20 ( 10 %) 86 ( 43 %) 106 ( 53 %)
Total 62 ( 31 %) 138 ( 69 %) 200 (100%)

fij désigne la fréquence partielle .


Exemple : f12 = 3% des salariés sont âgés entre 20 et 22 ans et
ont un salaire compris entre 1000 et 1200 e.
on note fi• la fréquence marginale de X (fréq. totale en
lignes) et f•j la fréquence marginale de Y (fréq. totale en
colonnes).
Exemple : f2• = 37% des salariés sont âgés entre 22 et 24 ans ;
f•1 = 31% des individus ont un salaire ente 800 et 1000e.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Définition

Fréquences partielles et marginales (2)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 (7%) 6 (3%) 20 (10%)
[22, 24[ (i = 2) 28 (14%) 46 (23%) 74 (37%)
[24, 26[ (i = 3) 20 (10%) 86 (43%) 106 (53%)
Total 62 (31%) 138 (69%) 200 (100%)
Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J

nij  6 
fij = ex : 3% =
n 200
J J
ni• X nij X  74 
fi• = = = fij ex : 37% = = 14% + 23%
n j =1
n j =1
200
I I
n•j X nij X  62 
f•j = = = fij ex : 31% = = 7% + 14% + 10%
n i=1
n i=1
200
Autour des tableaux de contingence Etude de la liaison entre deux variables

Définition

Fréquences partielles et marginales (3)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 (7%) 6 (3%) 20 (10%)
[22, 24[ (i = 2) 28 (14%) 46 (23%) 74 (37%)
[24, 26[ (i = 3) 20 (10%) 86 (43%) 106 (53%)
Total 62 (31%) 138 (69%) 200 (100%)

La distribution marginale de X est représentée par la colonne


“total” (fréquences bleues).
La distribution marginale de Y est représentée par la ligne
“total” (fréquences vertes).
Ce sont bien des distributions car lorsque l’on somme les fi•
ou les f•j , on obtient 100%.
⇒ puisqu’on a une distribution, on peut calculer tous les
indicateurs du chapitre précédent.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Distributions conditionnelles

Généralités

Une distribution conditionnelle est une distribution


statistique obtenue en restreignant la population à un
événement particulier (une classe par exemple).
J = 2 ⇒ il y a deux distributions conditionnelles de X par
rapport à Y .
1 la distribution de X sachant Y ∈ [800, 1000[.
2 la distribution de X sachant Y ∈ [1000, 1200[.
I = 3 ⇒ il y a trois distributions conditionnelles de Y par
rapport à X
1 la distribution de Y sachant X ∈ [20, 22[.
2 la distribution de Y sachant X ∈ [22, 24[.
3 la distribution de Y sachant X ∈ [24, 26[.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Distributions conditionnelles

Fréquences conditionnelles de X sachant Y


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 22.6 %) 6 ( 4.3 %) 20
[22, 24[ (i = 2) 28 ( 45.2 %) 46 ( 33.3 %) 74
[24, 26[ (i = 3) 20 ( 32.2 %) 86 ( 62.4 %) 106
Total 62 (100%) 138 (100%) 200
On calcule les fréquences des âges en se restreignant à la
sous-population des individus ayant un salaire entre 800 et
1000 e , puis à la sous-population des individus ayant un salaire
entre 1000 et 1200 e .
Les fréquences conditionnelles sont en général notées fi|j
Interprétation :
22.6% des employés ayant un salaire entre 800 et
1000 esont âgés entre 20 et 22 ans.
Parmi les employés ayant un salaire entre 1000 et 1200 e,
62.4% d’entre eux sont âgés entre 24 et 26 ans.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Distributions conditionnelles

Fréquences conditionnelles de X sachant Y (2)

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 (22.6% 6 (4.3%) 20
[22, 24[ (i = 2) 28 (45.2%) 46 (33.3%) 74
[24, 26[ (i = 3) 20 (32.2%) 86 (62.4%) 106
Total 62 (100%) 138 (100%) 200

Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J

nij  14 
fi|j = ex : 22.6% =
n•j 62
Autour des tableaux de contingence Etude de la liaison entre deux variables

Distributions conditionnelles

Fréquences conditionnelles de Y sachant X

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 70 %) 6 ( 30 %) 20 100%
[22, 24[ (i = 2) 28 (37.8 %) 46 ( 62.2 %) 74 100%
[24, 26[ (i = 3) 20 ( 18.9 %) 86 ( 81.1 %) 106 100%
Total 62 138 200

Ces fréquences conditionnelles sont en général notées fj |i

Interprétation :
70% des employés âgés entre 20 et 22 ans ont un salaire
compris entre 800 et 1000 e.
Parmi les employés âgés entre 22 et 24 ans, 62.2% d’entre
eux ont un salaire compris entre 1000 et 1200 e.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Distributions conditionnelles

Fréquences conditionnelles de Y sachant X

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 (70%) 6 (30%) 20 100%
[22, 24[ (i = 2) 28 (37.8%) 46 (62.2%) 74 100%
[24, 26[ (i = 3) 20 (18.9%) 86 (81.1%) 106 100%
Total 62 138 200

Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J

nij  6 
fj |i = ex : 30% =
ni• 20
Autour des tableaux de contingence Etude de la liaison entre deux variables

Relations entre les différentes fréquences

Quelques formules

Rappelons que
nij n•j nij
fij = , f•j = , fi|j =
n n n•j

fij = fi|j × f•j

De la même façon on peut obtenir

fij = fj |i × fi•
Autour des tableaux de contingence Etude de la liaison entre deux variables

Moyennes et Variances conditionnelles

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200

Concentrons-nous sur la variable X : on notera x 1 (ou x |Y ∈[800,1000[ )


et x 2 (ou x |Y ∈[1000,1200[ ) les deux moy. cond. de X sachant Y :
La moyenne de X = la moyenne des moyennes conditionnelles
J
1 X
x= n•j x j .
n j =1

Vérification :
En utilisant la distribution marginale : x ' 23.86 ans .
En utilisant les fréq. conditionnelles, x 1 ' 23.19 ans et
x 2 ' 24.16 ans .
62 × 23.19 + 138 × 24.16
En combinant ' 23.86 ans.
200
Autour des tableaux de contingence Etude de la liaison entre deux variables

Moyennes et Variances conditionnelles

Décomposition de la variance

Notons Varj (X ) les variances conditionnelles de X sachant Y .


Rappelons la formule de décomposition de la variance (qui peut
s’exprimer en fonction des variances conditionnelles) :

J J
1X 1X
Var (X ) = n•j Varj (X ) + n•j (x j − x )2
n j =1 n j =1
| {z } | {z }
variance intra variance inter

La vérification sur l’exemple considéré est laissée en exercice.


Des résultats tout à fait similaires sont bien évidemment valables
pour la variable Y (Bnotez que ceci est possible car Y est
quantitative).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

Généralités

Il y a deux extrêmes du niveau de liaison entre deux variables


(quelles que soient la ou les natures des variables) :
l’ indépendance totale (ou liaison nulle).
la dépendance totale (ou liaison fonctionnelle).
Le but de cette section est de mesurer la dépendance, et de
quantifier en particulier le niveau de proximité par rapport aux
deux cas précédents.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

Définition
1 La variable Y est totalement indépendante de la variable X si
les variations de X n’entraı̂nent pas de variations de Y .
2 La variable X est totalement indépendante de la variable Y si
les variations de Y n’entraı̂nent pas de variations de X .

Théorème
1 Y est totalement indépendante de X si et seulement si
fj |i = f•j
(c-a-d les fréquences conditionnelles ne dépendent pas des lignes
du tableau de contingence et sont égales aux fréquences
marginales).
2 X est totalement indépendante de Y si et seulement si
fi|j = fi•
3 L’indépendance est réciproque .
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

Indépendance et tableau de contingence


Théorème
Les variables X et Y sont indépendantes si et seulement si

ni• × n•j
fij = fi• × f•j ⇐⇒ nij =
n

Corollaire
Un tableau de contingence est associé à deux variables X et Y
indépendantes si et seulement si les lignes (resp. colonnes) sont
proportionnelles entre elles.

Exemple : tableau associé à deux var. indépendantes


X | Y y1 y2 y3 Total On peut par exemple vérifier que
x1 2 4 12 18
x2 4 8 24 36 n2• × n•3 36 × 36
= = 24 = n23 .
Total 6 12 36 54 n 54
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

Dépendance totale

Définition
1 Y est totalement dépendante de X (ou

fonctionnellement liée à X ) si à chaque valeur xi de X


correspond une unique valeur yj de Y , autrement dit si
chaque ligne du tableau de contingence ne contient qu’un
seul effectif nij non nul.
2 X est totalement dépendante de Y (ou
fonctionnellement liée à Y ) si à chaque valeur yj de Y
correspond une unique valeur xi de X , autrement dit si
chaque colonne du tableau de contingence ne contient
qu’un seul effectif nij non nul.
3 BLa dépendance totale n’est pas une notion réciproque
.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

Application à la notion de dépendance


Exemple 1 :

X |Y y1 y2
⇒ Y est totalement
x1 2 0
dépendante de X et la
x2 1 0
réciproque est fausse .
x3 0 1
Exemple 2 :

X |Y y1 y2 y3 ⇒ X est totalement
x1 2 0 0 dépendante de Y et la
x2 0 1 4 réciproque est fausse .
Exemple 3 :

X |Y y1 y2 ⇒ X est totalement
x1 2 0 dépendante de Y et la
x2 0 1 réciproque est vraie .
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer
Définition
Le χ2 est un nombre mesurant l’écart entre la situation observée et la
situation si les variables avaient été théoriquement indépendantes .

Méthodologie :
1 construction du tableau de contingence sous hypothèse
d’indépendance, c-a-d calcul des

ni• × n•j
nij0 =
n
2 on calcule ensuite

J (n − n 0 )2
I X
X ij ij
χ2 =
i=1 j =1
nij0
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer (2)


Théorème
0 ≤ χ2 ≤ χ2max = n × min(I − 1, J − 1).
La quantité χ2max est la valeur du χ2 si la dépendance entre X et Y
était totale et réciproque.

Définition
Le coefficient de Cramer C ∈ [0, 1] est défini par
s
χ2
C =
χ2max

Si C est proche de 0 alors les variables X et Y sont presque


indépendantes .
Si C est proche de 1 , alors les variables X et Y sont fortement liées (pas
nécessairement liées fonctionnellement)
Le C de Cramer peut être calculé pour n’importe quel type de variables X
et Y .
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer (3)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 6.2 ) 6 ( 13.80 ) 20
[22, 24[ (i = 2) 28 ( 22.94 ) 46 ( 51.06 ) 74
[24, 26[ (i = 3) 20 ( 32.86 ) 86 ( 73.14 ) 106
Total 62 138 200
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer (3)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 6.2 ) 6 ( 13.80 ) 20
[22, 24[ (i = 2) 28 ( 22.94 ) 46 ( 51.06 ) 74
[24, 26[ (i = 3) 20 ( 32.86 ) 86 ( 73.14 ) 106
Total 62 138 200

1 calcul des effectifs théoriques nij0 .


Exemple : n320
= n3•n×n•2 = 138×106
200 ' 73.14.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer (3)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 6.2 ) 6 ( 13.80 ) 20
[22, 24[ (i = 2) 28 ( 22.94 ) 46 ( 51.06 ) 74
[24, 26[ (i = 3) 20 ( 32.86 ) 86 ( 73.14 ) 106
Total 62 138 200

1 calcul des effectifs théoriques nij0 .


Exemple : n320
= n3•n×n•2 = 138×106
200 ' 73.14.
2 Calcul du χ2
(14 − 6.2)2 (6 − 13.8)2 (86 − 73.14)2
χ2 = + + ... + ' 23.13.
6.2 13.8 73.14
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer (3)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 6.2 ) 6 ( 13.80 ) 20
[22, 24[ (i = 2) 28 ( 22.94 ) 46 ( 51.06 ) 74
[24, 26[ (i = 3) 20 ( 32.86 ) 86 ( 73.14 ) 106
Total 62 138 200

1 calcul des effectifs théoriques nij0 .


Exemple : n320
= n3•n×n•2 = 138×106
200 ' 73.14.
2 Calcul du χ2
(14 − 6.2)2 (6 − 13.8)2 (86 − 73.14)2
χ2 = + + ... + ' 23.13.
6.2 13.8 73.14

3 χ2max = 200 × min(3 − 1, 2 − 1) = 200 × 1 = 200.


Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer (3)


X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 ( 6.2 ) 6 ( 13.80 ) 20
[22, 24[ (i = 2) 28 ( 22.94 ) 46 ( 51.06 ) 74
[24, 26[ (i = 3) 20 ( 32.86 ) 86 ( 73.14 ) 106
Total 62 138 200

1 calcul des effectifs théoriques nij0 .


Exemple : n320
= n3•n×n•2 = 138×106
200 ' 73.14.
2 Calcul du χ2
(14 − 6.2)2 (6 − 13.8)2 (86 − 73.14)2
χ2 = + + ... + ' 23.13.
6.2 13.8 73.14

3 χ2max = 200 × min(3 − 1, 2 − 1) = 200 × 1 = 200.


q
4 C = 23.13
200 ' 34% (dépendance modérée).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la dépendance entre deux variables

χ2 et Coefficient de Cramer (4)


Question
Quels sont les couples (xi , yj ) qui contribuent le plus au χ2 ?

Réponse : il suffit de calculer pour chaque case le rapport


(nij −n0ij )2
n0ij

χ2
X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 (42.4%) 6 (19.1%) 20
[22, 24[ (i = 2) 28 (4.8%) 46 (2.2%) 74
[24, 26[ (i = 3) 20 (21.8%) 86 (9.8%) 106
Total 62 138 200
Exemple 1ère case : ((6.2 − 14)2 /6.2)/23.13 ' 42.4%.
La case des individus les plus jeunes et touchant le plus bas
salaires s’écarte le plus de l’hypothèse d’indépendance.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Généralités

pour savoir si X et Y sont liées fonctionnellement, on trace


le nuage de points (xi , yi ).
⇒ section valable uniquement pour X et Y quantitatives.
⇒ il faut disposer des données brutes, autrement dit
chaque couple (xi , yi ) est observée une et une seule fois.
Autrement dit, la table de contingence correspondante ne
contient que des 0 ou 1.
On trace alors le nuage de points (xi , yj ) et on essaie
d’estimer la fonction de lien éventuelle.
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple et définition

4

3
X |Y 1 2 3 Total

Y
● ●

2
1 1 0 1 2
2 0 1 0 1 ● ●

1
3 1 1 0 2

0
Total 2 2 1 5
0 1 2 3 4

X
Définition

2
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple et définition

4

3
X |Y 1 2 3 Total

Y
● ● ●

2
1 1 0 1 2 ● CY X

2 0 1 0 1 ● ●

1
3 1 1 0 2

0
Total 2 2 1 5
0 1 2 3 4

X
Définition
1 la courbe de régression de Y en X est obtenue en faisant
correspondre à chaque valeur de xi de X la moy. conditionnelle
de Y sachant X = xi . Cette courbe est notée CY /X .

2
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple et définition

4
● CX

3
Y

X |Y 1 2 3 Total

Y
● ● ● ●

2
1 1 0 1 2 ● CY X

2 0 1 0 1 ● ● ●

1
3 1 1 0 2

0
Total 2 2 1 5
0 1 2 3 4

X
Définition
1 la courbe de régression de Y en X est obtenue en faisant
correspondre à chaque valeur de xi de X la moy. conditionnelle
de Y sachant X = xi . Cette courbe est notée CY /X .
2 la courbe de régression de X en Y est obtenue en faisant
correspondre à chaque valeur de yj de Y la moy. conditionnelle
de X sachant Y = yj . Cette courbe est notée CX /Y .
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Propriétés

Théorème
Si X et Y sont deux variables indépendantes alors CY /X
est parallèle à l’axe des abscisses et la courbe CX /Y est
parallèle à l’axe des ordonnées (Bréciproque fausse).
Si aucun point ne s’écarte de CY /X , Y totalement
dépendante de X ( Y = f (X ) ).
Si aucun point ne s’écarte de CX /Y , X totalement
dépendante de Y ( X = f (Y ) ).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Concept basé sur la formule de décomposition de la variance


Var. Totale = Var(moy. cond.) + Moy(Var. Cond.)

Définition
1 Le rapport de corrélation de Y en X est défini par
1
ni• (Y i − Y )2
P
Var (moy. cond. deY |X ) i
η2Y /X = = n
Var (Y ) Var (Y )

2 Le rapport de corrélation de X en Y est défini par


1
n•j (X j − X )2
P
Var (moy. cond. deX |Y ) i
η2X /Y = = n
Var (X ) Var (X )

0 ≤ η2Y /X ≤ 1 et 0 ≤ η2X /Y ≤ 1
Plus η2 est élevé (resp. faible ) et plus la liaison fonctionnelle
est forte (resp. faible )
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200
Démarche pour calculer le rapport de corrélation de X en Y :
calcul des moyenne et variance marginale de X : x ' 23.86
(ans) et Var (X ) ' 1.78 (ans2 ).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200
Démarche pour calculer le rapport de corrélation de X en Y :
calcul des moyenne et variance marginale de X : x ' 23.86
(ans) et Var (X ) ' 1.78 (ans2 ).
calcul des moyennes conditionnelles de X sachant Y ∈ [800, 1000[
et de X sachant Y ∈ [1000, 1200[ : x 1 ' 23.19 (ans) et
x 2 ' 24.16 (ans).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200
Démarche pour calculer le rapport de corrélation de X en Y :
calcul des moyenne et variance marginale de X : x ' 23.86
(ans) et Var (X ) ' 1.78 (ans2 ).
calcul des moyennes conditionnelles de X sachant Y ∈ [800, 1000[
et de X sachant Y ∈ [1000, 1200[ : x 1 ' 23.19 (ans) et
x 2 ' 24.16 (ans).
calcul de la variance interpopulation (var. moy. cond.)
62 × (23.19 − 23.86)2 + 138 × (24.16 − 23.86)2
Var .Inter = ' 0.20 (ans2 ).
200
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total


(j = 1) (j = 2)
[20, 22[ (i = 1) 14 6 20
[22, 24[ (i = 2) 28 46 74
[24, 26[ (i = 3) 20 86 106
Total 62 138 200
Démarche pour calculer le rapport de corrélation de X en Y :
calcul des moyenne et variance marginale de X : x ' 23.86
(ans) et Var (X ) ' 1.78 (ans2 ).
calcul des moyennes conditionnelles de X sachant Y ∈ [800, 1000[
et de X sachant Y ∈ [1000, 1200[ : x 1 ' 23.19 (ans) et
x 2 ' 24.16 (ans).
calcul de la variance interpopulation (var. moy. cond.)
62 × (23.19 − 23.86)2 + 138 × (24.16 − 23.86)2
Var .Inter = ' 0.20 (ans2 ).
200

η2X /Y ' 1.78


0.2
' 11.2%
( 11.2 % de la variance de X est expliquée par la variable Y ).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Régression linéaire
Si le nuage de points observé est ”presque” linéaire, il y a de
fortes chances que la liaison entre X et Y soit linéaire (et que
celle de Y à X soit linéaire).
Exemple : imaginons observer le nuage suivant :


● ●
10


8
6

⇒ On peut suspecter une liaison


y

● ●

linéaire. Pour mesure ceci on
4

● ●
utilise le coefficient de corrélation
2


linéaire.
0

0 2 4 6 8 10

x
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Coefficient de corrélation linéaire


Soit (xi , yi ) pour i = 1, . . . , n un nuage de points. Ce coefficient est
défini par
Cov (X , Y )
r= ∈ [−1, 1]
σX σY
où
n
1X
Cov (X , Y ) = (xi − x )(yi − y) = xy − x × y.
n i=1

Si r est proche de 1 ou -1 , X et Y sont (certainement) liées


linéairement.
Si r > 0 la pente de la droite est > 0. Si r < 0 , la pente de la
droite est < 0.
Si r est proche de 0 , l’ajustement linéaire n’est pas acceptable
(Bce qui ne signifie pas que X et Y ne puissent pas être liées
par une fonction).
r 2 est appelé coefficient de détermination (0 ≤ r 2 ≤ 1).
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Méthode des moindres carrés


Si le coefficient r est jugé acceptable, on peut tenter d’estimer la
droite de régression (de Y en X ) en utilisant la méthode des
moindres carrés

● ●

10

8
on se donne une droite

6
y
● ●

d’équation y = ax + b, la MMC ●

4
● ●
consiste à minimiser la somme
2
des écarts rouges au carré. ●
0

0 2 4 6 8 10

x
Autrement dit, on va chercher le minimum en a et b de la fonction
n
X
f (a, b) = (yi − axi − b)2
i=1
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Solutions au problème
La droite de régression . . .

. . . de Y en X a pour équation y = b
ax + b
b avec
Cov (X , Y )
a=
b b = y −b
et b ax .
Var (X )

. . . de X en Y a pour équation x = b
a 0y + b
b 0 avec
Cov (X , Y )
a0 =
b b0 = x − b
et b a 0 y.
Var (Y )

les deux droites de régression passent par le point (x , y).


On peut remarquer que

Cov (X , Y )2
a0 =
a ×b
b = r 2.
Var (X )Var (Y ))
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application
Le tableau suivant présente les dépenses (dep) des ménages et PIB
(pib) en milliards d’euros pour les 4 trimestres de 2011 et 2012.
Peut-on expliquer l’évolution du PIB en fonction des dépenses ?
dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9



508



504


⇒ L’ajustement linéaire semble
pib

● adéquat et pertinent.
500


496

277 278 279 280 281 282 283

dep
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)

dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)

dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib '
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)

dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)

dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire

R=
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)

dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
9.25
R= √ ' 93.38% (ajustement linéaire très pertinent)
21.61 ∗ 4.54

5 Puisque l’ajustement linéaire est très bon, calculons la droite de régression

a=
b
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)

dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
9.25
R= √ ' 93.38% (ajustement linéaire très pertinent)
21.61 ∗ 4.54

5 Puisque l’ajustement linéaire est très bon, calculons la droite de régression


9.25
a=
b ' 2.04 et b=
b
4.54
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (2)


dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9

Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)

dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
9.25
R= √ ' 93.38% (ajustement linéaire très pertinent)
21.61 ∗ 4.54

5 Puisque l’ajustement linéaire est très bon, calculons la droite de régression


9.25
a=
b ' 2.04 et b = 504 − 2.04 ∗ 280.28 ' −67.77 (M e).
b
4.54
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (3)

dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9


pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9


La droite de régression

508

● pib = 2.04 × dep − 67.77.



504


● passe par le point (dep, pib) .
pib


500


496

277 278 279 280 281 282 283

dep
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (3)

dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9


pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9


La droite de régression

508

● pib = 2.04 × dep − 67.77.



504


● passe par le point (dep, pib) .
pib


Quelle estimation du PIB proposer pour
500

une dep = 279 (Me) ? ⇒



496


d = 2.04 × 279 − 67.77
pib
277 278 279 280 281 282 283
= 501.39 (M e).
dep
Autour des tableaux de contingence Etude de la liaison entre deux variables

Mesure de la liaison fonctionnelle

Exemple d’application (3)

dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9


pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9


La droite de régression

508

● pib = 2.04 × dep − 67.77.



504


● passe par le point (dep, pib) .
pib


Quelle estimation du PIB proposer pour
500

une dep = 279 (Me) ? ⇒



496


d = 2.04 × 279 − 67.77
pib
277 278 279 280 281 282 283
= 501.39 (M e).
dep

You might also like