c8N-Regression Linéaire Multiple

Cours 8:
Régression linéaire multiple
Rappel: Corrélation simple

Objectif:
Étudier l’association entre deux variables continues où
il n y a pas vraiment une distinction entre VI et VD (ex.
corrélation entre agressivité et dépression)
Situations d’usage:
Le même sujet est mesuré deux fois (e.g., a des scores
pour chaque variable: agressivité et dépression)
ou
Deux sujets reliés sont mesurés chacun une fois (e.g.,
on mesure le niveau d’agressivité de la mère et de
l’enfant)
Exemple: Corrélation simple
V1 (Ag. Mère) V2 (Ag. Enfant)
S1 50 30
S2 60 50
S3 80 60
S4 40 20
Calcul de la corrélation Pearson r:

r = cov xy / sx sy
cov xy = ∑ (X-X)(Y-Y) / N-1
r = 300 / (17.08 * 18.26) = .96
Corrélation forte positive Corrélation faible positive

Corrélation forte négative
r = Mesure standardisé d’association

r = .96
r2 = .92
=> 92% de la variabilité des deux variables sont reliés
= Force du lien entre les deux variables
Convention (Cohen):
o petit r = .10
o moyen r = .30
o grand r = .50
r = Mesure standardisé d’association
r et r2 sont des mesures standardisés !!
Æ n’importe quelle échelle de mesure est utilisée,

l’interprétation est toujours la même
Æ Échelle de mesure peut être totalement différente pour les

deux variables
Rappel: Régression linéaire simple

Objectif:
Étudier l’association entre deux variables continues où
une est déclarée la VI et l’autre la VD Î
La régression permet la prédiction d’une variable par
l’autre (ex. l’agressivité de la mère peut-elle prédire
l’agressivité de l’enfant?)
Souvent utilisé dans les plans de recherche
longitudinale
Même situations d’usage que pour la corrélation:
Le même sujet est mesuré deux fois ou Deux sujets
reliés sont mesurés chacun une fois
Exemple: Régression
VI = X (Ag. Mère) VD = Y (Ag. Enfant)
S1 50 30
S2 60 50
S3 80 60
S4 40 20
a X = variable indépendante (= predictor)

a Y = variable dépendante (= criterion)
Équation de Régression
Équation de régression: y = a + bX + e Æ
^y = a + bX
^y = valeur prédite de Y
b = slope ( = la pente de la droite de régression)
a = intercept (= l’ordonnée à l’origine = la valeur de Y
lorsque X = 0)
X = la valeur de X
La droite de régression
^
Y
a b
Calcul de Régression
Équation de régression:
Y = a + bX (+ e)
a = Y – bX
b = cov xy / s2x
Ex.: b = 300 / 291.67 = 1.028

Ex.: a = 40 – (1.028*57.5) = 40 - 59.14 = -19.14
Æ ^y = -19.14 + 1.03X
b = Mesure non standardisé
d’association
Ex.: b = 1.03 pour la prédiction de l’agressivité de l’enfant
à partir de l’agressivité de la mère dans notre étude
b dépend des échelles spécifiques utilisées !!
Æ Peut être différent dans une autre étude sur la même

problématique lorsqu’on utilise d’autres mesures
Æ Difficile à comparer les résultats des différentes études
Solution: β = Mesure standardisé

d’association
Transformation z des échelles
Calcul de b pour des échelles standardisées z (b = β)
Æ β = r dans les régressions simples (avec une VI) = .96
Interprétation de r2 dans régression simple

.92% de la variance de l’agressivité de l’enfant est prédit
par l’agressivité de la mère
!!! Cela ne veut pas signifier la causalité entre les deux

variables
Test de signification de r
Hypothèses: H0: ρ = 0 (r dans la population = 0)
H1: ρ = 0
t = r√ N-2 / √ 1-r2
Ex.:
t = .96*√ 2 / √ 1-.92 = 1.36 / .283 = 4.8
df = N-2 = 2
p=?
Test de signification de b
Hypothèses: H0: b* = 0 (b dans la population = 0)
H1: b* = 0
t = b / seb
Ex.:
t = 1.03 / 0.21 = 4.9
df = N-2 = 2
p=?
Correspondance entre régression
linéaire et ANOVA:
Modèle mathématique de l’ANOVA simple:

Yij = μ + τj + eij
Modèle mathématique de la régression simple:

Y = a + bX + e

linéaire et ANOVA:
Partition de la variance de Y dans l’ANOVA simple:
SS totale =
SS inter (= attribuable à la VI = différence inter groupes) +
SS erreur (= SS résiduelle)
Partition de la variance de Y dans la régression simple:

SSy totale =
SS régression (= SSy attribuable à la variabilité de X) +
SS résiduelle
linéaire et ANOVA:
SSy totale = Σ (y - y)2
SS régression = Σ (^y - y)2
SSresiduelle = Σ (^y - y)2
Source df som.carrés carré moy. Test-F
SSreg 1 925.71 925.71 24.92

SSres 2 74.29 37.14 p=?
total 3 1000.00

linéaire et ANOVA:
Source df som.carrés carré moy. Test-F
SSreg 1 925.71 925.71 24.92

SSres 2 74.29 37.14
total 3 1000.00
F = 24.92 ; √F = t
√ 24.92 = 4.9 = t
Corrélation et régression: Postulats
Échantillon appariés ou mesures reliées (i.e., le
même sujet
Indépendance des scores: score du sujet 1 non
corrélé avec score du sujet 2, et ainsi de suite
Distribution normale des scores d’au moins une
des deux variables
Linéarité de la relation
Homoscédasticité (i.e. variance constante de la VI
1 à chaque niveau de la VI 2)
Homoscédasticité
Utilisation du graphe des valeurs prédites vs.
résiduelles pour le diagnostic Linéarité,
Normalité, Homoscédasticité (LNH)
LNH Non normal
Résiduels
Résiduels
0 0
Prédits Prédits
Résiduels
Résiduels
0 0
Prédits Prédits
Hétéroscédasticité Non linéaire
Facteurs influençant une corrélation/

régression
Existence d’une relation non linéaire

Étendue réduite de la distribution des scores sur
une variable
Utilisation de sous-groupes hétérogènes
Présence des sujets déviants multivariés
(Multivariate outliers!!!) = indiqueé par la
distance de Mahalanobis
o Distance Mahalanobis: Mesure d’extrémité
multivariée avec distribution χ2 , df = nombre des
variables
Régression multiple
Régression multiple: Situations d’usage
Plusieurs variables indépendantes continues

(et parfois aussi catégorielles) et une variable
dépendante continue
(Les VIs peuvent être corrélées ou non)
But: Recherche le degré d’association entre un

ensemble de VIs et une VI et ensuite les
contributions uniques (partielles ou semi-
partielles) de chaque VI à la prédiction de la VD
Rappel: Corrélation simple, partielle et
semi-partielle
V1
a
V3 d
b
c
V2
Simple: R2 V3 - V1 (a+b)/(a+b+c+d)

semi-partielle
V1
a
V3 d
b
c
V2
Simple: R2 V3 - V1 (a+b)/(a+b+c+d)
R2 V3 - V2 ???
semi-partielle
V1
a
V3 d
b
c
V2
Partielle: PR2 V3 - V1 (a)/(a+d)

PR2 V3 - V2 ???

semi-partielle
V1
a
V3 d
b
c
V2
Semi partielle: SR2 V3 - V1 (a)/(a+b+c+d)

SR2 V3 - V2 ???
Régression multiple: Logique
^
Y = b0 + b1X1 + b2X2 …+ bpXp
b0 = Intercept ou a (= valeur de Y lorsque toutes les VI

ont une valeur de 0)
b1 = Coefficient de régression partielle de Y à X1 en
contrôlant pour l’effet des autres VIs sur Y
(autrement dit, lorsque les autres VIs sont à leur
moyenne)
β1 = Coefficient de régression partielle standardisé z
Régression multiple: Postulats
Sujets mesurés sur toutes les variables
Indépendance des scores d’un sujet p.r. à un autre

sujet
LNH, i.e. linéarité, normalité et homoscédasticité

(Se vérifie par l’examen du diagramme des valeurs prédites vs
résiduels)
Taille d’échantillons exigée: N=10xk; N≥k+40

(ou voir tableau de Cohen dans le livre de Field, p. 173)
Régression multiple: Analyses préliminaires
Valeurs extrêmes multivariées:

Examen de la distance de Mahalanobis (valeur χ2
significative à p <= .001) ou de Cook (valeur >= 1)
Multicollinéarité des VIs:

Souvent si corrélation entre deux VI plus élevée que .7
Examen de Tolérance (1- R2x; peut être entre 0 et 1,
idéalement proche à 1) et VIF (idéalement pas beaucoup plus >
que 1)
Solution: Centralisation ou Standardisation-z des

variables
Régression multiple: Interprétation

R2 global: Pourcentage de variance de la VD
expliqué par le modèle (i.e., par l’ensemble des
VIs)
R2 global adj : R2 ajusté (par une pénalité)

tenant compte du nombre de VIs et du N
Test de signification de R2 global:

F = (N-k-1) / k(1-R2) avec df1 = k et df2 = (N-k-1)
Si le R2 global du modèle est significatif Î

Régression multiple: Interprétation (suite)
Test de signification du coefficient de
régression partielle (b ou β) associé à chaque VI
t = bj / sebj
Si b est significatif Î
Examen de l’importance relative de chaque VI:

o La valeur du β associé à la VI
o La valeur de la corrélation semi-partielle de la VI
avec la VD
Les VIs catégorielles dans la
régression simple ou multiple
Exemple 1: VI avec 2 niveaux (sexe)

Représentation de la VI par 1 variable bidon:
(1 = filles; 0 = autre)
Si on a 0, on est automatiquement un garçon
a
Coefficients
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Mode B Std. Error Beta t Sig.
1 (Constant) 32,870 1,023 32,138 ,000
sexe du sujet 1,397 ,656 ,107 2,130 ,034
preference sociale
-,997 ,203 -,248 -4,918 ,000
selon le sexe (soci
a.Dependent Variable: echelle de depression kovac t6
Exemple 2: VI avec 4 niveaux (statut
familial)
1 = célibataire
2 = séparée ou divorcée
3 = conjoint de fait ou mariée
4 = veuve
Représentation de la VI par 3 variables bidons

nouvellement créées:
VB1 (1 = séparée ou divorcée; 0 = autre)

VB2 (1 = conjoint de fait ou mariée; 0 = autre)
VB3 (1 = veuve; 0 = autre)
Si on a 0 dans toutes variables bidons, on est
automatiquement célibataire – tous les groupes sont
alors comparés avec les célibataires
Exemple 2: VI avec 4 niveaux (statut

familial)
a
Coefficients
Standard
zed
UnstandardizedCoefficien
Coefficients ts
Mode B Std. Error Beta t Sig.
1 (Constant) 4,495 ,192 23,377 ,000
hostility 62E-02 ,094 ,064 1,065 ,288
VB1 1,068 ,320 ,205 3,342 ,001
VB2 ,698 ,488 ,087 1,431 ,154
VB3 2,773 ,547 ,311 5,070 ,000
a.Dependent Variable: depression
Types de régression multiple ou Le choix
du modèle d’analyse
Standard, sans sélection: Toutes les VI sont
inclues et le degré de significativité ainsi que la
grandeur de l’effet de chacune sont examinés
Hiérarchique: L’entrée des blocs subséquents de
variables est prédéfini sur la base d’un modèle
théorique ou de priorité basé sur une logique appuyée.
La significativité et la grandeur du changement de R2
associé à chaque nouveau bloc sont évaluées
!! À utiliser avec prudence et très rarement: Les
méthodes de sélection du modèle ‘optimale’:
Plusieurs méthodes (forward/ backward/ stepwise/ best subset)
pour sélectionner une combinaison des VIs dans laquelle
chaque VI contribue significativement à la prédiction de la VD

c8N-Regression Linéaire Multiple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

c8N-Regression Linéaire Multiple

Uploaded by

Copyright:

Available Formats

Cours 8:

Régression linéaire multiple

Rappel: Corrélation simple

 Calcul de la corrélation Pearson r:

Corrélation forte positive Corrélation faible positive

r = Mesure standardisé d’association

Æ n’importe quelle échelle de mesure est utilisée,

Æ Échelle de mesure peut être totalement différente pour les

Rappel: Régression linéaire simple

a X = variable indépendante (= predictor)

Ex.: b = 300 / 291.67 = 1.028

 b dépend des échelles spécifiques utilisées !!

Æ Peut être différent dans une autre étude sur la même

Æ Difficile à comparer les résultats des différentes études

Solution: β = Mesure standardisé

Interprétation de r2 dans régression simple

 !!! Cela ne veut pas signifier la causalité entre les deux

 Modèle mathématique de l’ANOVA simple:

 Modèle mathématique de la régression simple:

Correspondance entre régression

Partition de la variance de Y dans la régression simple:

SS régression = Σ (^y - y)2

SSresiduelle = Σ (^y - y)2

Source df som.carrés carré moy. Test-F

SSreg 1 925.71 925.71 24.92

Correspondance entre régression

SSreg 1 925.71 925.71 24.92

Facteurs influençant une corrélation/

 Existence d’une relation non linéaire

Régression multiple: Situations d’usage

 Plusieurs variables indépendantes continues

 But: Recherche le degré d’association entre un

Rappel: Corrélation simple, partielle et

Partielle: PR2 V3 - V1 (a)/(a+d)

Rappel: Corrélation simple, partielle et

Semi partielle: SR2 V3 - V1 (a)/(a+b+c+d)

b0 = Intercept ou a (= valeur de Y lorsque toutes les VI

Régression multiple: Postulats

 Sujets mesurés sur toutes les variables

 Indépendance des scores d’un sujet p.r. à un autre

 LNH, i.e. linéarité, normalité et homoscédasticité

 Taille d’échantillons exigée: N=10xk; N≥k+40

 Valeurs extrêmes multivariées:

 Multicollinéarité des VIs:

Solution: Centralisation ou Standardisation-z des

Régression multiple: Interprétation

 R2 global adj : R2 ajusté (par une pénalité)

 Test de signification de R2 global:

Si le R2 global du modèle est significatif Î

 Examen de l’importance relative de chaque VI:

Exemple 1: VI avec 2 niveaux (sexe)

Représentation de la VI par 3 variables bidons

 VB1 (1 = séparée ou divorcée; 0 = autre)

Exemple 2: VI avec 4 niveaux (statut

You might also like

Calcul de la corrélation Pearson r:

b dépend des échelles spécifiques utilisées !!

!!! Cela ne veut pas signifier la causalité entre les deux

Modèle mathématique de l’ANOVA simple:

Modèle mathématique de la régression simple:

Existence d’une relation non linéaire

Plusieurs variables indépendantes continues

But: Recherche le degré d’association entre un

Sujets mesurés sur toutes les variables

Indépendance des scores d’un sujet p.r. à un autre

LNH, i.e. linéarité, normalité et homoscédasticité

Taille d’échantillons exigée: N=10xk; N≥k+40

Valeurs extrêmes multivariées:

Multicollinéarité des VIs:

R2 global adj : R2 ajusté (par une pénalité)

Test de signification de R2 global:

Examen de l’importance relative de chaque VI:

VB1 (1 = séparée ou divorcée; 0 = autre)