Professional Documents
Culture Documents
Ricco.Rakotomalala@univ-lyon2.fr
+ +
- + + Le sous-groupe Gi est complètement pur
+ - - du point de vue de Y, il ne possède que des
-+ -+ + + + + individus portant la valeur + de Y
+++ si ( ω ∈G i ) alors ( Y = + )
-+ - +
-
- + L’idée est de trouver le plus rapidement
Possible (avec le moins de variables)
Gi des groupes où P(Y=+) # 1
xi,1 L xi,Li
Y1
M nk,l = card({ω ∈Ωa / Y (ω) = Yk et Xi (ω) = Xi,l })
X * = arg max χ 2 Y , X i
i =1,K, p
YK
avantagés
n ( K − 1)( Li − 1)
(le t de Tschuprow varie entre 0 et 1)
Equipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 4
Arbres de décision – Traitement des variables continues
Comment est réalisé le choix du point de coupure
(ex: d ’où vient la valeur 48.5 de découpage de l ’âge dans l ’arbre exemple)
40 48.5
O O N N O
35 45 52 60 70 âge
Définit le tableau
de contingence
age< 40 age≥ 40 age< 48.5 age≥ 48.5
Inf . = oui 1 2 Inf . = oui 2 1
Inf . = non 0 2 Inf . = non 0 2 ...
χ 2Infarctus, Age<40 χ 2Infarctus, Age<48.5
H 0 : Y et X * indépendants
Comment fixer le risque du test ?
H1 :Y est lié avec X *
Avantages :
• non paramétrique
• traitement indifférencié selon le type des variables
• robuste face aux données aberrantes
• rapidité intéressante sur des bases de taille moyenne
Inconvénients :