Arbres de Decision Printable

.
Arbres de décision
Applications en médecine
.
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
michael.genin@univ-lille2.fr
Plan
1. Introduction
2. Méthodologie de construction d’un arbre de décision - CHAID
3. Un coup d’oeil sur la méthode CART
4. Exemples
5. Limites
6. Quelques logiciels
M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 1 / 67

Introduction Contexte
.
Deux familles de méthodes de classification
.
Classification non-supervisée (clustering)
Partitionner les observations en groupes différents (classes, catégories) mais les
plus homogènes possible au regard de variables décrivant les observations.
Le nombre de classes n’est pas connu à l’avance
Méthodes : Classification hiérarchique...
Classification supervisée (discrimination)

Obtenir un critère de séparation afin de prédire l’appartenance à une classe
(Y = f (X ) + ϵ).
Le nombre de classes est connu à l’avance (Variable à expliquer)
Méthodes : Régression logistique, Analyse discriminante, Arbres de décision,
Réseaux de neurones...
.

.
Une approche particulière de la discrimination
.
Outils statistiques intéressants et souvent utilisés en médecine
Une variable à expliquer et un ensemble de variables explicatives
Y = f (X1 , X2 , ..., Xp ) + ϵ
Y quantitative = arbre de régression (famille des régressions non
paramétriques)
Y qualitative = arbre de classement (méthode particulière de discrimination
/ apprentissage supervisé)
.

Comparaison avec les autres méthodes de discrimination

.
Arbres de décision
.
Méthode non linéaire, non
. paramétrique
Régression logistique/Analyse Discriminante
. Prise en compte des interactions
Modèles paramétriques
Tout type de variables explicatives
Additivité des coefficients
Grand nombre de variables
Prise en compte, uniquement, des (méthode pas à pas)
variables explicatives binaires et
quantitatives Résultats graphiques simples à
. interpréter
Extraction de règles
(implémentations en BDD)
.

Introduction Descriptif général
Principe de la segmentation
.
Principe
.
La segmentation consiste à construire un arbre de décision à l’aide de divisions
successives des individus d’un échantillon en deux, ou plus, segments (appelés
également noeuds) homogènes par rapport à une variable dépendante Y qui peut
être de nature :
binaire, nominale, ordinale ou quantitative
en utilisant l’information portée par p variables explicatives de nature :
binaire, nominale, ordinale ou quantitative
.

Introduction Descriptif général
Deux types d’arbres de décision
.
Arbre de régression
.
La variable à expliquer est quantitative. Les variables de segmentation choisies
.sont celles qui minimisent la variance intra-segment de la variable à expliquer.
.
Arbre de classement
.
La variable à expliquer est qualitative. Les variables de segmentations retenues
dans l’arbre sont celles qui rendent les segments les plus différents possibles quant
aux
. modalités de la variable à expliquer.

Introduction Exemple introductif
Exemple introductif
Quinlan (1993)
L’objectif est d’expliquer le comportement de joueur de tennis (Variable à

expliquer : Y(jouer, ne pas jouer)) à partir de prévisions météorologiques (variables
explicatives Xi ).

.
Descriptif des variables
.
Type Variables Nature Unités/Modalités
X1 Ensoleillement Qualitative Soleil, couvert, pluie
X2 Vent Binaire Oui/Non
◦
X3 Température Quantitative F
X4 Humidité Quantitative %
Y Jouer Binaire Oui/Non
.
Variable à expliquer binaire ⇒ Arbre de classement

.
Vocabulaire et interprétation graphique
.
Racine
Variable de segmentation
Arête et noeud enfant
Feuille (pures)
Discrétisation de variable quantitative
Règle de décision
.

Exemple introductif

Introduction Questions mises en évidence
Question mises en évidence
.
Mais comment faire ?
.
Dans quel ordre interviennent les variables de segmentation ?
Choix de la variable de segmentation : indicateur évaluant la qualité de la
segmentation
Détermination d’un seuil optimal pour les variables quantitatives
Définition de la taille optimale de l’arbre (toujours des feuilles pures ??)
Règles d’affectation d’une observation à un groupe
Simple quand la feuille est pure...
Que faire lors que la feuille n’est pas pure ??
.

Méthodologie de construction d’un arbre de décision - CHAID
Méthodologie de construction d’un arbre de décision
.
De nombreuses méthodes d’induction d’arbres (CHAID, CART, ID3, C4.5, ...)
Uniquement les méthodes CHAID (CHi-squared Automatic Interaction
Detection) et CART (Classification And Regression Trees) sont utilisées de
manière récurrente en médecine
Cours basé sur CHAID
Quelques références à CART
.

Méthodologie de construction d’un arbre de décision - CHAID
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
. Conditions d’arrêt

Méthodologie de construction d’un arbre de décision - CHAID Discrétisation des variables quantitatives
Discrétisation des variables quantitatives
.
Principe
.
La détermination d’un cut-off se déroule de la manière suivante :
On ordonne de manière croissante les valeurs de la variable
On note le nombre de valeurs distinctes nd
Il y a donc nd − 1 seuils possibles
Pour chaque seuil → création d’une variable binaire (0 si < Seuil et 1 si >=
Seuil)
Chaque variable recodée est croisée avec la variable à expliquer et l’on calcule
un test du χ2 d’écart à l’indépendance.
Le seuil choisi sera celui qui maximisera la statistique du test (ou minimisera la
pvalue
. associée)


.
Exemple avec la variable humidité (1)
.
On ordonne de manière croissante les valeurs d’humidité :
 
70  85  90  95 
Il y a 5 observations dans le sommet in[soleil] et nd = 4 valeurs distinctes

Nous avons donc nd − 1 = 3 seuils possibles
.

.
.
 
70  85  90  95 
Seuil 1 :   Seuil 2 :   Seuil 3 :  
(70+85)/2 = 77.5  (85+90)/2 = 87.5  (90+95)/2 = 92.5 

.

.
.
Pour chaque seuil, la variable quantitative est recodée en variable binaire
(discrétisation)
Chaque variable discrétisée est croisée à la variable à expliquer au travers d’un
tableau de contingence et un test du χ2 d’écart à l’indépendance est calculé
.

.
.
Humidité <77.5 Humidité >= 77.5
Jouer=oui 2 0
Jouer=non 0 3
Seuils Pvalue (χ2 )
77.5 0.0253
Jouer=oui 2 0
87.5 0.1360
Jouer=non 1 2
92.5 0.3613
Jouer=oui 2 0
Jouer=non 2 1
.

.
CHAID
.
REPETER
Sélection de la meilleure variable de segmentation (utilisation de
l’indice)
Fin SI
JUSQU’A

Méthodologie de construction d’un arbre de décision - CHAID Choix de la variable de segmentation (split)
Choix de la variable de segmentation (split)
.
Utilisation de l’indicateur de qualité de segmentation
.
Après discrétisation des variables quantitatives → ensemble de variables
qualitatives candidates à la segmentation du sommet en cours
Choix de la meilleure variable de segmentation → utilisation de l’indicateur
de qualité de segmentation
Test du χ2 d’écart à l’indépendance de Pearson
La variable selectionnée sera celle qui maximisera la statistique du test (ou
minimisera la pvalue associée)
.

.
Exemple de la segmentation du sommet in[Soleil]
.
Variables candidates : Humidité, Température, Vent, Ensoleillement (triviale)
Variable Candidate Cut-off Pvalue (χ2 )
Humidité 77.5 0.0253

Température 57.5 0.1360
Vent - 0.7094
Ensoleillement - 1
La variable Humidité est retenue car elle minimise la pvalue associée au test du χ2 .
Ce n’est pas étonnant car cette variable de segmentation produit des noeuds
enfants
. purs.

.
CHAID
.
REPETER
Fin SI
JUSQU’A

Méthodologie de construction d’un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge)
Fusion des sommets lors de la segmentation (merge)

Optionnel dans la méthode CHAID

.
Principe
.
Initialement : la segmentation d’une variable qualitative produit autant de
sommets enfants que de modalités
Possibilité de fusion des sommets enfants → limiter la fragmentation des
données (faibles effectifs) et les sommets enfants ”redondants”
Comparaison des distributions de la VAE dans chaque sommet enfant et
regroupement des sommets ayant des profils proches
.


.
Principe (2)
.
Test du χ2 d’équivalence distributionnelle
H0 : les deux sommets enfants ont des profils similaires
H1 : les deux sommets enfants ont des profils différents
La statistique suit une loi du χ2 à K − 1 d.d.l.
( )2
nk1 nk2
∑
K −
n.1 n.2
X = nk1 + nk2 ∼ χ2K −1d.l.l.
k=1
n.1 × n.2
K : nombre de modalités de la variable à expliquer
n.1 : nombre d’observations présentant la modalité liée au sommet 1
On fusionne les deux sommets enfants ayant les profils les plus proches (au
sens du test) puis on réitère l’opération jusqu’à ce qu’aucune fusion ne soit
possible
Possibilité qu’aucune fusion ne se réalise
.
Principe (3)
.
On fusionne les deux sommets enfants ayant les profils les plus proches (au
sens du test) puis on réitère l’opération jusqu’à ce qu’aucune fusion ne soit
possible
Possibilité qu’aucune fusion ne se réalise
Possibilité que tous les sommets enfants soient fusionnés → la variable de
segmentation est éliminée d’office
.

.
Exemple avec la variable Ensoleillement (1)
.
Intégration de la possibilité de fusion
Comparaison des sommets deux à deux :
Sommets χ2 Pvalue (χ2 ) Action
Soleil et couvert 3.6 0.058 -

Soleil et Pluie 0.4 0.527 Fusion
Couvert et Pluie 2.06 0.151 -
Risque de première espèce (α) de 10%

Les modalités Soleil et Pluie peuvent être fusionnées
.

.
Exemple avec la variable Ensoleillement (2)
.
Sommets χ2 Pvalue (χ2 ) Action
(Soleil et Pluie) et Couvert 3.1 0.078 -
Aucune
. fusion n’est possible → l’algorithme s’arrête !

.
CHAID
.
REPETER
Fin SI
JUSQU’A

Méthodologie de construction d’un arbre de décision - CHAID Conditions d’arrêt
Conditions d’arrêt et détermination de la bonne taille de

l’arbre
.
Notion de pré-élagage
.
Pendant la phase d’expansion de l’arbre
Acceptation de la segmentation si le test du χ2 est significatif quant à un
risque de première espèce α fixé par l’utilisateur (5% par exemple)
Le choix du seuil détermine la taille de l’arbre :
S’il est trop permissif → arbre sur-dimensionné (risque d’overfitting)
S’il est trop restrictif → arbre sous-dimensionné (toute l’information n’est pas
utilisée)
.

Méthodologie de construction d’un arbre de décision - CHAID Conditions d’arrêt
Conditions d’arrêt et détermination de la bonne taille de

l’arbre
.
Autres conditions d’arrêt
.
Les feuilles sont pures
Effectifs trop faibles dans un noeud pour segmenter (fixé par l’utilisateur)
Effectifs trop faibles dans les sommets enfants issus d’une segmentation (fixé
par l’utilisateur)
Profondeur limite de l’arbre atteinte (fixé par l’utilisateur)
.

Méthodologie de construction d’un arbre de décision - CHAID Prise de décision
.
Après la construction de l’arbre...
.
Tirer des conclusions pour chaque feuille de l’arbre
Choisir dans quel groupe classer les individus (jouer=oui ou jouer= non)
Simple quand les feuilles sont pures !
SI (Ensoleillement = Soleil) ET (Humidité < 77.5%) ALORS Jouer = Oui
Dans 100% des cas !!
Feuilles non pures → règle de la majorité (classe majoritaire)

Estimation de la probabilité conditionnelle P(Y /Xi )
.

Un coup d’oeil sur la méthode CART Méthode CART
Classification And Regression Trees
.
Principe
.
VAE qualitative ou quantitative
Variables explicatives qualitatives ou quantitatives
Arbres binaires uniquement → deux sommets enfants à chaque segmentation
Indice de qualité de segmentation basé sur l’indice de Gini
∑
K
I =1− fk2 avec I ∈ [0, 1]
k=1
Plus l’indice de Gini est proche de 0 plus le noeud est pur

.

Un coup d’oeil sur la méthode CART Méthode CART
Classification And Regression Trees
.
Principe
.
La variable de segmentation retenue est celle qui maximise le gain de pureté
défini par :
Gain = I (S) − [I (Fils1 ) + I (Fils2 )] avec Gain >= 0
Détermination de la taille de l’arbre = procédure de post élagage
Arbre complètement développé sur un premier échantillon (growing set)
Arbre réduit de manière à optimiser le taux de mauvais classement sur un
deuxième échantillon (pruning set)
.

Un coup d’oeil sur la méthode CART Comparaison avec CHAID
Classification And Regression Trees - Comparaison avec la

2.1. ARBRES DE DÉCISION
méthode d’induction CHAID
Table 2.2 – Comparatif des méthodes CHAID et CART
Caractéristiques/Méthodes CHAID CART

Impact(critère de segmenta- χ2 d’indépendance ou t de Indice de Gini
tion) Tschuprow
Regroupement Arbre ”n-aire” - Test Arbre binaire

d’équivalence distributionnelle
Détermination de la ”taille Effectif minimum pour segmenter - Nombre de niveau de l’arbre

optimale” - Seuil de spécialisation - Effectifs d’admissibilité
Détermination de la taille Pré-élagage avec le test du χ2 Post-élagage par un échantillon

optimale (spécifique) d’indépendance d’élagage ou un validation
croisée
Avantages Performante pour une phase ex- Performante en termes de classe-

ploratoire de grandes bases de ment - Pas de complexité de pa-
données ramétrage
Inconvénients Moyennement performante Peu performante avec des

en classement - Paramétrage échantillons de taille faible
de la méthode compliqué - Binarisation pas toujours
(détermination empirique du appropriée
seuil α)

Exemples Prévention des effets indésirables liés aux médicaments
Prévention des effets indésirables liés aux médicaments
.
Le projet européen PSIP (Patient Safety Through Intelligent Procedures in
medication)
.
Effets indésirables liés aux médicaments sont trop fréquents
Responsables, chaque année, de 10 000 morts en France et 98 000 aux Etats
Unis
La prévention de ces effets est l’axe majeur du projet PSIP
Création d’outils d’aide à la décision basés sur la fouille automatisée de
données hospitalières
Recherche de règles d’alerte du type :
Cause1 &Cause2 &...&Causep ⇒ Effet = 1
.

 
Effet indésirable : INR 
trop bas 

Prévention des effets indésirables liés aux médicaments
.
Règles d’alerte
.
La règle extraite de l’arbre :
INR trop haut ET age > 78.66 ET hypoalbunémie ⇒ INR trop bas (85.7%)
87.5% est une estimation de P(Y /Xi ). C’est la confiance de la règle.
.

Exemples Discrétisation de variables quantitatives
Discrétisation de variables quantitatives
.
Une autre utilisation des arbres...
.
La discrétisation de variable quantitative est utile dans la création de scores
cliniques
Ex : Fréquence cardiaque, pression artérielle
Détermination de seuils (cut-off) maximisant la segmentation au regard
d’une variable à expliquer qualitative (Vivant/ Décés)
.

+:*f,+,&A3"&$K$DA5$F/&& Exemples Discrétisation de variables quantitatives
_$%&3"#"$%&'$&)53%%$D$,8G&3:&8"3C$"%&'$&5$:"&)3A3)*8(&R&)"($"&'$%&):8B+LL&%+,8&'$%&D(82+'$%&A$"8*,$,8$%&A+:"&
8"+:C$"&:,&$,%$D#5$&'$&%$:*5%&P.&+:&A5:%F&D3K*D*%3,8&53&%$MD$,838*+,&'$%&*,'*C*':%&A3"&"3AA+"8&R&:,$&C3"*3#5$&
R&$KA5*9:$"&9:35*838*C$/&
"+)-)=8()$ /6.9#1,$ =01,%)$ (+6,.(./#,.01$ *)/$ #%:%)/$ *)$ 2(#//)=)1,$ *#1/$ (#$ %)2>)%2>)$ *$& %$:*5%& A+:"& 5$& 83:K& '$&
A"+82"+D#*,$&A3"&"3AA+"8&3:&'()(%&'$%&A38*$,8%?$"#$=4,>0*)$*+.1*62,.01$*+#%:%)$)/,$(+#('0%.,>=)$@ABCD7$#9)2$
:,&%$:*5&'$&%A5*8&R&VX/&
Score PELOD : discrétisation du taux de prothrombine en fonction de Vivant/
Décés
&
&
E1$%)=#%56)$56)$(+#('0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&
Algorithme CHAID - Seuil de split : 5%
&
&
& @?/V0& VV/V0& =>/V0&

Exemples Discrétisation de variables quantitatives
&
'0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&
3 seuils mis en évidence par l’algorithme :
@?/V0& VV/V0& =>/V0&
#*,$&A$:8&g8"$&3*,%*&'*%)"(8*%($&'$&53&D3,*J"$&%:*C3,8$&Z&
!"&^"+82"+D#*,$&h@?/V&#$%&'&^"+82"+D#*,$i"$)+'($&]&.&
!"&^"+82"+D#*,$&\]&@?/V&()&^"+82"+D#*,$&hVV/V0&#$%&'&^"+82"+D#*,$i"$)+'($]<&j&
!"&^"+82"+D#*,$&\]&VV/V0&()&^"+82"+D#*,$&h=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]@&j&
!"&^"+82"+D#*,$&\]&=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]?&&

Limites Limites
Limites des méthodes d’induction d’arbres (1)
Nécessite de bases d’apprentissage de taille importante (fragmentation rapide

des données)
Instabilité en prédiction
Arbre surdimensionné → bonne explication de la variabilité mais mauvaises
qualités prédictives (overfitting)
Arbre sous-dimensionné → bonnes qualités prédictives mais ne considère pas
toute l’information contenue dans les données (underfitting)
Non exhaustivité des règles de décision obtenues (Parfois plus de valeur
”statistique” (discrimination) que de valeur ”métier”)

Limites Limites
Limites des méthodes d’induction d’arbres (2)
”Effet papillon” : suppression d’une variable explicative et tout l’arbre change

Sensibles aux observations aberrantes
Pas de prise en compte des données manquantes

Limites Quelques pistes
Quelques pistes...
Forêts aléatoires de Breiman (boostrapping, bagging)

Règles d’association (Analyse du panier de la ménagère)
Algorithmes d’imputation des données manquantes

Quelques logiciels
Quelques logiciels d’induction d’arbres de décision
Sipina
Logiciel Libre
Interface du type SPSS
Méthodes implémentées : CHAID, ID3, C4.5, Improved CHAID...
Possibilité de construction d’arbres en utilisant des connaissances expertes
R - Package Rpart
Logiciel libre
Package reconnu et souvent utilisé en recherche
Méthode implémentée : CART
Rendus graphiques paramétrables

Arbres de Decision Printable

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Arbres de Decision Printable

Uploaded by

Copyright:

Available Formats

.

2. Méthodologie de construction d’un arbre de décision - CHAID

3. Un coup d’oeil sur la méthode CART

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 1 / 67

Classification supervisée (discrimination)

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 4 / 67

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 5 / 67

Comparaison avec les autres méthodes de discrimination

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 6 / 67

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 8 / 67

Deux types d’arbres de décision

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 9 / 67

L’objectif est d’expliquer le comportement de joueur de tennis (Variable à

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 11 / 67

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 12 / 67

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 13 / 67

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 14 / 67

Question mises en évidence

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 16 / 67

Méthodologie de construction d’un arbre de décision

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 18 / 67

Méthodologie de construction d’un arbre de décision

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 19 / 67

Discrétisation des variables quantitatives

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 21 / 67

Discrétisation des variables quantitatives

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 22 / 67

Discrétisation des variables quantitatives

70 85 90 95

Il y a 5 observations dans le sommet in[soleil] et nd = 4 valeurs distinctes

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 23 / 67

Discrétisation des variables quantitatives

70 85 90 95

Seuil 1 : Seuil 2 : Seuil 3 :

(70+85)/2 = 77.5 (85+90)/2 = 87.5 (90+95)/2 = 92.5

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 24 / 67

Discrétisation des variables quantitatives

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 25 / 67

Discrétisation des variables quantitatives

Humidité <92.5 Humidité >= 92.5

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 26 / 67

Méthodologie de construction d’un arbre de décision

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 27 / 67

Choix de la variable de segmentation (split)

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 29 / 67

Variable Candidate Cut-oﬀ Pvalue (χ2 )

Humidité 77.5 0.0253

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 30 / 67

Méthodologie de construction d’un arbre de décision

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 31 / 67

Fusion des sommets lors de la segmentation (merge)

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 33 / 67

Fusion des sommets lors de la segmentation (merge)

Optionnel dans la méthode CHAID

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 34 / 67

Fusion des sommets lors de la segmentation (merge)

Fusion des sommets lors de la segmentation (merge)

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 36 / 67

Fusion des sommets lors de la segmentation (merge)

Sommets χ2 Pvalue (χ2 ) Action

Soleil et couvert 3.6 0.058 -

Risque de première espèce (α) de 10%

M. Genin (Université de Lille 2) Arbres de décision Version - 30 mars 2015 37 / 67

Fusion des sommets lors de la segmentation (merge)

70  85  90  95 

70  85  90  95 

Seuil 1 :   Seuil 2 :   Seuil 3 :  

(70+85)/2 = 77.5  (85+90)/2 = 87.5  (90+95)/2 = 92.5