Professional Documents
Culture Documents
Arbres de décision
Applications en médecine
.
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
michael.genin@univ-lille2.fr
Plan
1. Introduction
4. Exemples
5. Limites
6. Quelques logiciels
.
Deux familles de méthodes de classification
.
Classification non-supervisée (clustering)
Partitionner les observations en groupes différents (classes, catégories) mais les
plus homogènes possible au regard de variables décrivant les observations.
Le nombre de classes n’est pas connu à l’avance
Méthodes : Classification hiérarchique...
.
Une approche particulière de la discrimination
.
Outils statistiques intéressants et souvent utilisés en médecine
Une variable à expliquer et un ensemble de variables explicatives
Y = f (X1 , X2 , ..., Xp ) + ϵ
Y quantitative = arbre de régression (famille des régressions non
paramétriques)
Y qualitative = arbre de classement (méthode particulière de discrimination
/ apprentissage supervisé)
.
Principe de la segmentation
.
Principe
.
La segmentation consiste à construire un arbre de décision à l’aide de divisions
successives des individus d’un échantillon en deux, ou plus, segments (appelés
également noeuds) homogènes par rapport à une variable dépendante Y qui peut
être de nature :
binaire, nominale, ordinale ou quantitative
en utilisant l’information portée par p variables explicatives de nature :
binaire, nominale, ordinale ou quantitative
.
.
Arbre de régression
.
La variable à expliquer est quantitative. Les variables de segmentation choisies
.sont celles qui minimisent la variance intra-segment de la variable à expliquer.
.
Arbre de classement
.
La variable à expliquer est qualitative. Les variables de segmentations retenues
dans l’arbre sont celles qui rendent les segments les plus différents possibles quant
aux
. modalités de la variable à expliquer.
Exemple introductif
Quinlan (1993)
.
Descriptif des variables
.
Type Variables Nature Unités/Modalités
X1 Ensoleillement Qualitative Soleil, couvert, pluie
X2 Vent Binaire Oui/Non
◦
X3 Température Quantitative F
X4 Humidité Quantitative %
Y Jouer Binaire Oui/Non
.
Variable à expliquer binaire ⇒ Arbre de classement
.
Vocabulaire et interprétation graphique
.
Racine
Variable de segmentation
Arête et noeud enfant
Feuille (pures)
Discrétisation de variable quantitative
Règle de décision
.
Exemple introductif
.
Mais comment faire ?
.
Dans quel ordre interviennent les variables de segmentation ?
Choix de la variable de segmentation : indicateur évaluant la qualité de la
segmentation
Détermination d’un seuil optimal pour les variables quantitatives
Définition de la taille optimale de l’arbre (toujours des feuilles pures ??)
Règles d’affectation d’une observation à un groupe
Simple quand la feuille est pure...
Que faire lors que la feuille n’est pas pure ??
.
.
De nombreuses méthodes d’induction d’arbres (CHAID, CART, ID3, C4.5, ...)
Uniquement les méthodes CHAID (CHi-squared Automatic Interaction
Detection) et CART (Classification And Regression Trees) sont utilisées de
manière récurrente en médecine
Cours basé sur CHAID
Quelques références à CART
.
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
. Conditions d’arrêt
.
Principe
.
La détermination d’un cut-off se déroule de la manière suivante :
On ordonne de manière croissante les valeurs de la variable
On note le nombre de valeurs distinctes nd
Il y a donc nd − 1 seuils possibles
Pour chaque seuil → création d’une variable binaire (0 si < Seuil et 1 si >=
Seuil)
Chaque variable recodée est croisée avec la variable à expliquer et l’on calcule
un test du χ2 d’écart à l’indépendance.
Le seuil choisi sera celui qui maximisera la statistique du test (ou minimisera la
pvalue
. associée)
.
Exemple avec la variable humidité (1)
.
On ordonne de manière croissante les valeurs d’humidité :
.
Exemple avec la variable humidité (2)
.
.
Exemple avec la variable humidité (3)
.
Pour chaque seuil, la variable quantitative est recodée en variable binaire
(discrétisation)
Chaque variable discrétisée est croisée à la variable à expliquer au travers d’un
tableau de contingence et un test du χ2 d’écart à l’indépendance est calculé
.
.
Exemple avec la variable humidité (4)
.
Humidité <77.5 Humidité >= 77.5
Jouer=oui 2 0
Jouer=non 0 3
Seuils Pvalue (χ2 )
Humidité <87.5 Humidité >= 87.5
77.5 0.0253
Jouer=oui 2 0
87.5 0.1360
Jouer=non 1 2
92.5 0.3613
Jouer=oui 2 0
Jouer=non 2 1
.
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de
l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
. Conditions d’arrêt
.
Utilisation de l’indicateur de qualité de segmentation
.
Après discrétisation des variables quantitatives → ensemble de variables
qualitatives candidates à la segmentation du sommet en cours
Choix de la meilleure variable de segmentation → utilisation de l’indicateur
de qualité de segmentation
Test du χ2 d’écart à l’indépendance de Pearson
La variable selectionnée sera celle qui maximisera la statistique du test (ou
minimisera la pvalue associée)
.
.
Exemple de la segmentation du sommet in[Soleil]
.
Variables candidates : Humidité, Température, Vent, Ensoleillement (triviale)
La variable Humidité est retenue car elle minimise la pvalue associée au test du χ2 .
Ce n’est pas étonnant car cette variable de segmentation produit des noeuds
enfants
. purs.
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
. Conditions d’arrêt
.
Principe (3)
.
On fusionne les deux sommets enfants ayant les profils les plus proches (au
sens du test) puis on réitère l’opération jusqu’à ce qu’aucune fusion ne soit
possible
Possibilité qu’aucune fusion ne se réalise
Possibilité que tous les sommets enfants soient fusionnés → la variable de
segmentation est éliminée d’office
.
.
Exemple avec la variable Ensoleillement (1)
.
Intégration de la possibilité de fusion
Comparaison des sommets deux à deux :
.
Exemple avec la variable Ensoleillement (2)
.
Sommets χ2 Pvalue (χ2 ) Action
Aucune
. fusion n’est possible → l’algorithme s’arrête !
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
. Conditions d’arrêt
.
Notion de pré-élagage
.
Pendant la phase d’expansion de l’arbre
Acceptation de la segmentation si le test du χ2 est significatif quant à un
risque de première espèce α fixé par l’utilisateur (5% par exemple)
Le choix du seuil détermine la taille de l’arbre :
S’il est trop permissif → arbre sur-dimensionné (risque d’overfitting)
S’il est trop restrictif → arbre sous-dimensionné (toute l’information n’est pas
utilisée)
.
.
Autres conditions d’arrêt
.
Les feuilles sont pures
Effectifs trop faibles dans un noeud pour segmenter (fixé par l’utilisateur)
Effectifs trop faibles dans les sommets enfants issus d’une segmentation (fixé
par l’utilisateur)
Profondeur limite de l’arbre atteinte (fixé par l’utilisateur)
.
.
Après la construction de l’arbre...
.
Tirer des conclusions pour chaque feuille de l’arbre
Choisir dans quel groupe classer les individus (jouer=oui ou jouer= non)
Simple quand les feuilles sont pures !
SI (Ensoleillement = Soleil) ET (Humidité < 77.5%) ALORS Jouer = Oui
Dans 100% des cas !!
.
Principe
.
VAE qualitative ou quantitative
Variables explicatives qualitatives ou quantitatives
Arbres binaires uniquement → deux sommets enfants à chaque segmentation
Indice de qualité de segmentation basé sur l’indice de Gini
∑
K
I =1− fk2 avec I ∈ [0, 1]
k=1
.
Principe
.
La variable de segmentation retenue est celle qui maximise le gain de pureté
défini par :
Gain = I (S) − [I (Fils1 ) + I (Fils2 )] avec Gain >= 0
Détermination de la taille de l’arbre = procédure de post élagage
Arbre complètement développé sur un premier échantillon (growing set)
Arbre réduit de manière à optimiser le taux de mauvais classement sur un
deuxième échantillon (pruning set)
.
.
Le projet européen PSIP (Patient Safety Through Intelligent Procedures in
medication)
.
Effets indésirables liés aux médicaments sont trop fréquents
Responsables, chaque année, de 10 000 morts en France et 98 000 aux Etats
Unis
La prévention de ces effets est l’axe majeur du projet PSIP
Création d’outils d’aide à la décision basés sur la fouille automatisée de
données hospitalières
Recherche de règles d’alerte du type :
Cause1 &Cause2 &...&Causep ⇒ Effet = 1
.
Effet
indésirable
:
INR
trop
bas
.
Règles d’alerte
.
La règle extraite de l’arbre :
INR trop haut ET age > 78.66 ET hypoalbunémie ⇒ INR trop bas (85.7%)
87.5% est une estimation de P(Y /Xi ). C’est la confiance de la règle.
.
.
Une autre utilisation des arbres...
.
La discrétisation de variable quantitative est utile dans la création de scores
cliniques
Ex : Fréquence cardiaque, pression artérielle
Détermination de seuils (cut-off) maximisant la segmentation au regard
d’une variable à expliquer qualitative (Vivant/ Décés)
.
_$%&3"#"$%&'$&)53%%$D$,8G&3:&8"3C$"%&'$&5$:"&)3A3)*8(&R&)"($"&'$%&):8B+LL&%+,8&'$%&D(82+'$%&A$"8*,$,8$%&A+:"&
Discrétisation de variables quantitatives
8"+:C$"&:,&$,%$D#5$&'$&%$:*5%&P.&+:&A5:%F&D3K*D*%3,8&53&%$MD$,838*+,&'$%&*,'*C*':%&A3"&"3AA+"8&R&:,$&C3"*3#5$&
R&$KA5*9:$"&9:35*838*C$/&
"+)-)=8()$ /6.9#1,$ =01,%)$ (+6,.(./#,.01$ *)/$ #%:%)/$ *)$ 2(#//)=)1,$ *#1/$ (#$ %)2>)%2>)$ *$& %$:*5%& A+:"& 5$& 83:K& '$&
A"+82"+D#*,$&A3"&"3AA+"8&3:&'()(%&'$%&A38*$,8%?$"#$=4,>0*)$*+.1*62,.01$*+#%:%)$)/,$(+#('0%.,>=)$@ABCD7$#9)2$
:,&%$:*5&'$&%A5*8&R&VX/&
Score PELOD : discrétisation du taux de prothrombine en fonction de Vivant/
Décés
&
&
E1$%)=#%56)$56)$(+#('0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&
Algorithme CHAID - Seuil de split : 5%
&
&
&
'0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&
3 seuils mis en évidence par l’algorithme :
#*,$&A$:8&g8"$&3*,%*&'*%)"(8*%($&'$&53&D3,*J"$&%:*C3,8$&Z&
!"&^"+82"+D#*,$&h@?/V&#$%&'&^"+82"+D#*,$i"$)+'($&]&.&
!"&^"+82"+D#*,$&\]&@?/V&()&^"+82"+D#*,$&hVV/V0&#$%&'&^"+82"+D#*,$i"$)+'($]<&j&
!"&^"+82"+D#*,$&\]&VV/V0&()&^"+82"+D#*,$&h=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]@&j&
!"&^"+82"+D#*,$&\]&=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]?&&
Quelques pistes...
Sipina
Logiciel Libre
Interface du type SPSS
Méthodes implémentées : CHAID, ID3, C4.5, Improved CHAID...
Possibilité de construction d’arbres en utilisant des connaissances expertes
R - Package Rpart
Logiciel libre
Package reconnu et souvent utilisé en recherche
Méthode implémentée : CART
Rendus graphiques paramétrables