Arbre de Décision

Arbres de Dcision
Ricco RAKOTOMALALA Laboratoire ERIC Universit Lumire Lyon 2 5, av. Mends France 69676 BRON cedex e-mail : rakotoma@univ-lyon2.fr Rsum Aprs avoir dtaill les points cls de la construction dun arbre de dcision partir dun petit exemple, nous prsentons la mthode CHAID qui permet de rpondre de manire cohrente ces spcifications. Nous la mettons alors en uvre en utilisant un logiciel gratuit tlchargeable sur Internet. Les oprations sont dcrites laide de plusieurs copies dcrans. Laccent est mis sur la lecture et linterprtation des rsultats. Nous mettons en avant galement laspect interactif, trs sduisant, de la construction des arbres. De manire plus gnrale, nous essayons de mettre en perspective les nombreuses techniques dinduction darbres en faisant le bilan de ltat actuel de la recherche dans le domaine. Mots-cls : Arbres de dcision, segmentation, discrimination, apprentissage automatique Abstract In this paper, we show the key points of the induction of decision trees from a small dataset and we present the CHAID algorithm. Using a free software, the induction algorithm is detailed with several screenshots. We put emphasis on the interpretation of results and the interaction potentiality of the method. In a more general way, we try to give a comprehensive survey of the numerous variants which have been developed these last years. Keywords: Decision Tree, Induction Tree, Supervised machine learning, Data mining
1 Introduction
La construction des arbres de dcision partir de donnes est une discipline dj ancienne. Les statisticiens en attribuent la paternit Morgan et Sonquist (1963) qui, les premiers, ont utilis les arbres de rgression dans un processus de prdiction et dexplication (AID Automatic Interaction Detection). Il sen est suivi toute une famille de mthodes, tendues jusquaux problmes de discrimination et classement, qui sappuyaient sur le mme paradigme de la reprsentation par arbres (THAID -- Morgan et Messenger, 1973 ; CHAID -- Kass, 1980). On considre gnralement que cette approche a connu son apoge avec la mthode CART (Classification and Regression Tree) de Breiman et al. (1984) dcrite en dtail dans une monographie qui fait encore rfrence aujourdhui. En apprentissage automatique, la plupart des travaux sappuient sur la thorie de linformation. Il est dusage de citer la mthode ID3 de Quinlan (Induction of Decision Tree Quinlan 1979) qui, lui mme, rattache ses travaux ceux de Hunt (1962). Quinlan a t un acteur trs actif dans la deuxime moiti des annes 80 avec un grand nombre de publications o il propose un ensemble dheuristiques pour amliorer le comportement de son systme. Son approche a pris un tournant important dans les annes 90 lorsquil prsenta la mthode C4.5 qui est lautre rfrence incontournable ds lors que lon veut citer les arbres de dcision (1993). Il existe bien une
Revue MODULAD, 2005 - 163 Numro 33
autre volution de cet algorithme, C5.0, mais tant implmente dans un logiciel commercial, il nest pas possible den avoir le dtail. En France, les travaux de Bourroche et Tenenhaus (1970) avec la mthode ELISEE est dobdience statistique ; les travaux de Picard sur les pseudo-questionnaires (1972) sont rapprocher de la thorie de linformation. On note surtout que de cette mouvance a merg le concept de graphes latticiels (Terrenoire, 1970) qui a t popularis par les graphes dinduction avec la mthode SIPINA (Zighed, 1992 ; Rakotomalala, 1997 ; Zighed et Rakotomalala, 2000). Dans ce didacticiel, nous prsentons les principes de construction des arbres de dcision dans les problmes de discrimination et classement : on veut expliquer et prdire la valeur (la classe, la modalit, ltiquette) prise par une variable prdire catgorielle, dite attribut classe ; partir dune srie de variables, dites variables prdictives (descripteurs), discrtes ou continues. Selon la terminologie de lapprentissage automatique, nous nous situons donc dans le cadre de lapprentissage supervis. Nous naborderons pas les autres types dutilisation que sont les arbres de rgression : il sagit toujours dun problme de prdiction mais la variable prdire est continue (Torgo, 1999) ; et les arbres de classification, o lobjectif est de construire des groupes homognes dans lespace de descripteurs (Chavent et al., 1999). Ce didacticiel est organis comme suit. Dans la section suivante, partir dun tableau de 14 observations, nous dcrivons les principales tapes de la construction dun arbre de dcision. La mthode CHAID est prsente dans la section 3, elle propose une rponse approprie sur chacun des points mis en vidence prcdemment. La section 4 est consacre au traitement dun ensemble de donnes ralistes , le fichier IRIS de Fisher (1936), laide du logiciel SIPINA, gratuit et accessible sur Internet. Chaque tape sera dtaille laide de copies dcran. Dans la section 5, nous faisons le point sur les avantages et inconvnients des arbres de dcision. Nous tentons galement dlaborer une rflexion sur les avances de la recherche dans le domaine. La section 6 correspond la conclusion.
2 Un exemple introductif
2.1 Construire un arbre de dcision
La popularit de la mthode repose en grande partie sur sa simplicit. Il sagit de trouver un partitionnement des individus que lon reprsente sous la forme dun arbre de dcision. Lobjectif est de produire des groupes dindividus les plus homognes possibles du point de vue de la variable prdire. Il est dusage de reprsenter la distribution empirique de lattribut prdire sur chaque sommet (nud) de larbre. Pour mieux apprhender la dmarche, nous allons reprendre et drouler un exemple qui est prsent dans louvrage de Quinlan (1993). Le fichier est compos de 14 observations, il sagit dexpliquer le comportement des individus par rapport un jeu {jouer, ne pas jouer} partir des prvisions mtorologiques (Tableau 1).
Revue MODULAD, 2005
- 164 -
Numro 33
Numro Ensoleillement Temprature (F) Humidit (%) Vent
Jouer
1 2 3 4 5 6 7 8 9 10 11 12 13 14
soleil soleil soleil soleil soleil couvert couvert couvert couvert pluie pluie pluie pluie pluie
75 80 85 72 69 72 83 64 81 71 65 75 68 70
70 90 85 95 70 90 78 65 75 80 70 80 80 96
oui oui non non non oui non oui non oui oui non non non
oui non non non oui oui oui oui oui non non oui oui oui
Tableau 1 : Donnes "weather" (Quinlan, 1993)
Larbre de dcision correspondant est dcrit ci-dessous (Figure 1). Le premier sommet est appel la racine de larbre. Il est situ sur le premier niveau. Nous y observons la distribution de frquence de la variable prdire Jouer . Nous constatons quil y a bien 14 observations, dont 9 oui (ils vont jouer) et 5 non . La variable ensoleillement est la premire variable utilise ; on parle de variable de segmentation. Comme elle est compose de 3 modalits {soleil, couvert, pluie}, elle produit donc 3 sommets enfants. La premire arte (la premire branche), gauche, sur le deuxime niveau, est produite partir de la modalit soleil de la variable ensoleillement . Le sommet qui en rsulte couvre 5 observations correspondant aux individus {1, 2, 3, 4, 5}, la distribution de frquence nous indique quil y a 2 jouer = oui et 3 jouer = non . La seconde arte, au centre, correspond la modalit couvert de la variable de segmentation ensoleillement ; le sommet correspondant couvre 4 observations, tous ont dcid de jouer (dans le tableau ce sont les individus n6 9). Ce sommet nayant plus de sommets enfants, ce qui est normal puisquil est pur du point de vue de la variable prdire, il ny a pas de contre-exemples. On dit quil sagit dune feuille de larbre.
Figure 1 : Arbre de dcision sur le fichier "weather"
Revue MODULAD, 2005
- 165 -
Numro 33
Reprenons le nud le plus gauche sur le deuxime niveau de larbre. Ce sommet, qui nest pas pur, est segment laide de la variable humidit . Comme le descripteur est continu, il a t ncessaire de dfinir un seuil dit de discrtisation qui permet de produire le meilleur partitionnement. Dans notre exemple, le seuil qui a t choisi est 77.5 %. Il a permis de produire deux feuilles compltement pures. Ce processus est ritr sur chaque sommet de larbre jusqu lobtention de feuilles pures. Il sagit bien dun arbre de partitionnement : un individu ne peut tre situ dans deux feuilles diffrentes de larbre. Le modle de prdiction peut tre lu trs facilement. On peut traduire un arbre en une base de rgles sans altration de linformation. Le chemin menant dun sommet vers la racine de larbre peut tre traduit en une partie prmisse dune rgle de prdiction de type attribut-valeur SI variable 1 = valeur 1 ET variable 2 = valeur 2 . Pour classer un nouvel individu, il suffit de linjecter dans larbre, et de lui associer la conclusion attache la feuille dans laquelle il aboutit.
Cette simplicit apparente ne doit pas masquer des problmes rels qui se posent lors de la construction de larbre. Nous allons les lister ci-dessous pour y apporter une rponse dtaille dans la section suivante. 1. La premire question qui vient lesprit est le choix de la variable de segmentation sur un sommet. Pourquoi par exemple avons-nous choisi la variable ensoleillement la racine de larbre ? Nous constatons galement que le choix dune variable de segmentation est relatif au sommet et non au niveau que nous sommes en train de traiter : les sommets gauche et droite du second niveau ont t segments avec des variables diffrentes. Il nous faut donc un indicateur (une mesure) qui permet dvaluer objectivement la qualit dune segmentation et ainsi de slectionner le meilleur parmi les descripteurs candidats la segmentation sur un sommet. 2. Pour mettre en uvre la variable humidit au second niveau de larbre, nous avons t obligs de fixer un seuil (77.5%) pour segmenter le groupe dobservations. Comment a t fix ce seuil ? Une fois que le seuil a t dfini, comment sont mis en concurrence les variables continues et catgorielles pour la segmentation dun sommet ? 3. Lobjectif est de produire un partitionnement pur des observations de la base, ce qui est le cas de notre exemple. Que faire lorsque cela nest pas possible ? De manire plus gnrale, est-ce quun partitionnement totalement pur est souhaitable sur le fichier de donnes ; est-ce quil est possible dutiliser des rgles plus efficaces pour dfinir la taille adquate de larbre de dcision ? 4. Enfin, si la prise de dcision sur une feuille semble naturelle lorsquelle est pure, quelle est la rgle de dcision optimale lorsque quune feuille contient des reprsentants des diffrentes modalits de la variable prdire ? Rpondre ces questions permet de dfinir une mthode dinduction des arbres de dcision partir de donnes. La trs grande majorit des mthodes recenses ce jour respectent ce schma, il est alors facile de les positionner les unes par rapport aux autres. On comprend galement que le champ des stratgies possibles tant restreint, il parat illusoire de trouver une avance miraculeuse
sur un des 4 points ci-dessus qui permettrait de surclasser les techniques existantes. Cest pour cette raison que, si la communaut scientifique a t trs prolixe dans les annes 90 en explorant de manire quasi-exhaustive les variantes sur chacun de ces points, les comparaisons sur donnes relles ont montr quelles produisaient des arbres avec des performances similaires. Des diffrences peuvent cependant apparatre dans des cas particuliers o telle ou telle caractristique dune variante que lon a choisie savre mieux adapte (voir par exemple Lerman et Da Costa pour les descripteurs trs grand nombre de catgories, 1996). Il existe principalement trois mthodes rfrences dans la communaut scientifique. Des didacticiels sur CART et C4.5 existant en trs grand nombre par ailleurs (Nakache et Confais, 2003 ; Kohavi et Quinlan, 2002 ; Bardos, 2001; Zighed et Rakotomalala, 2000 ; Lebart et al., 2000 ; Gueguen, 1994 ; Celeux et Lechevallier, 1990), nous prfrons dans cet article mettre laccent sur une approche trs largement inspire de la mthode CHAID (CHi-squared Automatic Interaction Detection - Kass, 1980) qui a t une des premires avoir t implmente dans des logiciels commerciaux (SPSS Answer Tree et Knowledge Seeker). Elle a la particularit dutiliser des formulations bien connues en statistique ; de plus elle est particulirement efficace lorsque la taille de la base de donnes est importante.
3 Apprentissage dun arbre de dcision

3.1 Choix dune variable de segmentation
Pour fixer les ides, nous nous plaons sur la racine de larbre et nous mettons de ct le cas des variables continues humidit et temprature . Nous avons deux descripteurs candidats discrets. La quasi-totalit des mthodes dinduction darbres sappuient sur le mme procd : pour chaque variable candidate, nous ralisons le partitionnement des observations et nous calculons un indicateur de qualit ; la variable retenue sera alors celle qui optimise cet indicateur. Les mthodes diffrent selon la mesure utilise. Pour bien apprhender le procd, il faut noter quune segmentation permet de dfinir un tableau de contingence croisant la variable prdire et le descripteur candidat. Pour le cas de la variable ensoleillement , on obtient le Tableau 2 la racine de larbre.
NB Jouer Ensoleillement Jouer couvert non 0 oui 4 Total 4 pluie 2 3 5 soleil 3 2 5 Total 5 9 14
Tableau 2: Tri crois l'aide de la variable "ensoleillement" la racine de l'arbre
Dans ce qui suit, nous adopterons les notations suivantes pour dcrire les effectifs issus du croisement de lattribut classe K modalits et un descripteur L modalits :
Y/X y1 yk yK
x1
xl # " nkl # nk .
xL
"
n.l
Tableau 3 : Tableau des effectifs lors du croisement de deux variables Revue MODULAD, 2005 - 167 Numro 33
Pour valuer la pertinence de la variable dans la segmentation, CHAID propose dutiliser le Khi-2 dcart lindpendance, bien connu en statistique, dont la formule est la suivante :
n n n kl k . .l K L n 2 = n k . n.l k =1 l =1 n
2
Le critre du Khi-2 varie de 0 +. Il nest pas ais de le manipuler car il avantage les descripteurs ayant un nombre lev de modalits. Il est bien souvent prfrable de le normaliser par le nombre de degrs de liberts, en prenant par exemple le t de Tschuprow dont le domaine de 2 dfinition est [0 ; 1] ( t = ). Cette variante nest pas propose dans le descriptif
n
(K 1) (L 1)
originel de Kass (1980). Elle na aucun effet si les descripteurs comportent le mme nombre de modalits, mais elle semble de bon sens ds lors que lon traite des descripteurs trs disparates.
t de Tschuprow 0.3559 0.2582
Ensoleillement Vent
Tableau 4 : Descripteurs discrets candidats sur la racine de l'arbre
Dans lexemple, le calcul du t de Tschuprow sur les deux descripteurs candidats a produit les rsultats repris dans le Tableau 4. Nous notons que la meilleure variable est bien ensoleillement avec un t de Tschuprow de 0.3559. Ce processus est ritr sur chaque sommet que lon veut segmenter. Sil semble assez lourd au premier abord, il est facile implmenter sur les ordinateurs, et surtout son temps dexcution est raisonnable dans la pratique, mme lorsque la base contient un nombre lev de descripteurs. Cela nest gure tonnant dans la mesure o la complexit de lopration est linaire par rapport au nombre dindividus et de variables. Ceci reste vrai tant quil est possible de faire tenir la totalit de la base de donnes en mmoire. Si ce nest pas le cas, il savre ncessaire de parcourir toute la base sur le disque pour valuer la pertinence de chaque descripteur. Lopration peut se rvler trs lente. Des stratgies ont t proposes pour amliorer la rapidit du systme face de grandes bases de donnes, sans dgrader les performances (Catlett, 1991 ; Chauchat et Rakotomalala, 2000). Il existe une quantit trs grande de publications relatives la dfinition dune mesure pertinente dvaluation dun partitionnement dans les arbres de dcision. Certains essaient de les classer selon un ou plusieurs critres (Shih, 1999) ; dautres essaient de trouver une formulation gnrique permettant de retrouver lensemble des mesures sous forme de cas particuliers (Wehenkel, 1996). Un trs grand nombre de travaux ont compar leurs performances en utilisant un algorithme standard tel que ID3 dans lequel la mesure tester est substitue lindicateur originel (le gain dentropie de Shannon dans ce cas). La quasi-totalit de ces exprimentations ont montr que, ds lors que les mesures utilises possdent de bonnes proprits de spcialisation, cest--dire tendent mettre en avant les partitions avec des feuilles pures, elles ne jouent pas un rle majeur dans la qualit de la prdiction (Mingers, 1989 ; Buntine et Niblett, 1992), conclusion laquelle taient dj arrivs les promoteurs de la mthode CART plusieurs annes auparavant (Breiman et al., 1984). Enfin, un point important : on voit se dessiner ici un des principaux reproches que lon peut adresser aux arbres de dcision : leur instabilit. En effet, lorsque des descripteurs possdent un pouvoir prdictif quivalent, la dtection de la variable correspondant au maximum est fortement dpendant de lchantillon dapprentissage, les choix effectus sur les parties hautes de larbre
ntant pas sans consquence sur les choix raliss sur les parties basses. Il est tout fait possible dobtenir un arbre visuellement trs diffrent en modifiant quelques observations de lchantillon. Cette instabilit est trs gnante pour les praticiens, qui la comparent des mthodes linaires, comme lanalyse discriminante, o des modifications mineures dans lchantillon se traduisent par une variation faible des coefficients calculs. Il faut cependant rappeler que, si le modle de prdiction larbre de dcision semble trs diffrent, la variabilit de la prdiction sur un individu pris au hasard dans la population nest pas aussi forte et, gnralement, on lui attribuera la mme tiquette.
3.2 Traitement des variables continues

Plaons nous maintenant sur le sommet le plus gauche sur le 2me niveau de larbre. Il couvre 5 individus et a t segment laide de la variable humidit , le seuil de coupure utilis tant 77.5 % . Ce rsultat est la consquence de deux tches lmentaires : 1. Slectionner la meilleure valeur de coupure pour chaque variable continue ; 2. Slectionner globalement la meilleure segmentation en comparant la pertinence de tous les descripteurs : les descripteurs discrets et les descripteurs continus qui ont t dcoups en 2 intervalles. Choix du point de coupure La premire opration consiste dterminer le meilleur point de coupure pour les variables continues. Dans ce didacticiel, nous considrons le cas du dcoupage binaire. Ceci nest pas limitatif dans la mesure o il est possible de reconsidrer la mme variable sur un sommet situ plus bas dans larbre et initier une autre discrtisation avec une valeur seuil diffrente. Les tudes valuant lopportunit dune discrtisation n-aire ont par ailleurs montr quil ny avait pas davantage raliser ce type de dcoupage, mis part que lon rduit visuellement le nombre de niveaux de larbre, sans en rduire le nombre de feuilles. Le choix du seuil de discrtisation doit tre cohrent avec la procdure de slection des variables de segmentation ; il parat donc naturel de faire intervenir dans le choix de la borne le t de Tschuprow qui sert valuer les partitions. Le procd est alors relativement simple pour un descripteur continu X : il sagit dans un premier temps de trier les donnes selon les valeurs de X, puis tester chaque borne de coupure possible entre deux valeurs de la variable en calculant le Tschuprow du tableau de contingence que lon forme temporairement. Pour illustrer notre propos, considrons le cas de la variable humidit pour le sommet que nous voulons segmenter (Figure 2).
Figure 2 : Slection de la borne de discrtisation Revue MODULAD, 2005 - 169 Numro 33
Dtaillons les calculs et commentons-les. Il y a 5 observations sur le sommet, avec 4 valeurs distinctes de la variable humidit . Nous pouvons tester 3 points de coupures candidats. Gnralement, le point de coupure est pris mi-chemin entre 2 points successifs ; en ralit toute valeur situe dans lintervalle pourrait tre utilise. Il est inutile dessayer de trouver un point de coupure entre deux valeurs ex-aequo. Cette remarque, qui semble tout fait superflue (elle est visuellement vidente) nest pas sans consquences parfois dsastreuses si lon nen tient pas compte lors de limplmentation sur ordinateur. Pour chaque point de coupure tester, nous formons le tableau de contingence et nous calculons lindicateur associ ; le t de Tschuprow ici. Nous constatons que le meilleur dcoupage produit une partition pure, avec un Tschuprow gal 1. La borne de dcoupage optimale est 77.5 %.
La discrtisation sopre donc en deux tapes : (1) trier les donnes, (2) tester chaque point de coupure candidat et retenir celui qui optimise lindicateur de qualit du partitionnement. Le temps de calcul nest pas rdhibitoire tant que la base de donnes est de taille raisonnable, surtout sur les ordinateurs actuels. En revanche, ds lors que la base atteint une taille critique, de lordre de plusieurs centaines de milliers dindividus, avec un grand nombre de descripteurs continus, la majeure partie du temps de construction de larbre est utilise trier les donnes et tester les points de coupures. Il existe plusieurs stratgies pour remdier ce goulot dtranglement. Au lieu de trier localement les donnes sur le sommet que lon traite, on les ordonne une fois pour toutes avant lexcution de lapprentissage et lon conserve un index des variables tries (Witten et Franck, 2000). La borne de discrtisation tant de toute manire un estimateur, il est possible de le calculer sur un chantillon rduit des observations prsentes sur le sommet (de lordre de 500 individuspar exemple) sans dgrader la qualit de lapprentissage (Chauchat et Rakotomalala, 2000). Enfin, il ne parat pas ncessaire de tester les points de coupures situs entre deux observations portant la mme tiquette. Dans lexemple, les deux bornes (87.5 et 92.5) ne devraient pas tre values. Des travaux ont montr quavec certaines mesures, il tait impossible damliorer lindicateur de qualit de partition avec un point de coupure situ entre deux individus de mme tiquette (Fayyad et Irani, 1993 ; Muhlenbach et Rakotomalala, 2005). Slectionner la variable de segmentation Aprs avoir dtermin le point de coupure optimal pour chaque variable continue, ltape suivante consiste dterminer la variable de segmentation pour le sommet trait. La procdure est encore relativement simple. Il sagit de slectionner parmi lensemble des variables, discrtes ou continues discrtises, celle qui maximise la mesure de rfrence sur le sommet que nous sommes en train de traiter. Dans notre cas, nous calculons donc le t de Tschuprow pour lensemble des variables (Tableau 5). Il apparat que la variable humidit est optimale, ce qui nest pas tonnant dans la mesure o elle a permis de mettre en avant des feuilles pures.
Descripteur Point de coupure T de Tschuprow
Humidit Temprature Vent Soleil
77.5 77.5 -
1.00 0.67 0.17 0.00
Tableau 5: Segmentation candidates et bornes de discrtisation associes pour les descripteurs continus
La borne de discrtisation calcule localement lors de la segmentation peut tre trs instable car le rsultat est fortement dpendant de lchantillon dapprentissage. De plus la valeur obtenue
peut ne pas tre interprtable pour lexpert du domaine. Plusieurs solutions ont t mises en avant pour y remdier. La premire possibilit est la facult dintervenir dans le processus dlaboration de larbre. Dans le cas de la discrtisation, la vue dun rsultat propos par un algorithme, lexpert peut lui substituer une valeur de coupure plus approprie pour un sommet ; le reste de larbre peut alors tre construit automatiquement. La seconde possibilit est la dfinition dun point de coupure flou : nous dfinissons sur un sommet non plus une estimation ponctuelle mais une distribution de points de coupures. Ceci permet de rduire considrablement la variabilit des arbres de dcision mais peut nuire leur lecture. En effet, un individu prsent sur le sommet sera redirig sur plusieurs feuilles avec des poids diffrents ; ce processus de dcision est moins immdiat (Suarez et Lutsko, 1999). Enfin, des chercheurs ont compar les performances de la discrtisation locale, lors de la construction de larbre, avec une discrtisation globale des variables, dans une phase de prtraitement, suivie dune construction de larbre sur les donnes pr-discrtises. Assez curieusement, il ny a pas de diffrence notable de performance entre ces deux approches alors que le biais dapprentissage est manifestement diffrent (Dougherty et al., 1995). Dans lexemple, si on r-effectue les calculs, on constate que la premire variable de segmentation la racine nest pas ensoleillement mais la variable humidit avec un seuil de 82.5. Nous avons volontairement exclu les variables continues lors de la segmentation de ce premier sommet pour les besoins de lexplication.
3.3 Dfinir la bonne taille de larbre

Dans leur monographie, Breiman et al. (1984) affirmaient que les performances dun arbre de dcision reposaient principalement sur la dtermination de sa taille. Les arbres ont tendance produire un classifieur trop complexe, collant exagrment aux donnes ; cest le phnomne de sur-apprentissage. Les feuilles, mmes si elles sont pures, sont composes de trop peu dindividus pour tre fiables lors de la prdiction. Il a t dmontr galement que la taille des arbres a tendance crotre avec le nombre dobservations dans la base dapprentissage (Oates et Jensen, 1997). Le graphique mettant en relation les taux derreur (calculs sur lchantillon servant llaboration du modle et sur un chantillon part) avec le nombre de feuilles de larbre a servi montrer justement la ncessit de dterminer une rgle suffisamment efficace pour assurer les meilleures performances larbre de dcision (Figure 3). Dans cet exemple, nous voyons effectivement qu mesure que le nombre de feuilles la taille de larbre augmente, le taux derreur calcul sur les donnes dapprentissage diminue constamment. En revanche, le taux derreur calcul sur lchantillon test montre dabord une dcroissance rapide, jusqu un arbre avec une quinzaine de feuilles, puis nous observons que le taux derreur reste sur un plateau avant de se dgrader lorsque larbre est manifestement surdimensionn. Lenjeu de la recherche de la taille optimale consiste stopper - pr-lagage - ou rduire post-lagage - larbre de manire obtenir un classifieur correspondant au coude de la courbe sur chantillon test, lorsque le taux derreur commence stagner. Dans ce qui suit, nous dtaillerons tout dabord la mthode implmente par CHAID (pr-lagage) ; vue limportance du sujet, nous tudierons le post-lagage dans la section suivante.
Revue MODULAD, 2005
- 171 -
Numro 33
0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 50 100 150 200 250
Apprentissage Test
Figure 3 : Evolution taux d'erreur en apprentissage et en test
Pr-lagage Le pr-lagage consiste fixer une rgle darrt qui permet de stopper la construction de larbre lors de la phase de construction. Une approche trs simple consiste fixer un critre darrt local, relatif au sommet que lon est en train de traiter, qui permet dvaluer lapport informationnel de la segmentation que lon va initier. En ce sens, CHAID a le mrite de la cohrence : on accepte la segmentation si le Khi-2 calcul (ou le t de Tschuprow) sur un sommet est significativement suprieur un seuil que lon se fixe. La formalisation passe par un test dhypothse statistique : lhypothse nulle est lindpendance de la variable de segmentation avec lattribut classe. Si le Khi-2 calcul est suprieur au seuil thorique correspondant au risque de premire espce que lon sest fix, on accepte la segmentation (ou ce qui revient au mme, si la p-value calcule est infrieure au risque de premire espce). Dans lexemple ci-dessus, pour segmenter le sommet le plus gauche du second niveau, nous avons utilis la variable humidit qui donne un t de Tschuprow gal 1.0. En ralisant le test dindpendance du Khi-2, la p-value calcule est de 0.025 ; si nous fixons un risque de premire espce de 5% la segmentation sera accepte ; si nous fixons un risque de 1%, elle sera refuse. Nous sommes en prsence, dans cet exemple, de la principale difficult de cette approche : comment choisir le risque qui sera utilis dans le test ? En effet, larbre rsultant sera fortement dpendant du paramtre que lon aura choisi. Il est trs difficile de choisir correctement le seuil dans la pratique : sil est trop restrictif, larbre sera sous-dimensionn (dans lexemple, avec un seuil 1%, larbre aurait t stopp ds la racine); sil est trop permissif, larbre sera sur-dimensionn. Ce problme est thoriquement insoluble parce que la rgle darrt na aucun lien direct avec lobjectif de construire un arbre de dcision le plus prcis possible dans la phase de prvision. Le test correspond un test dindpendance statistique, utilisant le Khi-2 qui est une mesure symtrique, donc nous ne nous situons pas dans une situation de prvision. De plus, lorsque les effectifs sont levs, nous sommes souvent obligs de fixer un risque de premire espce trs bas, la limite de la prcision des calculateurs, pour esprer contrler la taille de larbre. Enfin lvaluation est locale un sommet : on ne tient pas compte du comportement global de larbre. Malgr tout, lusage, cette approche donne cependant de bons rsultats. On en devine lexplication en regardant le graphique dvolution de lerreur ci-dessus (Figure 3) : la plage dans laquelle lerreur en gnralisation est
faible est relativement large ; il suffit donc de proposer une rgle assez frustre pour obtenir un arbre convenable (en prenant garde ne pas produire un arbre sous-dimensionn). Plus ennuyeux aux yeux des puristes est lutilisation mme du test ci-dessus. En effet, nous ne sommes pas en prsence dun test dindpendance classique car la variable que nous testons a t produite aux termes de plusieurs tapes doptimisation : recherche du point de discrtisation optimal pour les variables continues ; recherche ensuite de la variable de segmentation qui maximise la mesure utilise. Nous nous trouvons en situation de comparaisons multiples et la loi statistique nest plus la mme : nous accepterons trop souvent les segmentations (Jensen et Cohen, 2000). On peut songer corriger le test en introduisant certaines procdures connues comme la correction de Bonferroni (prsente dailleurs dans le descriptif originel de CHAID). En ralit le risque critique joue avant tout le rle dun paramtre de contrle de la taille de larbre. Dans la pratique, ce type de correction namne pas damlioration en termes de performances de classement. Dautres critres plus empiriques relatifs la taille des feuilles peuvent tre mis en place. Lobjectif est dviter lapparition de sommets deffectifs trop faibles pour esprer obtenir une prdiction fiable. Ils reposent en grande partie sur lintuition du praticien. Ils peuvent galement tre fixs en procdant des essais : la premire stratgie consiste fixer une taille de sommet partir de la laquelle nous ne ralisons plus de tentative de segmentation ; la seconde revient fixer un effectif dadmissibilit : si une des feuilles produites par la segmentation est infrieure un seuil que lon sest fix, lopration est refuse. De nature plutt empirique, ces rgles darrt se rvlent pratiques lors de la mise en oeuvre des arbres de dcision dans des tudes relles. Post-lagage Cette approche est apparue avec la mthode CART (Breiman et al, 1984). Elle a t trs largement reprise sous diffrentes formes par la suite. Le principe est de construire larbre en deux temps : une premire phase dexpansion, o lon essaie de produire des arbres les plus purs possibles et dans laquelle nous acceptons toutes les segmentations mme si elles ne sont pas pertinentes cest le principe de construction hurdling ; dans un second temps, nous essayons de rduire larbre en utilisant un autre critre pour comparer des arbres de tailles diffrentes. Le temps de construction de larbre est bien sr plus lev ; il peut tre pnalisant lorsque la base de donnes est de trs grande taille ; en contrepartie, lobjectif est dobtenir un arbre plus performant en classement. Deux approches sopposent dans la littrature. La premire, en sappuyant sur des formulations baysiennes (ou des drives telles que la thorie de la description minimale des messages) transforment le problme dapprentissage en un problme doptimisation. Le critre traduit le compromis entre la complexit de larbre et son aptitude coller aux donnes. Dans la thorie de la longueur minimale des messages, le critre tablit un comprmis entre la quantit dinformations ncessaire pour dcrire larbre, et les donnes qui font exception larbre (Wallace et Patrick, 1993). Malgr llgance des formulations utilises, il faut reconnatre que ces mthodes sont peu connues ; elles ne sont dailleurs implmentes que dans quelques programmes distribus sous forme de code source (Buntine, 1991 ; Kohavi et Sommerfield, 2002). Plus rpandues sont les mthodes sappuyant sur une estimation non-biaise du taux derreur en classement lors de la phase dlagage. Certaines utilisent une estimation calcule sur le mme chantillon dapprentissage mais pnalise par la taille de leffectif du sommet traiter (C4.5 Quinlan, 1993) ; dautres utilisent une valuation du taux derreur avec un second chantillon, dit de validation (le terme anglais pruning set est moins ambigu) (cas de CART - Breiman et al., 1994). Le parallle entre ces deux mthodes a t ralis dans un article publi par deux auteurs importants dans le domaine des arbres (Kohavi et Quinlan, 2002). La premire est plus connue dans le monde de lapprentissage automatique ; la seconde est plus cote chez les statisticiens. Nous nous bornerons dire que la mthode CART se rvle plus robuste dans la pratique. Elle intgre tous les bons ingrdients dun apprentissage efficace : valuation non biaise de lerreur pour dterminer
le bon arbre ; rduction de lespace des hypothses avec le principe des squences darbres rangs cot-complexit dcroissant, limitant ainsi le risque de sur-apprentissage sur lchantillon de validation ; prfrence donne la simplicit avec la rgle de 1cart-type avant lerreur minimale : lide est de se rapprocher du coude dans lvolution de lerreur en fonction du nombre de feuilles de larbre (Figure 3). Lorsque la taille du fichier dapprentissage est rduite, un systme de validation croise est propos pour raliser le post-lagage.
3.4 Dcision
Dernire tape de la construction de larbre : affecter une conclusion chaque feuille de larbre. Le chemin reliant une feuille la racine de larbre peut tre lu comme une rgle de prdiction du type attribut-valeur Si prmisse alors Conclusion ; comment conclure, cest-dire attribuer une tiquette une feuille ? Lorsque la feuille est pure, lui attribuer la conclusion correspond la seule modalit prsente semble naturel. Dans lexemple, toutes les feuilles tant pures, nous pouvons trs facilement dduire 5 rgles (Tableau 6).
N 1 2 3 4 5 Prmisse Ensoleillement = Soleil ET Humidit < 77.5 Ensoleillement = Soleil ET Humidit >= 77.5 Ensoleillement = Couvert Ensoleillement = pluie ET Vent = oui Ensoleillement = pluie ET Vent = non Tableau 6: Rgles extraites de l'arbre de la Figure 1 Conclusion Jouer = oui Jouer = non Jouer = oui Jouer = non Jouer = oui
En revanche, lorsque plusieurs modalits sont prsentes dans la feuille, il faut utiliser une rgle dattribution efficace. La rgle la plus souvent utilise est la rgle de la majorit : on affecte la feuille la modalit de la variable prdire qui prsente leffectif le plus grand. Cette rgle, qui semble de bon sens, repose sur des fondements thoriques bien tablis. En effet, la distribution de frquences visible sur la feuille est une estimation de la probabilit conditionnelle dappartenance chaque tiquette de la variable prdire ; affecter la feuille ltiquette la mieux reprsente minimise donc la probabilit de mauvaise affectation sous deux conditions : les donnes constituent un chantillon reprsentatif de la population ; les cots de mauvaise affectation sont unitaires (les bonnes affectations cotent 0, et les mauvaises affectations cotent 1). Lorsque nous nous cartons de ce cadre, notamment lorsque les cots de mauvaise affectation ne sont pas symtriques, ce qui est souvent le cas dans les tudes relles, il faut se mfier de la rgle de la majorit : la conclusion devrait tre celle qui minimise le cot moyen de mauvaise affectation. Lle dtail des calculs sur un exemple est dcrit dans louvrage de Bardos (2001).
3.5 Fusion des sommets lors de la segmentation

CHAID intgre une variante assez intressante par rapport aux quatre lments standards voqus dans ce didacticiel : la possibilit de fusionner les sommets enfants issus dune segmentation (Kass, 1980). Initialement, chaque modalit du descripteur induit un sommet enfant (ID3 et C4.5 par exemple) ; certaines mthodes comme CART imposent linduction dun arbre binaire et donc les modalits sont regroupes en deux sous-ensembles de manire optimiser lindicateur de qualit de la partition. Dans CART (Breiman et al., 1984), le regroupement nest pas justifi, lobjectif tant plutt de proposer des solutions pour rduire le nombre de calculs ncessaires pour produire le regroupement binaire optimal. Quinlan (1993) a explor de manire
empirique linfluence des regroupements, il montre que cet artifice permet de rduire la largeur de larbre sans vraiment en amliorer les performances en classement. Pourtant, les avantages du regroupement ne sont pas ngligeables (Rakotomalala, 1997). Il permet de lutter contre la fragmentation, surtout prjudiciable lorsque lon travaille sur des petits effectifs ; il amliore la lisibilit de larbre en isolant les modalits non-informatives des descripteurs ; il permet aussi de rduire la taille de larbre en vitant que des squences de segmentations se rptent dans diffrentes zones de larbre (la rplication des sous-arbres ). CHAID propose un procd original, toujours en adquation avec son approche statistique. Il vrifie la proximit des profils des sommets enfants issus de la segmentation et fusionne itrativement les sommets produisant des feuilles avec des distributions similaires. Il utilise pour ce faire un test dquivalence distributionnelle du Khi-2 pour lequel un paramtre - le risque de premire espce du test - est fix par lutilisateur. Lalgorithme est trs simple : on fusionne dabord les deux feuilles prsentant le profil le plus proche, au sens du test ; on ritre lopration sur les feuilles restantes jusqu ce quaucune fusion ne soit plus possible. Il se peut quil ny ait aucune fusion de ralise pour une segmentation donne ; il se peut aussi que tous les sommets enfants soient fusionns dans un seul groupe, rejetant doffice la possibilit de segmenter avec le descripteur. Pour deux sommets fusionner, la statistique du Khi-2 est la suivante, elle suit une loi du 2 (K-1) degrs de libert sous lhypothse dgalit des distributions :
nk1 nk 2 K n n .2 2 = .1 nk1 + nk 2 k =1 n.1 n.2
2
Reprenons lexemple et introduisons maintenant la possibilit de raliser des fusions (Figure 1). La segmentation de la racine de larbre laide de la variable ensoleillement est maintenant prcde dune phase de fusion des sommets enfants gnrs. Pour faciliter la lecture, nous numrotons les sommets enfants du second niveau de droite gauche (a, b et c). Fixons le risque de premire espce du test dquivalence distributionnelle 10%. Le premier passage essaie de fusionner les sommets deux deux ; les rsultats des calculs sont repris dans le Tableau 7.
Sommets a&b a&c b&c Distribution CHI-2 (2 ; 3) et (4 ; 0) (2 ; 3) et (3 ; 2) (4 ; 0) et (3 ; 2) p-value 3.60 0.40 2.06 0.058 0.527 0.151 Sortie fusion
Tableau 7 : 1re passe, fusion des sommets pour la segmentation de la racine
Nous constatons quau risque de 10%, les sommets (a & c) et (b & c) peuvent tre fusionns (p-value suprieure au seuil). Les distributions qui sont les plus proches sont celles des sommets (a & c), nous dcidons donc de les fusionner. Au deuxime passage, nous re-numrotons les sommets en A (a & c) et B (b). Puis relanons les calculs (Tableau 8). Nous constatons dans ce cas quaucune fusion nest possible, les deux sommets prsentant des distributions diffrentes au sens de notre test.
Sommets A&B Distribution CHI-2 (5 ; 5) et (4 ; 0) p-value 3.11 0.078 Sortie
Tableau 8 : 2me passe, fusion des sommets pour la segmentation de la racine
Revue MODULAD, 2005
- 175 -
Numro 33
En activant cette option, la segmentation de la racine de larbre laide de la variable ensoleillement aurait donc produit le partitionnement suivant (Figure 4).
Figure 4 : Segmentation de la racine de l'arbre avec fusion des sommets enfants
Notons que cette technique ne joue aucun rle lorsque nous traitons les descripteurs continus car la segmentation est forcment binaire dans ce cas. Notons galement que si la variable de segmentation est ordinale, il est possible dintgrer cette contrainte dans la recherche des fusions (dans notre exemple, on peut tester les fusions a&b et b&c, mais pas a&c).
4 Un exemple dtaill
4.1 Donnes et logiciels
Pour illustrer linduction des arbres de dcision sur des donnes relles ou tout du moins ralistes nous avons choisi le fichier IRIS de Fisher (1936) : il dcrit 150 observations correspondant trois varits diris { setosa , versicolor , virginica } partir de leurs caractristiques morphologiques (longueur des spales, largeur des spales, longueur des ptales, largeur des ptales). Il est accessible sur plusieurs serveurs de donnes, sur le site UCI Irvine par exemple (Hettich et Bay, 1999). Lintrt de ce fichier est essentiellement pdagogique, il prsente des particularits trs intressantes qui rendent la comprhension et linterprtation des rsultats faciles. Pour dautres types dtudes, donnes financires ou mdicales, il existe des exemples dtaills dans plusieurs publications en franais (Gueguen, 1994 ; Zighed et Rakotomalala, 2000 ; Bardos, 2001). Pour ce didacticiel, nous avons utilis le logiciel SIPINA (Systme Interactif pour lInduction Non-Arborescente), initi par Zighed (1992) ; la version que nous utilisons a t dveloppe par nos soins de 1998 2000 (http://eric.univ-lyon2.fr/~ricco/sipina). Ce logiciel est ddi lapprentissage supervis ; il possde une large bibliothque dalgorithmes dinduction darbres. Par rapport aux logiciels libres disponibles par ailleurs, il intgre galement un module interactif qui permet lutilisateur dintervenir manuellement lors de la construction de larbre. Cette spcificit, trs rarement disponible sur les logiciels de recherche, est en revanche systmatiquement prsente dans les logiciels commerciaux telles que COGNOS, SAS, SPAD, SPSS, STATISTICA ; elle a trs largement contribu populariser les arbres de dcision auprs des praticiens. SIPINA prsente des lacunes qui nous ont pouss dvelopper le logiciel TANAGRA (Rakotomalala, 2005) : les choix architecturaux nous ont empch dintgrer des mthodes autres que le supervis ; il nest pas possible de sauvegarder les traitements et leur enchanement, imposant lutilisateur de refaire toute la squence de manipulations sil veut reprendre une analyse interrompue. Concernant les arbres, la possibilit dinteragir en explorant les sommets de larbre oblige sauvegarder une quantit importante dinformations qui limite les performances du logiciel sur de trs grandes bases de donnes. Relativisons nanmoins cette dernire limitation qui tait rdhibitoire il y a quelques annes : notre machine de dveloppement disposait de 64 Mo de RAM. Elle est moins contraignante de nos jours : notre machine actuelle dispose de 1 Go de RAM. Il est
vrai que, dans le mme temps, la taille moyenne des bases de donnes a galement augment, mais dans des proportions moindres.
4.2 Analyse automatique avec CHAID

Le logiciel est tlchargeable sur le site indiqu ; la procdure dinstallation est standardise. La premire tape consiste charger les donnes via le menu FILE / OPEN , choisir lextension TXT pour accder au format texte. Dans SIPINA, le point dcimal est toujours le . quelle que soit la version de Windows. Il faut galement spcifier le type de sparateur (tabulation) et indiquer que la premire ligne contient le nom des variables. Les donnes sont alors affiches dans la grille principale du logiciel. Il est possible dditer les donnes bien que les possibilits en ce sens soient assez rduites. Par dfaut, IMPROVED CHAID est la mthode dapprentissage slectionne. Elle correspond au descriptif de ce didacticiel. Elle diffre de CHAID essentiellement par lutilisation du t de Tschuprow comme mesure dvaluation du partitionnement. Nous devons maintenant dfinir le problme traiter en slectionnant les descripteurs (les 4 caractristiques) et lattribut prdire (la variable TYPE) avec le menu ANALYSIS / DEFINE CLASS ATTRIBUTE ; puis, subdiviser le fichier en partie apprentissage 67% (100 individus) et test 33% (50 individus) laide du menu ANALYSIS / SELECTIVE ACTIVE EXAMPLES, puis en choisissant loption RANDOM SAMPLING. La subdivision tant alatoire, il est possible que vous nobteniez pas un partage identique ce que nous dcrivons dans ce document. La fentre principale du logiciel doit correspondre la figure cidessous. On note gauche la description du traitement que nous allons excuter avec plus particulirement les paramtres par dfaut de linduction : risque de 1re espce pour la fusion 5% - et la rgle darrt 1% ; taille minimale du sommet segmenter 10 ; taille minimal des sommets enfants gnrs 5 (Figure 5).
Figure 5 : Fentre principale du logiciel SIPINA
A ce stade, il est possible de lancer lanalyse en activant le menu ANALYSIS / LEARNING, larbre de dcision obtenu est dcrit dans la figure suivante (Figure 6).
Figure 6 : Arbre de dcision sur 100 individus pris au hasard dans le fichier IRIS
La lecture des rgles de dcision est immdiate : trois rgles ont t produites ; nous constatons galement que 2 variables seulement parmi les 4 ont t rellement utilises (Tableau 9). N
1 2 3
Prmisse
Longueur des ptales < 2.45 Longueur des ptales >= 2.45 ET Largeur des ptales < 1.75 Longueur des ptales >= 2.45 ET Largeur des ptales >= 1.75
Conclusion
Type = setosa Type = versicolor Type = virginica
Tableau 9: Rgles extraites de l'arbre traitant le fichier IRIS (Figure 6)
4.3 Evaluation du modle de prdiction

Une manire classique dvaluer la qualit de lapprentissage est de confronter la prdiction du modle avec les valeurs observes sur un chantillon de la population. Cette confrontation est rsume dans un tableau crois appel matrice de confusion. Il est possible den extraire des indicateurs synthtiques, le plus connu tant le taux derreur ou taux de mauvais classement. Il est possible de linterprter comme un cot moyen de mauvais classement lorsque la matrice de cot de mauvaise affectation est unitaire ; il est galement possible de linterprter comme un estimateur de la probabilit deffectuer une mauvaise prdiction laide de larbre de dcision. Le principal intrt du taux derreur est quil est objectif ; il sert gnralement comparer les mthodes dapprentissage sur un problme donn. Pour obtenir un indicateur non biais, il est impratif de ne pas le mesurer sur lchantillon qui a servi laborer le modle. A cet effet, le praticien met souvent de ct un chantillon, dit de test, qui servira valuer et comparer les modles. Dans notre exemple, nous allons utiliser les 50 individus qui nont pas servi lapprentissage. Aprs les avoir tiquets avec larbre de dcision, nous obtenons la matrice de confusion (Tableau 10). Dans SIPINA, nous devons activer le menu ANALYSIS / TEST et choisir loption INACTIVE EXAMPLES (choisir les exemples actifs reviendrait valuer le modle sur les donnes ayant servi sa construction, le taux derreur obtenu est dit de resubstitution dans ce cas).
Revue MODULAD, 2005
- 178 -
Numro 33
Prdite Setosa Observ Setosa Versicolor Virginica Somme 17 0 0 17 Versicolor 0 17 2 19 Virginica 0 0 14 14 Somme 17 17 16 50
Tableau 10: Matrice de confusion sur l'chantillon test
2 = 4% , nous pouvons donc dire quen classant un 50 individu pris au hasard dans la population, nous avons 4 chances sur 100 de raliser une mauvaise affectation. Attention, si le taux derreur en test est non biais, il ne donne aucune ide sur la variance de lindicateur ; il est plus appropri dans ce cas dutiliser les mthodes de rchantillonnage telles que la validation croise ou le bootstrap (Efron et Tibshirani, 1997).
Le taux derreur en test est gal test =
Quoiquil en soit, ce taux derreur est intressant. En effet, sans modle, si nous attribuons au hasard une tiquette un individu de la population, compte tenu de la rpartition initiale, nous avons 67% de chances de raliser une mauvaise affectation.
4.4 Interprtation gomtrique

Un des principaux intrts du fichier IRIS, outre sa paternit prestigieuse et sa large diffusion dans notre communaut, est la possibilit de donner une interprtation simple et visuelle la rgle daffectation. Larbre a slectionn 2 variables pertinentes, nous allons donc projeter les points dans le plan en mettant en vidence l tiquette des individus (Figure 7).
3.0 2.5 Largeur des ptales 2.0 1.5 1.0 0.5 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 Longueur des ptales
Setosa Versicolor Virginica
Figure 7 : Frontires induites par l'arbre de dcision dans l'espace de reprsentation
Le principe dinduction par arbre de dcision est trs bien traduit par ce graphique : la mthode vise produire des sous-groupes aussi homognes que possibles en traant des droites de sparation dans lespace de reprsentation. Par rapport aux mthodes linaires classiques telles que lanalyse discriminante, ces droites ont la particularit dtre parallles aux axes , elles peuvent galement simbriquer. Au final, le modle de prdiction global est non-linaire. De fait, il est possible avec un arbre de dcision de trouver une reprsentation qui apporte une solution tout problme de discrimination pour peu que la classe ne soit pas bruite , cas o
plusieurs individus dcrits de la mme manire ont des tiquettes diffrentes. Cela ne veut pas dire pour autant quun algorithme dinduction darbre est capable de trouver la solution. En effet le principe de construction pas pas, local sur chaque sommet, qualifi de myope (Kononenko et al., 1997), empche de trouver la solution globalement optimale ; le partitionnement successif entrane la fragmentation des donnes et il devient rapidement difficile de trouver les bonnes frontires dans certaines zones de lespace de reprsentation car nous ne disposons plus dobservations suffisantes.
4.5 Manipulation interactive de larbre

A la lumire du graphique ci-dessus (Figure 7), nous constatons quil existe plusieurs solutions au problme de discrimination des IRIS, en utilisant les mmes deux variables de notre ensemble de donnes. Il aurait t possible par exemple de segmenter la racine avec la variable Largeur des ptales avec un seuil (estim visuellement) gal 0.8 ; cela aurait permis galement disoler compltement les observations portant ltiquette setosa . De la mme manire, au second niveau, dans la partie droite de larbre, nous pouvons galement initier une coupure avec la variable Longueur des ptales , avec un seuil estim visuellement 5.0. Un des avantages dcisifs des arbres de dcision est justement la possibilit pour le praticien de tenter des segmentations diffrentes, inspires par les connaissances du domaine (la variable est plus fiable, plus reprsentative dun phnomne connu, moins coteuse mesurer, etc.). Cela permet ainsi de mieux dcider lorsque deux descripteurs sont en comptition pour la segmentation dun nud. La popularit des logiciels qui implmentent les arbres de dcision repose en grande partie sur cette fonctionnalit ; il est impensable lheure actuelle de diffuser un logiciel commercial qui ne lintgre pas. Dans lexemple darbre de dcision, nous allons valuer les segmentations concurrentes sur le sommet droite au second niveau de larbre. Pour ce faire, dans SIPINA, nous allons tout dabord supprimer les feuilles qui lui sont conscutifs en activant le sommet, effectuer un clic avec le bouton droit de la souris et slectionner loption de menu CUT. Pour visualiser les segmentations candidates, il faut r-activer de nouveau le menu contextuel et cliquer sur loption SPLIT NODE. Une bote de dialogue affichant tous les descripteurs tris par ordre dcroissant de lindicateur de qualit de la segmentation apparat alors (Figure 8). Nous constatons que si la variable Largeur des ptales tient la premire place avec un t de Tschuprow de 0.56, la variable Longueur des ptales en est trs proche avec un t de 0.48 ; le seuil de discrtisation est dans ce cas gal 4.75 (dans la partie basse de la fentre), ce qui semble justifi au regard du graphique reprsentant les observations dans le plan. La segmentation associe est galement accepte, symbolise par lhistogramme de couleur verte. En ce qui concerne les deux autres variables, nous constatons que Longueur de spales se situe assez loin avec un t de 0.08 ; mme si la solution propose est accepte, la segmentation propose par la variable Largeur des spales est en revanche refuse.
Revue MODULAD, 2005
- 180 -
Numro 33
Figure 8 : Segmentations alternatives sur le second sommet du second niveau
Pour appliquer la nouvelle segmentation utilisant la variable Longueur des ptales , il faut double-cliquer sur la case correspondante. Larbre de dcision prend alors laspect suivant (Figure 9).
Figure 9 : Arbre de dcision aprs modification manuelle de la variable de segmentation
Dans les logiciels commerciaux, il est mme possible de modifier la main les seuils de discrtisation, ce qui nest pas le cas de SIPINA. Il est bien entendu possible de r-valuer larbre ainsi construit sur lchantillon test pour dterminer la meilleure solution. Mais il faut tre prudent face cette pratique ; en effet lchantillon devient partie prenante dans la construction du modle, il joue le rle dchantillon de
rglage ( tuning set en anglais). En ralit il agit comme un second fichier dapprentissage dans ce cas. En offrant lexpert du domaine la facult de comprendre et dintervenir au cur de linduction, les arbres de dcision largissent considrablement leur champ daction. Il est ainsi possible dintgrer directement dans le processus dapprentissage les connaissances et les contraintes du domaine. Cette caractristique est souvent mise en avant lors de leur mise en uvre dans les problmes rels, en mdecine par exemple (Crmilleux, 1997).
5 Quelques lments de discussion

5.1 Avantages et inconvnients
Linduction par arbres de dcision est une technique arrive maturit ; ses caractristiques, ses points forts et ses points faibles sont maintenant bien connus ; il est possible de la situer prcisment sur lchiquier des trs nombreuses mthodes dapprentissage (Hastie et al., 2001). Les arbres prsentent des performances comparables aux autres mthodes supervises ; les nombreuses comparaisons empiriques lont suffisamment montr (Zighed et Rakotomalala, 2000 ; Lim et al., 2000). La mthode est non paramtrique ; elle ne postule aucune hypothse a priori sur la distribution des donnes ; elle est rsistante aux donnes atypiques ; le modle de prdiction est non linaire. Lorsque la base dapprentissage est de taille importante, elle prsente des proprits similaires aux algorithmes des plus proches voisins (Breiman et al., 1984). Il faut nanmoins temprer ce constat. Le premier reproche quon peut lui adresser est son incapacit, avec les algorithmes classiques (C4.5, CART, CHAID, etc.), dtecter les combinaisons de variables ; ceci est d au principe de construction pas pas de larbre, entranant une certaine myopie . Le second reproche est dans la ncessit de disposer dun chantillon dapprentissage de grande taille. Larbre certes peut reproduire approximativement toutes formes de frontires, mais au prix dune fragmentation rapide des donnes, avec le danger de produire des feuilles avec trs peu dindividus. Corollaire cela, les arbres sont en gnral instables ; les bornes de discrtisation notamment dans les parties basses de larbre sont entaches dune forte variabilit. Ainsi, certains chercheurs prconisent de procder la discrtisation pralable des variables avant la construction de larbre (Dougherty et al., 1995). Linduction par arbre de dcision est capable de traiter de manire indiffrencie les donnes continues et discrtes. Elle dispose de plus dun mcanisme naturel de slection de variables. Elle doit tre privilgie lorsque lon travaille dans des domaines o le nombre de descripteurs est lev, dont certains, en grand nombre, sont non-pertinents. Nous devons galement relativiser cette affirmation. En effet, non sans surprise, des travaux dans le domaine de la slection de variables ont montr que la rduction pralable des descripteurs dans des domaines fortement bruits amliorait considrablement les performances des arbres de dcision (Yu et Liu, 2003). Il y a principalement deux causes cela : force de multiplier les tests, lalgorithme multiplie galement le risque dintroduire des variables non-significatives dans larbre. Ce risque est dautant plus lev que les mthodes comme C4.5, trs utilises dans la communaut de lapprentissage automatique, adoptent la construction hurdling (introduire une variable mme si elle induit un gain nul) en misant, parfois tort, sur le post-lagage pour liminer les branches non-pertinentes de larbre. Enfin, dernier point de diffrenciation, qui assure en grande partie la popularit des arbres auprs des praticiens : leur capacit produire une connaissance simple et directement utilisable, la porte des non-initis. Un arbre de dcision peut tre lu et interprt directement ; il est possible de le traduire en base de rgles sans perte dinformation. A la fin des annes 80, on considrait que cette mthode assurait le renouveau des systmes experts en liminant le goulot dtranglement que constitue le recueil des rgles (Kononenko, 1993). Cette qualit est renforce par la possibilit qua lexpert dintervenir directement dans le processus de cration du modle de prdiction.
Lappropriation de loutil par les experts du domaine assure dans le mme temps une meilleure interprtation et comprhensibilit des rsultats.
5.2 Variantes
Si les arbres de dcision ont connu une priode faste dans les annes 90 avec un trs grand nombre de publications visant en amliorer les performances, force est de constater quaucune avance dcisive na t produite en matire de taux de reconnaissance par rapport aux algorithmes de rfrence que constituent ID3, CHAID, CART et C4.5 (Rakotomalala, 1997 ; Lim et al., 2000). Il parat illusoire aujourdhui de prtendre produire une nouvelle technique surclassant les autres dans un schma dapprentissage simple sur un chantillon de donnes. Le point positif est que ces nombreuses tudes ont permis de mieux matriser les proprits des arbres. Il est possible de caractriser les variantes et le cadre dans lequel elles fonctionnent le mieux. Si elles se rvlent bien souvent performantes sur les donnes artificielles construites partir de fonctions logiques, elles sont peu dcisives sur des bases relles ; elles permettent surtout dobtenir des classifieurs de taille rduite sans dgrader les performances (Breslow et Aha, 1997). La premire catgorie de variantes vise amliorer lalgorithme de recherche dans lespace des solutions, soit en amliorant la mthode dlagage, soit en procdant une optimisation globale plus puissante (le rcuit simul, par exemple), soit en procdant des recherches en avant lors de la segmentation (lookahead search, Ragavan et Rendell, 1993). Ces techniques permettent dobtenir gnralement un arbre plus concis au prix dun temps de calcul plus lev ; elles ne sont pas exemptes de tout reproche (Murthy et Salzberg, 1995). En effet force doptimiser sur le fichier dapprentissage, elles peuvent ingrer des informations qui ne sont pas pertinentes ; on peut se demander ce sujet si la recherche gloutonne nest pas une bonne manire de se prmunir contre le sur-apprentissage. La seconde catgorie de variantes cherche modifier itrativement lespace de recherche en produisant au fur et mesure de nouveaux descripteurs. Connu sous le terme dinduction constructive, lobjectif est de trouver un espace de reprsentation plus appropri en laborant des combinaison de variables (Pagallo et Haussler, 1990). Enfin, dernire possibilit, modifier la forme du concept lui-mme en sortant du cadre de larbre de dcision classique. Deux types de reprsentation sont gnralement rencontrs : les arbres obliques utilisent une combinaison linaire des variables lors de la segmentation des sommets de larbre, cette variante permet de lever la contrainte parallle aux axes lors du partitionnement dans lespace de reprsentation ; gnralement larbre produit est plus concis ; en revanche la lecture des rgles de dcision est un peu plus complique (Murthy et al., 1994 ; Brodley et Utgoff, 1995 ; Cantu-Paz et Kamath, 2003). Les graphes dinduction introduisent un nouvel oprateur fusion dans lalgorithme dapprentissage ; le modle de prdiction nest donc plus un arbre mais un graphe latticiel ; lobjectif est de permettre le regroupement dindividus de mmes caractristiques et dassurer ainsi une meilleure rsistance la fragmentation des donnes (Zighed et al., 1992 ; Oliver, 1993 ; Rakotomalala, 1997). En ralit, cest plutt du ct de la mise en oeuvre des arbres de dcision dans un cadre plus large quil faut trouver les principales innovations de ces dernires annes. On peut citer par exemple leur utilisation dans les mthodes dagrgation de classifieurs. Les travaux de Breiman (1996) sur le bagging , de Freund et Schapiro (1997 ; 2002) sur le boosting et leur utilisation dans les arbres (Quinlan, 1996) ont montr quil tait possible damliorer considrablement les performances du modle de prdiction, au prix certes dune moindre lisibilit de la rgle de dcision puisque plusieurs arbres sont en concurrence lors du classement dun nouvel individu. Autre innovation intressante de ces dernires annes, lextension des algorithmes dinduction aux donnes non-tabulaires avec les donnes floues et symboliques (Olaru et Wehenkel, 2003 ; Prinel, 1996). Outre le fait que ces approches ont permis dtendre le domaine dapplication des arbres de
dcision, elles ont aussi permis de traiter de manire lgante le problme des donnes manquantes, et plus gnralement, le problme des donnes imprcises. Enfin, sil est possible de traiter des bases de tailles consquentes en chargeant toutes les donnes en mmoire (un fichier de 500000 observations avec quelque 60 variables occupe approximativement 128 Mo en mmoire avec un codage efficace ; Rakotomalala, 2005), cela nest plus possible ds que lon veut accder des bases de donnes constitues de millions dobservations. Des techniques spcifiques ont alors t mises au point pour permettre le traitement de telles bases laide dun algorithme dinduction darbre de dcision (Shafer et al., 1996).
6 Conclusion
Les arbres de dcision rpondent simplement un problme de discrimination, cest une des rares mthodes que lon peut prsenter assez rapidement un public non spcialiste du traitement des donnes sans se perdre dans des formulations mathmatiques dlicates apprhender. Dans ce didacticiel, nous avons voulu mettre laccent sur les lments cls de leur construction partir dun ensemble de donnes, puis nous avons prsent une approche la mthode CHAID qui permet de rpondre ces spcifications. Linduction des arbres de dcision a t la coqueluche des chercheurs dans les annes 90 : les rfrences cites dans ce didacticiel sont assez difiantes. Ses proprits sont maintenant bien connues et, si les tentatives pour faire voluer la mthode sont moins nombreuses aujourdhui, elle se positionne surtout comme une mthode de rfrence. Les articles proposant de nouvelles techniques dapprentissage lutilisent souvent dans leurs comparatifs pour situer leurs travaux. La mthode prfre en apprentissage automatique est certainement C4.5 ; la disponibilit du code source sur Internet nest pas trangre ce succs. En ce qui concerne la documentation en franais, Zighed et Rakotomalala (2000) ralisent un large tour dhorizon des mthodes, quelles soient dorigine statistique ou de lapprentissage automatique ; Rakotomalala (1997) produit une description plus technique mettant laccent sur les points essentiels de la construction dun arbre ; il existe galement de nombreux didacticiels qui explicitent la construction dun arbre. On remarquera la prfrence des chercheurs pour CART en France (Nakache et Confais, 2003 ; Bardos, 2001 ; Lebart et al., 2000 ; Gueguen, 1994 ; Celeux et Lechevallier, 1990). En langue anglaise, les surveys sont galement nombreux (Kohavi et Quinlan, 2002 ; Breslow et Aha, 1997 ; Murthy, 1997 ; Safavian et Landgrebe, 1991). Malgr sa relative anciennet, la monographie CART (Breiman et al., 1984) reste une rfrence incontournable, par sa prcision, son exhaustivit et le recul dont les auteurs font preuve dans les solutions quils prconisent.
Rfrences
Bardos M, Analyse Discrimininante : Application au risque et scoring financier, Dunod, 2001. Bouroche J., Tenenhaus M., Quelques mthodes de segmentation, RAIRO, 42, 29-42, 1970. Breiman L, Friedman J., Olshen R., Stone C., Classification and Regression Tree, California: Wadsworth International, 1984. Breiman L., Bagging Predictors, Machine Learning, 24, 123-140, 1996. Breslow L., Aha D., Simplifying Decision Trees: A survey, The Knowledge Engineering Review, 12, 1, 1-40, 1997. Brodley C., Utgoff P., Mutlivariate Decision Trees, Machine Learning, 19, 1, 45-77, 1995.
Buntine W., About the IND tree package, Technical Report, NASA Ames Research Center, Moffet Field, California, September 1991. Buntine W., Niblett T., A further comparison of splitting rules for decision tree induction, Machine Learning, 8, 75-85, 1992. Cantu-Paz E., Kamath C., Inducing Oblique Decision Trees with Evolutionary Algrothms, IEEE Transactions on Evolutionary Computation, 7, 1, 54-69, 2003. Catlett J., Megainduction : machine learning on very large databases, PhD Thesis, University of Sidney, 1991. Celeux G., Lechevallier Y., Mthodes de segmentation, in Analyse Discriminante sur Variables Continues, Celeux G. diteur, INRIA, 7, 127-147, 1990. Chavent M., Guinot C., Lechevallier Y., Tenenhaus M., Mthodes divisives de classification et segmentation non supervise : recherche d'une typologie de la peau humaine saine, Revue de Statistiques Appliques, XLVII (4), 8799, 1999. Chauchat J.H., Rakotomalala R., Sampling Strategy for Building Decision Trees from Very Large Databases Comprising Many Continuous Attributes, in Instance Selection and Construction for Data Mining, Liu H. and Motoda H. Editors, Kluwer Academic Press, 171-188, 2000. Crmilleux B., Classification Interactive, Apprentissage par linteraction, Edition Europa, 207-239, 1997. Efron B., Tibshirani R., Improvements on cross-validation : the .632+ bootstrap method, Journal of the American Statistical Association, 92, 548-560, 1997. Jensen D., Cohen P., Multiple Comparisons in Induction Algorithms, Machine Learning, 38(3), 309-338, 2000. Dougherty J, Kohavi R., Sahami M., Supervised and unsupervised discretization of continuous attributes, in Proceedings of 12th International Conference on Machine Learning, 1942002, 1995. Fayyad U, Irani K., Multi-interval discretization of continuous attributes for classification learning, in Proceedings of the 13th International Joint Conference on Artificial Intelligence, 10221027, 1993. Fisher R., The use of multiple measurements in taxonomic problems, Annals of Eugenics, 7, 179-188, 1936. Freund Y., Schapire R., A decision-theoretic generalization of on-line learning and an application to boosting, Journal of Computer and System Sciences, 55, 1, 119-139, 1997. Gueguen A., Arbres de dcision binaires, in Analyse Discriminante sur Variables Qualitatives, G. Celeux et J.P. Nakache Editeurs, chapitre 7, Polytechnica, 1994. Hand D., Manilla H., Smyth P., Principles of data mining, Bardford Books, 2001. Hastie T., Tibshirani R., Friedman J., The elements of statistical learning - Data Mining, inference and prediction, Springer, 2001. Hettich S., Bay S., The UCI KDD Archive [http://kdd.ics.uci.edu]. Irvine, CA: University of California, Department of Information and Computer Science, 1999. Hunt E.B., Concept Learning: An Information Processing Problem, Wiley, 1962. Kass G., An exploratory technique for investigating large quantities of categorical data, Applied Statistics, 29(2), 119-127, 1980. Kohavi R., Quinlan J., Decision-tree Discovery, in Handbook of Data Mining and Knowledge Discovery, Klsgen and Zytkow Editors, 267-276, 2002.
Kohavi R., Sommerfield D., MLC++. In Will Klosgen and Jan M. Zytkow, editors, Handbook of Data Mining and Knowledge Discovery, chapter 24.1.2, pages 548-553. Oxford University Press, 2002. Kononenko I., Inductive and bayesian learning in medical diagnosis, Applied Artificial Intelligence, 7, 317-337, 1993. Kononenko I., Simec E., Robnik-Sikonja M., Overcoming the myopia of inductive learning algorithm with RELIEFF, Applied Intelligence, 7(1), 39-55, 1997. Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle, Dunod, 2000. Lerman I., Da Costa F., Coefficients dassociation et variables trs grand nombre de catgories dans les arbres de dcision, application lidentification de la structure secondaire de protnes, Rapport INRIA, n2803, Fvrier1996. Lim T., Loh W., Shih Y., A comparison of prediction accuracy, complexity and training of thirty-three old and new classification algorithms, Machine Learning Journal, 40, 203-228, 2000. Mingers J., An empirical comparison of selection measures for decision tree induction, Machine Learning, 3, 319-342, 1989. Morgan J., Sonquist J.A., Problems in the Analysis of Survey Data, and a Proposal, Journal of the American Statistical Association, 58:415-435, 1963. Morgan J., Messenger R., THAID-a sequential analysis program for the analysis of nominal scale dependent variables, Survey Research Center, U of Michigan, 1973. Muhlenbach F., Rakotomalala R., Discretization of Continuous Attributes, Encyclopedia of Data Warehousing and Mining, Wang J. editor, Idea Group Reference, 2005. Murthy S.K., Kasif S., Salzberg S., A System for Induction of Oblique Decision Trees, Journal of Artificial Intelligence Research, 2, 1-32, 1994. Murthy S., Salzberg S., Lookahead and pathology in decision tree induction, in Proceddings of the Fourteenth International Joint Conference on Artificial Intelligence, 1025-1031, 1995. Murthy S., On Growing Better Decision Trees from Data, PhD Thesis, University of Maryland, 1997. Nakache J-P., Confais J., Statistique Explicative Applique, Edition Tecnip, Paris, 2003. Oates T., Jensen D., The effects of Training Set Size on Decision Tree Complexity, in Proceedings of 14th International Conference on Machine Learning, 254-262, 1997. Olaru C., Wehenkel L., A complete fuzzy decision tree technique, Fuzzy Sets and Systems, 138, 2, 2003. Oliver J., Decision Graphs An extension of Decision Trees, in Fourth International Workshop on Artificial Intelligence and Statistics, 343-350, 1993. Pagallo G., Haussler D., Boolean feature discovery in empirical learning, Machine Learning, 5, 71-100, 1990. Perinel E., Segmentation et analyse de donnes symboliques : application des donnes probabilistes imprcises, INRIA, 1996. Picard C., Graphes et questionnaires, Gauthier-Villars, 1972. Quinlan R., Discovering rules by induction from large collections of examples, D. Michie ed., Expert Systems in the Microelectronic age, pp. 168-201, 1979. Quinlan R., C4.5: Programs for Machine Learning, Morgan Kaufman, 1993.
Revue MODULAD, 2005
- 186 -
Numro 33
Quinlan R., Bagging, Boosting and C4.5, in Proceedings of the Thirteenth National Conference on Artificial Intelligence, 725-730, 1996. Ragavan H., Rendell L., Lookahead feature construction for learning hard concepts, in Proceedings of the Tenth International Conference on Machine Learning, 252-259, 1993. Rakotomalala R., Graphes dInduction, PhD Thesis, Universit Claude Bernard Lyon 1, 1997. Rakotomalala R., TANAGRA : Une Plate-Forme dExprimentation pour la Fouille de Donnes, Revue MODULAD, 32, 70-85, 2005. Safavian R., Landgrebe D., A Survey of Decision Tree Classifier Mathodology, IEEE Transactions on Systems Man and Cybernetics, 21, 3, 660-674, 1991. Schapire R., The boosting approach to machine learning: An overview, in MSRI Workshop on Nonlinear Estimation and Classification, 2002. Shafer J., Agrawal R., Mehta M., SPRINT: A Scalable Parallel Classifier for Data Mining, in Proceedings of the 22nd Conference on Very Large Databases, 544-555, 1996. Shih Y., Families of Splitting Criteria for Classification Trees, Statistics and Computing, 9(4), 309-315, 1999. Suarez A., Lutsko J., Globally Optimal Fuzzy Decision Trees for Classification and Regression, IEEE Trans. on Pattern Analysis and Machine Intelligence, 21(12), 1297-1311, 1999. Terrenoire M., Un modle mathmatique de processus dinterrogation: les pseudoquestionnaires, PhD Thesis, Universit de Grenoble, 1970. Torgo L., Inductive Learning of Tree-Based Regression Models, PhD Thesis, Department of Computer Science, University of Porto, 1999. Wallace C., Patrick J., Coding Decision Trees, Machine Learning, 11, 7-22, 1993. Wehenkel L., On Uncertainty Measures Used for Decision Tree Induction, in Proceedings of IPMU, 413-418, 1996. Witten I., Frank E., Data Mining: Practical machine learning tools with Java implementations, Morgan Kaufmann, San Francisco, 2000. Yu L., Liu H., Efficiently Handling Feature Redundancy in High-Dimensional Data, in Proceedings of International Conference on Knowledge Discovery and Data Mining, 685-690, 2003. Zighed D., Auray J., Duru G., SIPINA : Mthode et Logiciel, Lacassagne, 1992. Zighed D., Rakotomalala R., Graphes dInduction : Apprentissage et Data Mining, Herms, 2000.
Revue MODULAD, 2005
- 187 -
Numro 33

Arbre de Décision

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Arbre de Décision

Uploaded by

Copyright:

Available Formats

Arbres de Dcision

Revue MODULAD, 2005

Numro Ensoleillement Temprature (F) Humidit (%) Vent

Tableau 1 : Donnes "weather" (Quinlan, 1993)

Figure 1 : Arbre de dcision sur le fichier "weather"

Revue MODULAD, 2005

3 Apprentissage dun arbre de dcision

Tableau 2: Tri crois l'aide de la variable "ensoleillement" la racine de l'arbre

Tableau 4 : Descripteurs discrets candidats sur la racine de l'arbre

3.2 Traitement des variables continues

Figure 2 : Slection de la borne de discrtisation Revue MODULAD, 2005 - 169 Numro 33

Humidit Temprature Vent Soleil

1.00 0.67 0.17 0.00

3.3 Dfinir la bonne taille de larbre

Revue MODULAD, 2005

Figure 3 : Evolution taux d'erreur en apprentissage et en test

3.5 Fusion des sommets lors de la segmentation

Tableau 7 : 1re passe, fusion des sommets pour la segmentation de la racine

Tableau 8 : 2me passe, fusion des sommets pour la segmentation de la racine

Revue MODULAD, 2005

Figure 4 : Segmentation de la racine de l'arbre avec fusion des sommets enfants

4.2 Analyse automatique avec CHAID

Figure 5 : Fentre principale du logiciel SIPINA

Tableau 9: Rgles extraites de l'arbre traitant le fichier IRIS (Figure 6)

4.3 Evaluation du modle de prdiction

Revue MODULAD, 2005

Tableau 10: Matrice de confusion sur l'chantillon test

4.4 Interprtation gomtrique

Setosa Versicolor Virginica

Figure 7 : Frontires induites par l'arbre de dcision dans l'espace de reprsentation

4.5 Manipulation interactive de larbre

Revue MODULAD, 2005

Figure 8 : Segmentations alternatives sur le second sommet du second niveau

Figure 9 : Arbre de dcision aprs modification manuelle de la variable de segmentation

5 Quelques lments de discussion

Revue MODULAD, 2005

Revue MODULAD, 2005

You might also like