Arbre de Décision

Universit Sidi Mohamed Ben Abdallah
Facut des sciences Dhar El Mehraz
Arbre de dcision
Algorithme CART
Supervis par: Mme Sanae Faquir Ralis par: Rda Bouaddi Samir Naciri Soumaya Bouchahma
Anne universitaire: 2013-2014
Plan
Introduction
Arbres de dcision (decision trees)
Arbre de dcision binaire CART Caractristiques gnrales CART Construction de larbre (Algorithme CART)

Phase dexpansion Phase lagage
tude dexemple (Risque routier)

Avantages/ Inconvnients CART Dmonstration Conclusion
Introduction
Les arbres de dcision constituent une technique prliminaire puissante de data mining, qui consiste extraire des connaissances potentielles partir des donnes dans un but de description ou de prdiction. Les arbres de dcision sont lune des techniques de classification, qui peut tre utilise pour prdire les classes des nouveaux cas.
Jeu de donnes

n individus Variable classe/groupe
Ex : oui / non
Autres variables (Qualitatives et Quantitatives)
Ex : Temprature, age,
Arbre de dcision binaire (CART)
Arbre binaire:

Ensemble de nuds, de chaque nuds partant 0,1 ou 2 branche vers le bas Une feuille est un nud dont ne part aucune branche
CART

1984, L. Breiman, J.H Friedman, R.A. Olshen et C.J. Stone, Mthode trs populaire dinduction darbre de dcision, Construction dun arbre de dcision strictement binaire avec exactement deux branches pour chaque nud de dcision (Deux nuds fils pour chaque nud parent),
Omission des labels des arcs.
Caractristiques gnrales

Chaque nud interne teste un attribut Chaque branche correspond une valeur dattribut Chaque feuille correspond un groupe unique ou majoritaire Parmi les plus performants et plus rpandus CART intgre tous les bons ingrdients dun apprentissage maitris Accepte tout type de variables Classification et rgression Critre de sparation : Indice de Gini Obtention de rgles de dcisions intelligibles :
SI . ET . ALORS .
Reprsentation graphique hirarchis intuitive permettant la facilit de lecture de larbre.
Algorithme CART
CART Algorithme visant recherche un arbre T le meilleur soit en terme de prdiction.

Objectif: Obtenir un arbre prdisant la variable de sortie inscrite au niveau des feuilles en fonction des variables dentres. Aucune connaissance du nombre de nuds et leurs eplacements N individus Variables Arbre de dcision binaire T Phase dexpansion Consrucion de larbre
Entres:

Sortie:
Phase dlagage
Construction arbre : phase dexpansion
Entre:
Ensemble dapprentissage A
Mesurer le degr de mlange par la fonction de Gini (ou indice d'impuret de Gini) :
Gini (p)= 1
2 ()
Choisir le nud racine et slectionner le test associer chaque nud : Soit p une position et soit test un test. Si ce test devient l'tiquette du nud la position p, alors on appelle Pgauche (respecti.Pdroite)
la proportion d'lments de l'ensemble des exemples associs p qui vont sur le nud en position p1 (respecti. p2). Choix du test qui maximise Gain(p,test):
Gain(p,test) = Gini(p)-(Pgauche Gini(p1) + Pdroite Gini(p2))

Affecter une classe une feuille : choisir la classe majoritaire. Traiter chaque nud fils de faon rcursive. Rpter jusqu ce que tous les nuds soient des terminaux. Sortie:
Arbre maximal T
Construction arbre : phase dlagage
Elagage :
Il consiste supprimer les sous-arbres superflus ou trop lis aux donnes, dans le but damliorer laspect prdictif de larbre dune part, et rduire sa complexit dautre part.
Le post lagage est la mthode utilis dans lalgorithme CART, elle s'effectue une fois que l'algorithme d'expansion est termin Cette mthode consiste :
Construire une suite embote de sous-arbres en utilisant une formulation dite complexit de cot minimale
Examinant chacun de ses sous-arbres, et slectionnant celui avec la moindre mtrique de complexit de cot et faisant celui-ci le prochain sous-arbre dans la squence. Le processus sarrte quand le sous-arbre final est juste le nud racine.
Construction arbre : phase dlagage
Entre:
T0 Arbre de dcision maximal obtenu dans la phase dexpansion
Production dune srie d'arbres, To, T1, T2, ... , Tk, Tk reprsente seulement la racine de l'arbre, les autres arbres sont reprsents par l'lagage successif de l'arbre Tl jusqu' ce que l'arbre soit simplement une feuille. Calcule du cot de complexit partir de l'erreur produite par le jeu d'apprentissage Pour passer de Tk Tk+l, on doit laguer un o plusieurs nuds. Pour cela, on tabli une liste de nuds potentiels laguer, les nuds choisis doivent tre obligatoirement un sous arbre
MC (d,k) : Est le nombre d'exemples mal classs du jeu d'apprentissage par le nud d de l'arbre Tk quand on fait l'hypothse qu'il a t transform en feuille. MCT(d,k): Est le nombre d'exemples mal classs par les feuilles du nud Tk situ sous le nud d. N(k): Reprsente le nombre de feuilles de h Nt (d,k): Reprsente le nombre de feuilles du sous arbre de Tk situ sous le nud d.
Sortie
Arbre de dcision final lagu
Etude de cas
Exemple : Risque routier
Problmatique: On souhaite expliquer le niveau du risque routier dun ensemble de personnes jeunes et ag en fonction du type de leurs vhicule.

Tranche dge: jeune/ag Type Vhicule: sport/familial/camion
Risque: elev/faible
Donnes: Tranche dge Jeune Jeune Ag Ag Ag Jeune Type vhicule Familial Sport Sport Familial Camion Familial Risque Elev Elev Elev Faible Faible Elev
Etude de cas
Phase dexpansion:1re tape

Age Jeune Jeune Ag Type vhicule Familial Sport Sport Risque Elev Elev Elev
Tri des lments selon la classe final (Risque)
ci Elev Faible
P(ci) 4/6 2/6
Ag
Ag Jeune
Familial
Camion Familial
Faible
Faible Elev
Calcul dindice de Gini initial: Gini(p)= 1-p(c1)-p(c2) = 1-(4/6)-(2/6)= 0.45
Etude de cas
Choix du nud racine: Calcul des gains

Tranche dage p1 p2 jeune ag 4/6 2/6
Calcul dindice de Gini initial: Gini(p)= 1-p(c1)-p(c2) = 1-(4/6)-(2/6)= 0.45
Avantages

Tout type de donnes : variables quantitatives ou qualitatives Traitement dun grand nombre de variables Facile lire et interprter
Rgle de dcisions simples

Peu de perturbation des individus extrmes Isols dans des petites feuilles Efficacit et disponibilit (prsent dans tous les logiciels de Data Mining)
Inconvnients
La ncessit de disposer dun chantillon dapprentissage de grande taille.

Temps de calculs importants :

Recherche des critres de division lagage
Conclusion
En Conclusion, les arbres de dcision fournissent des mthodes effectives qui obtiennent de bons rsultats dans la pratique, ils possdent l'avantage d'tre comprhensible par tout utilisateur .Lalgorithme CART est base sur de nombreuses heuristiques (dcider si un nud est terminal, choix du test, choix de la classe par dfaut, technique d'lagage). Lalgorithme CART est toujours largement diffus et sert de rfrence dans la plupart des tudes consacres lamlioration des techniques de classement par arbres de dcision.

Arbre de Décision

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Arbre de Décision

Uploaded by

Copyright:

Available Formats

Universit Sidi Mohamed Ben Abdallah

Facut des sciences Dhar El Mehraz

Arbres de dcision (decision trees)

Phase dexpansion Phase lagage

tude dexemple (Risque routier)

n individus Variable classe/groupe

Autres variables (Qualitatives et Quantitatives)

Arbre de dcision binaire (CART)

Omission des labels des arcs.

Reprsentation graphique hirarchis intuitive permettant la facilit de lecture de larbre.

CART Algorithme visant recherche un arbre T le meilleur soit en terme de prdiction.

Construction arbre : phase dexpansion

Gain(p,test) = Gini(p)-(Pgauche Gini(p1) + Pdroite Gini(p2))

Construction arbre : phase dlagage

Construction arbre : phase dlagage

T0 Arbre de dcision maximal obtenu dans la phase dexpansion

Arbre de dcision final lagu

Tranche dge: jeune/ag Type Vhicule: sport/familial/camion

Phase dexpansion:1re tape

Tri des lments selon la classe final (Risque)

P(ci) 4/6 2/6

Calcul dindice de Gini initial: Gini(p)= 1-p(c1)-p(c2) = 1-(4/6)-(2/6)= 0.45

Choix du nud racine: Calcul des gains

Calcul dindice de Gini initial: Gini(p)= 1-p(c1)-p(c2) = 1-(4/6)-(2/6)= 0.45

Rgle de dcisions simples

La ncessit de disposer dun chantillon dapprentissage de grande taille.

Recherche des critres de division lagage

You might also like