Professional Documents
Culture Documents
Arbre de dcision
Algorithme CART
Supervis par: Mme Sanae Faquir Ralis par: Rda Bouaddi Samir Naciri Soumaya Bouchahma
Anne universitaire: 2013-2014
Plan
Introduction
Arbre de dcision binaire CART Caractristiques gnrales CART Construction de larbre (Algorithme CART)
Introduction
Les arbres de dcision constituent une technique prliminaire puissante de data mining, qui consiste extraire des connaissances potentielles partir des donnes dans un but de description ou de prdiction. Les arbres de dcision sont lune des techniques de classification, qui peut tre utilise pour prdire les classes des nouveaux cas.
Jeu de donnes
Ex : oui / non
Ex : Temprature, age,
Arbre binaire:
Ensemble de nuds, de chaque nuds partant 0,1 ou 2 branche vers le bas Une feuille est un nud dont ne part aucune branche
CART
1984, L. Breiman, J.H Friedman, R.A. Olshen et C.J. Stone, Mthode trs populaire dinduction darbre de dcision, Construction dun arbre de dcision strictement binaire avec exactement deux branches pour chaque nud de dcision (Deux nuds fils pour chaque nud parent),
Caractristiques gnrales
Chaque nud interne teste un attribut Chaque branche correspond une valeur dattribut Chaque feuille correspond un groupe unique ou majoritaire Parmi les plus performants et plus rpandus CART intgre tous les bons ingrdients dun apprentissage maitris Accepte tout type de variables Classification et rgression Critre de sparation : Indice de Gini Obtention de rgles de dcisions intelligibles :
SI . ET . ALORS .
Algorithme CART
Objectif: Obtenir un arbre prdisant la variable de sortie inscrite au niveau des feuilles en fonction des variables dentres. Aucune connaissance du nombre de nuds et leurs eplacements N individus Variables Arbre de dcision binaire T Phase dexpansion Consrucion de larbre
Entres:
Sortie:
Phase dlagage
Entre:
Ensemble dapprentissage A
Mesurer le degr de mlange par la fonction de Gini (ou indice d'impuret de Gini) :
Gini (p)= 1
2 ()
Choisir le nud racine et slectionner le test associer chaque nud : Soit p une position et soit test un test. Si ce test devient l'tiquette du nud la position p, alors on appelle Pgauche (respecti.Pdroite)
la proportion d'lments de l'ensemble des exemples associs p qui vont sur le nud en position p1 (respecti. p2). Choix du test qui maximise Gain(p,test):
Affecter une classe une feuille : choisir la classe majoritaire. Traiter chaque nud fils de faon rcursive. Rpter jusqu ce que tous les nuds soient des terminaux. Sortie:
Arbre maximal T
Elagage :
Il consiste supprimer les sous-arbres superflus ou trop lis aux donnes, dans le but damliorer laspect prdictif de larbre dune part, et rduire sa complexit dautre part.
Le post lagage est la mthode utilis dans lalgorithme CART, elle s'effectue une fois que l'algorithme d'expansion est termin Cette mthode consiste :
Construire une suite embote de sous-arbres en utilisant une formulation dite complexit de cot minimale
Examinant chacun de ses sous-arbres, et slectionnant celui avec la moindre mtrique de complexit de cot et faisant celui-ci le prochain sous-arbre dans la squence. Le processus sarrte quand le sous-arbre final est juste le nud racine.
Entre:
Production dune srie d'arbres, To, T1, T2, ... , Tk, Tk reprsente seulement la racine de l'arbre, les autres arbres sont reprsents par l'lagage successif de l'arbre Tl jusqu' ce que l'arbre soit simplement une feuille. Calcule du cot de complexit partir de l'erreur produite par le jeu d'apprentissage Pour passer de Tk Tk+l, on doit laguer un o plusieurs nuds. Pour cela, on tabli une liste de nuds potentiels laguer, les nuds choisis doivent tre obligatoirement un sous arbre
MC (d,k) : Est le nombre d'exemples mal classs du jeu d'apprentissage par le nud d de l'arbre Tk quand on fait l'hypothse qu'il a t transform en feuille. MCT(d,k): Est le nombre d'exemples mal classs par les feuilles du nud Tk situ sous le nud d. N(k): Reprsente le nombre de feuilles de h Nt (d,k): Reprsente le nombre de feuilles du sous arbre de Tk situ sous le nud d.
Sortie
Etude de cas
Exemple : Risque routier
Problmatique: On souhaite expliquer le niveau du risque routier dun ensemble de personnes jeunes et ag en fonction du type de leurs vhicule.
Risque: elev/faible
Donnes: Tranche dge Jeune Jeune Ag Ag Ag Jeune Type vhicule Familial Sport Sport Familial Camion Familial Risque Elev Elev Elev Faible Faible Elev
Etude de cas
Exemple : Risque routier
ci Elev Faible
Ag
Ag Jeune
Familial
Camion Familial
Faible
Faible Elev
Etude de cas
Exemple : Risque routier
Avantages
Tout type de donnes : variables quantitatives ou qualitatives Traitement dun grand nombre de variables Facile lire et interprter
Inconvnients
Conclusion
En Conclusion, les arbres de dcision fournissent des mthodes effectives qui obtiennent de bons rsultats dans la pratique, ils possdent l'avantage d'tre comprhensible par tout utilisateur .Lalgorithme CART est base sur de nombreuses heuristiques (dcider si un nud est terminal, choix du test, choix de la classe par dfaut, technique d'lagage). Lalgorithme CART est toujours largement diffus et sert de rfrence dans la plupart des tudes consacres lamlioration des techniques de classement par arbres de dcision.