Professional Documents
Culture Documents
Un arbore de decizie este o structur sub forma unui arbore care conine dou tipuri de noduri:
- noduri terminale sau frunze
- noduri decizionale
Fiecare nod decizional reprezint de fapt un test pentru o anumit proprietate (caracteristic,
atribut), fiecare arc, care pleac dintr-un astfel de nod, fiind o valoare a proprietii respective. n
schimb, fiecare frunz reprezint o clas.
Arborii de clasificare sunt utilizai n prognoza apartenenei unor obiecte la diferite clase tinnd
cont de una sau mai multe variabile ce caracterizeaz obiectele respective. De asemenea, sunt cea
mai popular metod de clasificare i predicie.
Flexibilitatea acestei tehnici o face deosebit de atractiv, mai ales datorit faptului c prezint i
avantajul unei vizualizri sugestive (arborele ce sintetizeaz clasificarea obinut).
Algoritmul Hunt st la baza celorlali algoritmi de creare a arborilor de decizie. Vom considera
Dt mulimea elementelor care se gsesc n nodul t, iar C={C1, C2,..., Ck} este mulimea
etichetelor claselor corespunztoare nodului t, astfel vom avea 2 situaii :
dac Dt conine elemente ce aparin aceleiai clase Ct, atunci t este o frunz etichetat
Ct
dac Dt conine elemente ce aparin la mai mult de o clas, atunci se alege un atribut
test pentru a mpri mulimea Dt n submulimi (noduri).
Procedeul se aplic recursiv fiecrui nod.
O problem fundamental n construcia unui arbore o constituie modul n care sunt selectate
atributele pentru fiecare nod din arbore. Se urmrete realizarea celei mai adecvate divizri a
unui subset de date din cadrul unui nod, astfel nct s se obin un grad ct mai mare de puritate
a nodurilor-fii. Astfel, alegerea atributelor n vederea realizrii celei mai adecvate clasificri se
bazeaz pe gradul de puritate a nodurilor-fii. Pentru a determina gradul de impuritate se folosesc
urmtoarele modaliti de calcul a impuritii:
1. Entropia: arat ct de dezordonat este un set de date:
c
Entropia( S ) pi / S log 2 pi / S
i 1
c
I G (S ) 1 pi2/ S
j 1
Partiionarea optim a nodului i este aceea care asigur cea mai mic valoare a indexului GINI de
partiionare.
k N (v j )
Gain( S ) Entropia( S ) Entropia(v j )
j 1 N
unde
Entropia (S) entropia nodului printe S
N numrul de obiecte din nodul printe
k numrul stri ale atributului ales pentru clasificare
N(vj) numrul de obiecte ce aparin nodului-fiu vj
Entropia(vj) entropia nodului-fiu vj
p indica proporia obiectelor care aparin uneia din cele 2 clase. Se observ c toate ce le trei
modaliti de calcul ating valoarea maxim atunci cnd distribuia clasei este uniform (p = 0.5),
iar valoarea minim se atinge atunci cnd toate nregistrrile aparin aceleiai clase (cnd p = 0
sau p = 1).
Procesul de partiionare se deruleaz pn cnd toate nodurile terminale (frunzele) sunt pure
din punct de vedere al elementelor constitutive, atta timp ct nu exist o condiie de stopare a
creterii arborelui.
Reguli de stop:
a) Minimul n, se refer la condiia de stop care specific un numr minim de obiecte care s
fie coninute n nodurile terminale. n aceste condiii, divizarea unui nod ia sfrit atunci
cnd fie nodul este pur, fie nu conine mai mult dect numrul specificat de obiecte.
b) Proporia de obiecte, se refer la condiia de stop care impune ca divizarea unui nod s ia
sfrit atunci cnd fie nodul este pur, fie nu conine mai multe obiecte dect o proporie
(procentaj) minim din mrimea uneia sau mai multor clase.
Deoarece un arbore se construiete pentru a putea fi aplicat la diverse alte seturi de date, este
necesar evitarea acestei potriviri prea accentuate (overfitting) cu mulimea pe care s-a fcut
antrenamentul. n acest caz se utilizeaz metoda de fasonare(pruning) a arborelui.
Fasonarea ulterioar (post-pruning) are loc dup terminarea creterii arborelui, fiind un
proces de jos n sus, bazat pe msurarea erorii de clasificare a arborelui. Astfel, un nod va fi
fasonat prin renunarea la ramurile sale, el devenind o frunz etichetat n aceeai manier ca
mai sus, dac eroarea de clasificare se diminueaz prin aceast operaie.