You are on page 1of 31

ARBRES DE DECISI

Ruth Vil Baos Departament MIDE ruth_vila@ub.edu

Escola d'Hivern de Doctorat Curs 2011-2012

TEMES
1. Anlisi multivariant de dades 2. Data Mining 3. Procs dextracci del coneixement- KDD (Knowledge Discovery in Databases) 4. Arbres de decisi 5. El mtode de divisi 6. Tcniques on es poden utilitzar els arbres 7. Arbres de decisi amb SPSS 8. Posem-ho a la prctica!

ANLISI MULTIVARIANT DE DADES


NO Hi ha variables explicatives i explicades? SI

Mtodes Descriptius: tcniques danlisi de la interdependncia


Mtodes explicatius: tcniques danlisi de la dependncia Tcniques emergents: mineria de dades

Prez, c. (2004) Tcnicas de anlisis multivariante de datos. Madrid: Pearson educacin

Mtodes Descriptius
Mtodes multivariants de REDUCCI DE LA DIMENSI: Variables quantitatives:

Components principals: reduir la gran quantitat de variables en

Variables qualitatives:

unes poques perfectament calculables. Anlisi factorial: reduir la gran quantitat de variables en variables fictcies, no observades ni mesurades.

Anlisi de correspondncies mltiple: reduir en un mapa grfic


lassociaci entre les categories.

Mtodes multivariants de CLASSIFICACI DE GRUPS: Anlisi de conglomerats (cluster): classificaci automtica de


dades en grups homogenis no coneguts a priori.

Escalament multidimensional: representaci grfica perceptual

Mtodes Explicatius
VARIABLES INDEPENDENTS
Quantitatives Qualitatives

VARIABLE DEPENDENT

Regressi lineal mltiple


Quantitativa

ANOVA / MANOVA
ANCOVA /MANCOVA Anlisi conjunt: relaci amb
la v.dependent ordinal

Anlisi cannic: correlaci amb


ms duna dependent

Anlisi discriminant:predicci
de la categoria en la que es situa
Qualitativa

Models delecci discreta:


predicci de la probabilitat

Tcniques Multivariants Emergents


Sanomena Mineria de dades o DATA MINING Disponibilitat de grans volums de dades i eines informtiques potents. Tcniques de data mining coincidents amb bona part de lestadstica multivariant:
Tcniques predictives: regressi, ANOVA, ANCOVA, mtodes bayesians, algoritmes gentics, arbres de decisi, xarxes neuronals, ... Tcniques descriptives: clusters, segmentaci, escalament multidimensional, ...
Prez, C. i Santn, D. (2008) Minera de datos. Tcnicas y herramientas. Madrid: Thomson

DATA MINING
Procs de descobriment de noves i significatives relacions, patrons i tendncies en examinar grans quantitats de dades.

Han, J., Kamber, M i Pei, J. (2012) Data mining. Concepts and techniques. New York: Morgan Kaufmann

PROCS DEXTRACCI DEL CONEIXEMENT(KDD)

Knowedge Discovery in Databases

1. 2. 3. 4. 5.

Fase de selecci Fase dexploraci Fase de neteja i transformaci de dades Fase de mineria de dades Fase de validaci

PREPARACI DE LES DADES MINERIA DE DADES

Selecci
Integraci i recopilaci de les dades Determinar les fonts dinformaci Identificaci i selecci de les variables rellevants Aplicaci tcniques de mostratge

Exploraci
Comprovaci dels supsits dels mtodes multivariants per la mineria de dades:
Normalitat Homocedasticitat Variables linealment independents (correlaci) Linealitat

Anlisi exploratria de dades:

Exploraci visual: histogrames, diagrama de tija i fulles, grfic de caixes i bigotis, de dispersi, ... Exploraci formal:
Simetria i normalitat Correlacions entre variables

Neteja i transformaci de dades


Valors atpics (outliers), valors que falten (missing), errades, ... Anlisi de la influncia daquests valors atpics Seliminen o es corregeixen les errades.
Si s necessari es fa la transformaci dalgunes dades.

Tcnica de mineria de dades


Decidir quina tasca es pretn: classificar, agrupar, ... Elecci de la tcnica:
Descriptiva: totes les variables tenen el mateix estatus. Predictiva: es pot diferenciar entre variables dependent i independents, partint dun coneixement teric previ.

Els arbres de decisi sn predictius i de classificaci: tcniques de classificaci ad hoc, classifiquen individus o observacions dintre de grups prviament definits.

ARBRES DE DECISI
Arbres de classificaci o arbres de regressi. Grans mostres, per revelar formes complexes en lestructura que no es detecten amb mtodes convencionals de regressi. La variable dependent i les independents poden ser nominals, ordinals o descala. Fcils dinterpretar. Procs de segmentaci en funci de la divisi ms discriminant dels criteris establerts.

Un exemple...
VD = grau de supervivncia al Titanic
Passatgers

Homes

Dones

Adults 20%

Nens 45%

1i 2 classe 93%

3 classe 46%

Prez, C. i Santn, D. (2008) Minera de datos. Tcnicas y herramientas. Madrid: Thomson

EL MTODE DE DIVISI
Arbres CHAID
Arbres CRT Arbres QUEST

Arbres CHAID (Chi-square automatic interaction detector)


Mtode exploratori danlisi de dades per identificar variables importants. Finalitat de segmentaci, anlisi descriptiu o previ a altres anlisis. La variable dependent pot ser qualitativa o quantitativa. Chaid exhaustiu tracta totes les variables per igual (independentment del tipus i ncategories) Pot produir divisions de ms de dos grups.

Arbres CRT (Classification and regression trees)


Alternativa al chaid exhaustiu , superant algunes limitacions de la versi inicial. Apropiat per arbres de classificaci (VD qualitativa) o de regressi (VD quantitativa). Els arbres sn binaris. Permet elegir entre diferents coeficients i mesures, superant alguns falsos positius de la X2.

Arbres QUEST (Quick, unbiased, efficient, statistical tree)


Algoritme creat per superar dues limitacions dels anteriors:
Complexitat computacional Biaixos en la selecci de variables: tendncia a seleccionar aquelles que tenen un major nombre de categories.

Arbre binari.

TCNIQUES ON ES PODEN UTILITZAR ELS ARBRES


SEGMENTACI: identifica individus en un grup especfic. ESTRATIFICACI: assigna casos a una categoria (alt, mig, o baix risc) PREDICCI: crea regles i les utilitza per predir el futur. REDUCCI DE DADES I CLASSIFICACI DE VARIABLES: selecci de variables predictores IDENTIFICACI DINTERACCI: relacions en subgrups especfics FUSI DE CATEGORIES I DISCRETITZACI DE V. CONTNUES: recodifica perdent poca informaci
Prez, C. i Santn, D. (2008) Minera de datos. Tcnicas y herramientas. Madrid: Thomson

ARBRES DE DECISI AMB SPSS

Atenci!
Reviseu les escales de mesura assignades a la matriu de dades dSPSS, pot afectar a larbre.
Seleccionem 1 variable dependent i una o ms dindependents. Seleccionem el mtode de creixement: CHAID, CRT O QUEST

Per seleccionar una o ms categories dinters

Per forar que la primera independent de la llista sigui la primera v de divisi en larbre

Forma, estadstics, grfics i regles

Validaci de larbre
Per avaluar la bondat de lestructura darbre en generalitzar a la poblaci. 2 mtodes:
Validaci creuada: genera submostres i es fa el promig de risc entre totes elles (pliegues). Validaci per divisi mostral: fa una mostra dentrenament i posa a prova el model amb una mostra de comprovaci.

Criteris de creixement de larbre


Nivells de larbre i nombre de casos mnim pels nodes. Segons el mtode de divisi seleccionat: CHAID CRT QUEST

Criteris de creixement per CHAID

Clculs rpids i mostres grans Robust o mostres petites

Permet simplificar larbre

Criteris de creixement per CRT


Per variables categriques

Noms per a ordinals

Reducci mnima de la impuresa per dividir els nodes

Criteris de creixement per QUEST


Nivell de significaci (0-1). A menor significaci, es tendir a excloure ms variables independents del model final.

La poda de larbre. CRT i QUEST


Retall de larbre (poda) automtica per obtenir un subarbre ms petit amb el risc especificat Mnim risc = 0

Moltes grcies!

Aquesta publicaci compta amb la segent llicncia de Creative Commons:

You might also like