Professional Documents
Culture Documents
TEMES
1. Anlisi multivariant de dades 2. Data Mining 3. Procs dextracci del coneixement- KDD (Knowledge Discovery in Databases) 4. Arbres de decisi 5. El mtode de divisi 6. Tcniques on es poden utilitzar els arbres 7. Arbres de decisi amb SPSS 8. Posem-ho a la prctica!
Mtodes Descriptius
Mtodes multivariants de REDUCCI DE LA DIMENSI: Variables quantitatives:
Variables qualitatives:
unes poques perfectament calculables. Anlisi factorial: reduir la gran quantitat de variables en variables fictcies, no observades ni mesurades.
Mtodes Explicatius
VARIABLES INDEPENDENTS
Quantitatives Qualitatives
VARIABLE DEPENDENT
ANOVA / MANOVA
ANCOVA /MANCOVA Anlisi conjunt: relaci amb
la v.dependent ordinal
Anlisi discriminant:predicci
de la categoria en la que es situa
Qualitativa
DATA MINING
Procs de descobriment de noves i significatives relacions, patrons i tendncies en examinar grans quantitats de dades.
Han, J., Kamber, M i Pei, J. (2012) Data mining. Concepts and techniques. New York: Morgan Kaufmann
1. 2. 3. 4. 5.
Fase de selecci Fase dexploraci Fase de neteja i transformaci de dades Fase de mineria de dades Fase de validaci
Selecci
Integraci i recopilaci de les dades Determinar les fonts dinformaci Identificaci i selecci de les variables rellevants Aplicaci tcniques de mostratge
Exploraci
Comprovaci dels supsits dels mtodes multivariants per la mineria de dades:
Normalitat Homocedasticitat Variables linealment independents (correlaci) Linealitat
Exploraci visual: histogrames, diagrama de tija i fulles, grfic de caixes i bigotis, de dispersi, ... Exploraci formal:
Simetria i normalitat Correlacions entre variables
Els arbres de decisi sn predictius i de classificaci: tcniques de classificaci ad hoc, classifiquen individus o observacions dintre de grups prviament definits.
ARBRES DE DECISI
Arbres de classificaci o arbres de regressi. Grans mostres, per revelar formes complexes en lestructura que no es detecten amb mtodes convencionals de regressi. La variable dependent i les independents poden ser nominals, ordinals o descala. Fcils dinterpretar. Procs de segmentaci en funci de la divisi ms discriminant dels criteris establerts.
Un exemple...
VD = grau de supervivncia al Titanic
Passatgers
Homes
Dones
Adults 20%
Nens 45%
1i 2 classe 93%
3 classe 46%
EL MTODE DE DIVISI
Arbres CHAID
Arbres CRT Arbres QUEST
Arbre binari.
Atenci!
Reviseu les escales de mesura assignades a la matriu de dades dSPSS, pot afectar a larbre.
Seleccionem 1 variable dependent i una o ms dindependents. Seleccionem el mtode de creixement: CHAID, CRT O QUEST
Per forar que la primera independent de la llista sigui la primera v de divisi en larbre
Validaci de larbre
Per avaluar la bondat de lestructura darbre en generalitzar a la poblaci. 2 mtodes:
Validaci creuada: genera submostres i es fa el promig de risc entre totes elles (pliegues). Validaci per divisi mostral: fa una mostra dentrenament i posa a prova el model amb una mostra de comprovaci.
Moltes grcies!