You are on page 1of 25

Seminari sobre Arbres de Decisi

27 de Mar del 2006

Toms Aluja

Los rboles de decisin en la minera de datos


Tareas centrales en minera de datos
Pattern recognition (modelizacin)

Clasificacin Regresin
Clustering Asociacin

Los rboles de decisin son una alternativa no paramtrica de modelizacin.


Otras posibilidades: Regresin Logstica, Anlisis Discriminante, Redes Neuronales, Support Vector Machines, ...
Seminari Arbres de Decisi. CPSV. Toms Aluja 2

Objetivo
Segmentar la poblacin para encontrar grupos homogneos segn una cierta variable de respuesta.
Los resultados se dan de forma visual. Los rboles difieren segn: - Tipo de la variable de respuesta - Tipos de variables de segmentacin - rboles binarios o n-arios - Criterio de particin - Criterio de parada

Seminari Arbres de Decisi. CPSV. Toms Aluja

Construccin de un rbol de decisin


Para la construccin de un rbol de decisin, el usuario deber siempre definir :
Var. de respuesta

La variable de respuesta
Continua rbol de regresin Categrica rbol de clasificacin

El conjunto de variables explicativas (de cualquier tipo)

Vars. explicativas
4

Seminari Arbres de Decisi. CPSV. Toms Aluja

Algoritmo de construccin del rbol


Situar toda los datos en el nodo raz Encontrar la particin ptima del nodo raz en nodos hijos. En cada nodo hijo: Decidir si debemos parar el proceso o volver al paso 2.
Necesitamos definir: un criterio de particin un criterio de parada

Seminari Arbres de Decisi. CPSV. Toms Aluja

Nmero de particiones por nodo (t)


Se calculan todas las particiones posibles y selecciona entre ellas la particin ptima. Particiones posibles en un nodo:
Segn la variable explicativa:
rbol n-ario Binaria Nominal Ordinal Continua 1 1 1 nt-1 rbol binario 1 2q-1-1 q-1 nt-1
6

Seminari Arbres de Decisi. CPSV. Toms Aluja

Antecedentes
AID (Sonquist y Morgan, 1963)
Variable de respuesta continua rbol n-ario con reagrupamiento Criterio de particin: F Criterio de parada: umbral sobre la significacin

CHAID (Kass, 1980)


Variable de respuesta categrica rbol n-ario con reagrupamiento Criterio de particin: 2 Criterio de parada: umbral sobre la significacin

Tendencia al sobreajuste. No optimalidad del criterio de parada. Falta de estimaciones honestas sobre la calidad del rbol
Seminari Arbres de Decisi. CPSV. Toms Aluja 7

AID Automatic Interaction Detection,


(Sonquist & Morgan 1963)
AID se basa en la descomposicin de la variancia de la variable de respuesta en los nodos hijos.

(y
i =1

nt

it

yt ) 2 = ntk ( ytk yt ) + ( yitk ytk ) 2


k =1

F=
Parmetros Stopping p-value (0.01). Merging p-value (0.05).

n
k =1 q k =1 itk

k =1 itk

tk

( ytk y ) q 1
itk

( y

ytk ) 2 nt q

Fq 1,nt q

Un nodo se considera terminal si ninguna particin da un p-valor inferior al crtico (pre-pruning). Los nodos hijos no se reagrupan si la significacin de su diferencia es inferior al valor crtico especificado.

Correccin de Bonferroni.
Correccin del p-valor de parada para tener en cuenta el diferente nmero nodos hijos (modalidades de las variables explicativas categricas).
Seminari Arbres de Decisi. CPSV. Toms Aluja 8

Seminari Arbres de Decisi. CPSV. Toms Aluja

CHAID (Kass, 1980)


CHAID se basa en el clculo del estadstico de entre la variable de respuesta categrica y la particin en nodos hijos.
q m

particin respuesta

nk1

nkj n j

nkp

nk n

Parmetros Stopping p-value (0.01). Merging p-value (0.05).

(njk nk )2 n 2 = (q1)(m1) nj k=1 j=1 nk n

nj

Un nodo se considera terminal si ninguna particin da un p-valor inferior al crtico (pre-pruning). Los nodos hijos no se reagrupan si la significacin de su diferencia es inferior al valor crtico especificado.

Correccin de Bonferroni.
Correccin del p-valor de parada para tener en cuenta el diferente nmero de modalidades de las varaibles explicativas categricas.
Seminari Arbres de Decisi. CPSV. Toms Aluja 10

Seminari Arbres de Decisi. CPSV. Toms Aluja

11

La solucin CART (Friedman, Breiman,


Olshen, Stone, 1984)
rboles binarios Unifica la variable de respuesta continua y categrica bajo un mismo marco. rboles de clasificacin rboles de regresin Variables de segmentacin de todo tipo Criterio de particin: Impureza del nodo No utiliza criterio de parada Da estimaciones honestas de la calidad del rbol

Seminari Arbres de Decisi. CPSV. Toms Aluja

12

Impureza de un nodo
Para variables de respuesta categricas:
Gini

i ( t ) = i j p ( j / t ) p (i / t )

Entropia

i(t ) = j p( j / t )log2 p( j / t )

Para variables de respuesta continuas:


Variancia

( yi y t ) 2 i ( t ) = i t n

Seminari Arbres de Decisi. CPSV. Toms Aluja

13

Seleccin de la particin ptima


Maximizar el decremento de impureza
t

nt
tr

tl

ntl

ntr

i(t ) = i(t )

ntl nt

i(tl )

ntr nt

i(tr )
14

Seminari Arbres de Decisi. CPSV. Toms Aluja

SAAD
Criterio de particin SAAD: Maximizar la distancia de Smirnov generalizada dS
Fi funcin acumulada de los individuos de la clase i en el nodo t FT funcin acumulada de todos los individuos del nodo t

1 F1 0
dS =
i =1

FT F2

Fi ( x ) FT ( x )

Seleccin de la particin ptima (SAAD)

Variable explicativa nominal

Variable explicativa ordinal

Variable explicativa continua

Criterio de parada
Construir un rbol mximo y podar en vez de aplicar un criterio de parada. rbol mximo: nodos terminales puros
Hombres

36000 31 min

Mujeres

No Jubilados

17000 22

Jubilados

4-12 aos

19000 39

13 o + aos

Autonomica

14000 19

Cast,Ambas

3000 Aut,Ambas 35

Castellano

2000 17

Aut,Ambas

17000 42

Castellano

2000 12

4-12 aos

12000 21

1000 23 13 o + aos

2000 40

< 10m hab.

5000 28

>10m hab.

13 a 44

12000 46

45 o +

2000 14

Hombres

10000 36000 22 31 min

Mujeres

2000 22

3000 432 12 aos 2000 17

19000 8000 39 43

4000 13 o + aos 53 17000 42

No Jubilados

17000 22

Jubilados

4-12 aos

19000 39

13 o + aos

Castellano

Aut,Ambas

Castellano

Autonomica 2000 12

14000 19

Cast,Ambas

3000 Aut,Ambas 35 1000 23 13 o + aos

Castellano 2000 40

2000 17

Aut,Ambas

17000 42

Castellano

< 10m hab.

5000 28

>10m hab. 3000 19000 32 39

13 a 44

12000 46

45 o +

4-12 aos 2000 14 4-12 aos

12000 21

< 10m hab. 2000 22

5000 28

>10m hab.

13 a 44

12000 46

45 o +

2000 22 12 aos 42000 Castellano 17

8000 13 o + aos 43 17000 42

4000 53

10000 19000 22 39

13 o + aos

3000 19000 8000 32 4-12 aos 39 43 2000 17 Aut,Ambas Castellano 5000 28 < 10m hab.

13 o + 4000 aos 53 17000 42

Aut,Ambas

Castellano 12000 46

Castellano

2000 17

Aut,Ambas

17000 42

Castellano

Castellano

5000 < 10m hab. 28 >10m hab. 13 a 44 2000 22 45 o + 3000 32 8000 43

45 o + 4000 53

< 10m hab. 2000 22

5000 28

>10m hab. 3000 32

13 a 44

12000 46

12000 >10m hab. a 44 46 13 8000 43

45 o +

2000 22

3000 32

8000 43

4000 53

4000 53

Seminari Arbres de Decisi. CPSV. Toms Aluja

17

Coste de un rbol
Coste de un nodo:
prob. de mal clasificacin

r ( t ) = 1 max j p( j / t )

Coste de un rbol:
(decreciente con el tamao)

R (T ) rel =

r (root ) tT p (t )r (t ) ~ r (root )

100

rbol ptimo

Min R (T )
18

Seminari Arbres de Decisi. CPSV. Toms Aluja

Coste de un rbol de regresin


El rbol de regresin segmenta la poblacin en tantos grupos como nodos terminales. A cada individuo de un nodo terminal se le asigna el valor medio de la variable de respuesta en este nodo. Coste del rbol = error de prediccin (variancia residual)

r (t ) =

nt i =1

( yit yt ) 2

nt

Seminari Arbres de Decisi. CPSV. Toms Aluja

19

Operacin de podar
Se calcula el valor de R(T), para la secuencia de rboles ptimos por complejidad: 1 t1 t0 Tmax

Tmax , Tmax Tt0 , Tmax Tt0 Tt1 ,,1


Seminari Arbres de Decisi. CPSV. Toms Aluja 20

Seleccin del rbol podado ptimo


Muestra test
Dividimos la muestra aleatoriamente en:

una muestra para Aprender otra muestra para Validar

Aprendizaje

Total

R ts (T ) rel =

r ts (root ) tT p (t )r ts (t ) r (root )
ts

100

Valida cin
Seminari Arbres de Decisi. CPSV. Toms Aluja 21

Calidad del rbol segn tamao

Calidad
20 18 16 14 12 10 8 6 4 2 0 1 5 10 15 20 30 40 50 60 70 80 90

Aprendizaje

Validacin

Tamao
22

rbol ptimo

Seminari Arbres de Decisi. CPSV. Toms Aluja

Ventajas de los rboles de decisin


Fciles de interpretar . Las ramas del rbol simulan bastante bien el proceso humano para la toma de decisiones. Las ramas del rbol definen directamente las reglas de asignacin. Los resultados son operativos de forma inmediata. Minimizan el pretratamiento, pueden trabajar con un cierto nivel de ruido y datos faltantes. Detectan de forma automtica estructuras complejas entre variables. Computacionalmente eficientes Aproximacin por saltos a la funcin de respuesta (el error de prediccin puede ser mayor que en otros modelos ms flexibles)
Seminari Arbres de Decisi. CPSV. Toms Aluja 23

Seminari Arbres de Decisi. CPSV. Toms Aluja

24

Prctica en rboles de decisin


Inadecuacin del criterio de calidad de los rboles. La asignacin de un nodo a una clase de respuesta depende de las probabilidades iniciales de cada clase de respuesta. Necesidad de partir de situaciones equilibradas. El poder de discriminacin de un rbol debe medirse relativa a la situacin inicial de partida. El inters del rbol es la ordenacin de la poblacin por grupos segn valores crecientes de la variable de respuesta. Estos grupos somos capaces de entenderlos y localizarlos en la base de datos.

Seminari Arbres de Decisi. CPSV. Toms Aluja

25

You might also like