Professional Documents
Culture Documents
Toms Aluja
Clasificacin Regresin
Clustering Asociacin
Objetivo
Segmentar la poblacin para encontrar grupos homogneos segn una cierta variable de respuesta.
Los resultados se dan de forma visual. Los rboles difieren segn: - Tipo de la variable de respuesta - Tipos de variables de segmentacin - rboles binarios o n-arios - Criterio de particin - Criterio de parada
La variable de respuesta
Continua rbol de regresin Categrica rbol de clasificacin
Vars. explicativas
4
Antecedentes
AID (Sonquist y Morgan, 1963)
Variable de respuesta continua rbol n-ario con reagrupamiento Criterio de particin: F Criterio de parada: umbral sobre la significacin
Tendencia al sobreajuste. No optimalidad del criterio de parada. Falta de estimaciones honestas sobre la calidad del rbol
Seminari Arbres de Decisi. CPSV. Toms Aluja 7
(y
i =1
nt
it
F=
Parmetros Stopping p-value (0.01). Merging p-value (0.05).
n
k =1 q k =1 itk
k =1 itk
tk
( ytk y ) q 1
itk
( y
ytk ) 2 nt q
Fq 1,nt q
Un nodo se considera terminal si ninguna particin da un p-valor inferior al crtico (pre-pruning). Los nodos hijos no se reagrupan si la significacin de su diferencia es inferior al valor crtico especificado.
Correccin de Bonferroni.
Correccin del p-valor de parada para tener en cuenta el diferente nmero nodos hijos (modalidades de las variables explicativas categricas).
Seminari Arbres de Decisi. CPSV. Toms Aluja 8
particin respuesta
nk1
nkj n j
nkp
nk n
nj
Un nodo se considera terminal si ninguna particin da un p-valor inferior al crtico (pre-pruning). Los nodos hijos no se reagrupan si la significacin de su diferencia es inferior al valor crtico especificado.
Correccin de Bonferroni.
Correccin del p-valor de parada para tener en cuenta el diferente nmero de modalidades de las varaibles explicativas categricas.
Seminari Arbres de Decisi. CPSV. Toms Aluja 10
11
12
Impureza de un nodo
Para variables de respuesta categricas:
Gini
i ( t ) = i j p ( j / t ) p (i / t )
Entropia
i(t ) = j p( j / t )log2 p( j / t )
( yi y t ) 2 i ( t ) = i t n
13
nt
tr
tl
ntl
ntr
i(t ) = i(t )
ntl nt
i(tl )
ntr nt
i(tr )
14
SAAD
Criterio de particin SAAD: Maximizar la distancia de Smirnov generalizada dS
Fi funcin acumulada de los individuos de la clase i en el nodo t FT funcin acumulada de todos los individuos del nodo t
1 F1 0
dS =
i =1
FT F2
Fi ( x ) FT ( x )
Criterio de parada
Construir un rbol mximo y podar en vez de aplicar un criterio de parada. rbol mximo: nodos terminales puros
Hombres
36000 31 min
Mujeres
No Jubilados
17000 22
Jubilados
4-12 aos
19000 39
13 o + aos
Autonomica
14000 19
Cast,Ambas
3000 Aut,Ambas 35
Castellano
2000 17
Aut,Ambas
17000 42
Castellano
2000 12
4-12 aos
12000 21
1000 23 13 o + aos
2000 40
5000 28
>10m hab.
13 a 44
12000 46
45 o +
2000 14
Hombres
Mujeres
2000 22
19000 8000 39 43
No Jubilados
17000 22
Jubilados
4-12 aos
19000 39
13 o + aos
Castellano
Aut,Ambas
Castellano
Autonomica 2000 12
14000 19
Cast,Ambas
Castellano 2000 40
2000 17
Aut,Ambas
17000 42
Castellano
5000 28
13 a 44
12000 46
45 o +
12000 21
5000 28
>10m hab.
13 a 44
12000 46
45 o +
4000 53
10000 19000 22 39
13 o + aos
3000 19000 8000 32 4-12 aos 39 43 2000 17 Aut,Ambas Castellano 5000 28 < 10m hab.
Aut,Ambas
Castellano 12000 46
Castellano
2000 17
Aut,Ambas
17000 42
Castellano
Castellano
45 o + 4000 53
5000 28
13 a 44
12000 46
45 o +
2000 22
3000 32
8000 43
4000 53
4000 53
17
Coste de un rbol
Coste de un nodo:
prob. de mal clasificacin
r ( t ) = 1 max j p( j / t )
Coste de un rbol:
(decreciente con el tamao)
R (T ) rel =
r (root ) tT p (t )r (t ) ~ r (root )
100
rbol ptimo
Min R (T )
18
r (t ) =
nt i =1
( yit yt ) 2
nt
19
Operacin de podar
Se calcula el valor de R(T), para la secuencia de rboles ptimos por complejidad: 1 t1 t0 Tmax
Aprendizaje
Total
R ts (T ) rel =
r ts (root ) tT p (t )r ts (t ) r (root )
ts
100
Valida cin
Seminari Arbres de Decisi. CPSV. Toms Aluja 21
Calidad
20 18 16 14 12 10 8 6 4 2 0 1 5 10 15 20 30 40 50 60 70 80 90
Aprendizaje
Validacin
Tamao
22
rbol ptimo
24
25