Professional Documents
Culture Documents
sin Mtrica
?
? ?
Principio fundamental:
Simplicidad del rbol (principio parsimonia o Navaja de Occam)
"En igualdad de condiciones, la explicacin ms sencilla suele ser la ms probable."
Construccin de rboles de decisin
(CART, ID3, C4.5)
Proceso recursivo: dados los patrones que llegan a un nodo:
1. Declarar el nodo terminal (asignamos una clase)
2. Encontrar una nueva caracterstica y volver a dividir los
patrones.
Construccin de rboles de decisin
(CART, ID3, C4.5)
Proceso recursivo: dados los patrones que llegan a un nodo:
1. Declarar el nodo terminal (asignamos una clase)
2. Encontrar una nueva caracterstica y volver a dividir los
patrones.
Preguntas:
Dos ramificaciones o ms?
Qu atributo se analiza en cada nodo?
Cuando un nodo es terminal?
Cmo se asigna la clase final?
rboles Binarios
Nmero de ramificaciones: Color verde?
si
Binarias Color amarillo?
No binarias si
no
rboles Binarios
Nmero de ramificaciones: Color verde?
si
Binarias Color amarillo?
No binarias si
no
c clases
Impureza de Gini - Interpretacin
Tasa de error esperado en el nodo N si la clase a
asignar se sortea en forma aleatoria usando la
distribucin de clases presente en el nodo N.
Criterios de medida de impureza
N
PI s PD
NI ND
A z1
x1<0,65? no
z2 z2 x
B x
si x x
no x x =c
x x z2
+b
A B az 1
z1 z1
Obs: Se puede volver a usar una
caracterstica. Pierde facilidad de interpretacin
Optimalidad de la solucin
Optimalidad de decisin local: Elegir el mejor atributo en
cada nodo) NO garantiza la optimalidad global (por ejemplo el
nmero mnimo de nodos)
Optimalidad de la solucin
Optimalidad de decisin local: Elegir el mejor atributo en
cada nodo) NO garantiza la optimalidad global (por ejemplo el
nmero mnimo de nodos)
Alternativas:
Pre-podado: Detener el crecimiento
Pos-podado: Crecer hasta el lmite y luego
podar
Criterios de Parada
1. Validacin cruzada: partir el set de datos en entrenamiento
(90%), test/validacin (10%).
Desventaja: Menos datos para entrenar.
Se para de particionar cuando error
comienza a crecer
Criterios de Parada
1. Validacin cruzada: partir el set de datos en entrenamiento
(90%), test/validacin (10%).
Desventaja: Menos datos para entrenar.
Se para de particionar cuando error
comienza a crecer
x<xs
n=nI+nD
nI=nI1+nI2 nD=nD1+nD2
Hiptesis nula H0: Distribuciones iguales (asignacin aleatoria)
Umbral para cierto nivel de confianza
= P( 2> 2
)
x<xs?
Mtodos de (pos-)poda
Remplazo de sub-rbol
Conjunto de datos independiente para podado (partir el
conjunto de datos disponibles en dos).
Se busca eliminar el sobreajuste (overfitting)
Mtodos de (pos-)poda
Remplazo de sub-rbol
Conjunto de datos independiente para podado (partir el
conjunto de datos disponibles en dos).
Se busca eliminar el sobreajuste (overfitting)
Comenzando desde las hojas y hacia la raz:
Se remplaza un nodo con hoja etiquetada por clase
mayoritaria.
Se calcula el error en el conjunto de podado si es menor se
remplaza el nodo por hoja.
Se obtiene un sub-rbol ptimo para conjunto de poda.
Poda por mnimo costo-complejidad
Complejidad de un sub-rbol: Nmero de nodos
terminales (hojas), |T|.
Error de clasificacin R(T).
Medida de costo-complejidad:
R (T) = R(T) + |T|
0:parmetro de complejidad
Mtodos de Poda
Elevacin de Sub-rbol
Usando todo los datos para entrenamiento
Es ms compleja y no necesariamente siempre es til:
Usada en C4.5.
Estima el error cometido en un nodo cuando sustituyo
sub-rbol por una de sus ramas. Top/down.
rboles de Decisin
Impureza de Entropa
EJEMPLO - Clasificacin binaria - 8 muestras
Impureza de Entropa
Inestable!
Datos faltantes (en entrenamiento)
Construir el rbol usando los patrones que tienen
definida la caracterstica (puede ser bastante
restrictivo)
Datos faltantes (en entrenamiento)
Construir el rbol usando los patrones que tienen
definida la caracterstica (puede ser bastante
restrictivo)
Si en un nodo N dado hay un patrn x={x1, x2, x3}
con una caracterstica x2 faltante, se puede estimar
i(N) con n patrones para x1 y x3 y con (n-1) para x2.
Se utiliza la caracterstica que decrece i(N) en mayor
cantidad
Datos faltantes (en testing)
Supongamos que queremos construir un rbol capaz de
procesar (en testing) muestras con datos faltantes
Datos faltantes (en testing)
Supongamos que queremos construir un rbol capaz de
procesar (en testing) muestras con datos faltantes
En un nodo dado N, luego de elegir la mejor caracterstica para
una ramificacin (caracterstica primaria), se eligen
caractersticas suplentes en orden, considerando la correlacin
entre caractersticas.
Datos faltantes (en testing)
Supongamos que queremos construir un rbol capaz de
procesar (en testing) muestras con datos faltantes
En un nodo dado N, luego de elegir la mejor caracterstica para
una ramificacin (caracterstica primaria), se eligen
caractersticas suplentes en orden, considerando la correlacin
entre caractersticas.