You are on page 1of 67

Mtodos de Clasificacin

sin Mtrica

Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ. de Granada


Pattern Classification de Duda, Hart y Storck
The Elements of Statistical Learning de Hastie, Tibshirani y Friedman
Parte del material se extrajo de las notas:Tcnicas Supervisadas II: Aproximacin no paramtrica
de F.Cortijo, Univ. de Granada
Contenido
(Resumen) Clase anterior

Mtodos de Clasificacin sin Mtrica


rboles de Decisin
Repaso
Mtodos de Clasificacin
sin Mtrica
Mtodos de Clasificacin sin Mtrica
Datos nominales (discretos) sin nocin de similitud o distancia
Escala nominal: conjunto de categoras mutuamente excluyentes
y globalmente exhaustivas.
Ej: Clasificacin de frutas
Caractersticas: color, textura, sabor, tamao
x={rojo, brillante, dulce, pequeo}
Mtodos de Clasificacin sin Mtrica
Datos nominales (discretos) sin nocin de similitud o distancia
Escala nominal: conjunto de categoras mutuamente excluyentes
y globalmente exhaustivas.
Ej: Clasificacin de frutas
Caractersticas: color, textura, sabor, tamao
x={rojo, brillante, dulce, pequeo}
Caractersticas cualitativas (categricas):
Ordinales (existe un orden jerrquico, e.g., grado de educacin)
Nominales (no existe un orden, e.g., profesin)
Mtodos de Clasificacin sin Mtrica
Datos nominales (discretos) sin nocin de similitud o distancia
Escala nominal: conjunto de categoras mutuamente excluyentes
y globalmente exhaustivas.
Ej: Clasificacin de frutas
Caractersticas: color, textura, sabor, tamao
x={rojo, brillante, dulce, pequeo}
Caractersticas cualitativas (categricas):
Ordinales (existe un orden jerrquico, e.g., grado de educacin)
Nominales (no existe un orden, e.g., profesin)
Cmo aprender clases usando datos sin mtrica?
Cul es la forma ms eficiente de aprender usando datos nominales
para clasificar?
rboles de Decisin
Secuencia de preguntas en la que la pregunta siguiente depende de la
respuesta de la pregunta actual.
Particularmente til para datos sin mtrica (usando atributos).
rboles de Decisin
Secuencia de preguntas en la que la pregunta siguiente depende de la
respuesta de la pregunta actual.
Particularmente til para datos sin mtrica (usando atributos).
Clasificador estructura de rbol.
rbol: consiste en Nodos interiores y Nodos terminales.
Nodo interior: pregunta sobre un atributo concreto (ramas
mutuamente distintas y excluyentes)
Nodo terminal u hoja: asociado a una clase.
rboles de Decisin
Aprendizaje. Construccin del rbol a partir de un
conjunto de muestras etiquetadas.
Clasificacin. Preguntas sobre los valores de los
atributos, se comienza por el nodo raz y se contina
por el camino determinado por las respuestas a las
preguntas de los nodos internos, hasta llegar a un
nodo hoja. La etiqueta asignada a esta hoja es la que
se asignar al patrn a clasificar.
rboles de Decisin
Fcilmente interpretable: interpretacin de las clases
en funcin de los atributos. Ej: MANZANA=(verde y
medio) o (rojo y medio). Permite explicar decisiones.
Adecuados para datos cuantitativos y cualitativos.
Clasificacin es rpida.
Permite incluir conocimiento a priori de expertos
Explicitan utilidad de las caractersticas.
Benchmark (referencia) para evaluar desempeo, a
veces alcanza el desempeo de clasificadores ms
complejos/sofisticados.
Construccin de rboles de decisin
(CART, ID3, C4.5)

CART: (Classification And Regression Trees) Breiman 1984


ID3, C4.5 Quinlann 1992
Partimos de patrones etiquetados

?
? ?

Principio fundamental:
Simplicidad del rbol (principio parsimonia o Navaja de Occam)
"En igualdad de condiciones, la explicacin ms sencilla suele ser la ms probable."
Construccin de rboles de decisin
(CART, ID3, C4.5)
Proceso recursivo: dados los patrones que llegan a un nodo:
1. Declarar el nodo terminal (asignamos una clase)
2. Encontrar una nueva caracterstica y volver a dividir los
patrones.
Construccin de rboles de decisin
(CART, ID3, C4.5)
Proceso recursivo: dados los patrones que llegan a un nodo:
1. Declarar el nodo terminal (asignamos una clase)
2. Encontrar una nueva caracterstica y volver a dividir los
patrones.

Preguntas:
Dos ramificaciones o ms?
Qu atributo se analiza en cada nodo?
Cuando un nodo es terminal?
Cmo se asigna la clase final?
rboles Binarios
Nmero de ramificaciones: Color verde?
si
Binarias Color amarillo?
No binarias si
no
rboles Binarios
Nmero de ramificaciones: Color verde?
si
Binarias Color amarillo?
No binarias si
no

Cualquier decisin (cualquier rbol) puede representarse


usando slo decisiones binarias.

Nos concentramos en rboles binarios (en general son los


usados en algoritmos prcticos) :
Poder expresivo universal de los rboles binarios.
Simplicidad comparativa del entrenamiento.
Construccin del rbol de clasificacin
Nodo raz: Tiene a todos los prototipos
Construccin del rbol de clasificacin
Nodo raz: Tiene a todos los prototipos
Se parte el nodo raz:
Dada una caracterstica se elige la particin que
separa a los prototipos en clases ms puras.
Se realiza lo mismo para las otras caractersticas.
Se selecciona la caracterstica y particin que separa
mejor las clases (pureza)
Construccin del rbol de clasificacin
Nodo raz: Tiene a todos los prototipos
Se parte el nodo raz:
Dada una caracterstica se elige la particin que
separa a los prototipos en clases ms puras.
Se realiza lo mismo para las otras caractersticas.
Se selecciona la caracterstica y particin que separa
mejor las clases (pureza)
Se repite el procedimiento para los nodos hijos hasta
llegar a condicin de parada (nodo hoja).
Los prototipos asociados a un nodo hoja se le asigna
una etiqueta (la de la mayora).
Seleccin de las particiones
De qu forma se hacen las particiones y se
selecciona la mejor de entre las posibles en cada
momento?
Seleccin de las particiones
De qu forma se hacen las particiones y se
selecciona la mejor de entre las posibles en cada
momento?

Objetivo: Incrementar homogeneidad de los


conjuntos resultantes al particionar (pureza)

Medida de pureza Impureza del nodo N: i(N).


Vamos a analizar distintas opciones para i(N).
Criterios de particin (impureza)
i(N) : Impureza de un nodo N: Medida de la homogeneidad
de los datos que llegan a ese nodo.
Es funcin de:
Impureza mxima:
Impureza mnima (nodo puro):
Criterios de medida de impureza

Impureza de Entropa/Informacin (ID3, C4.5)


Criterios de medida de impureza

Impureza de Gini (varianza)


Dos clases
Criterios de medida de impureza

Impureza de Gini (varianza)


Dos clases

c clases
Impureza de Gini - Interpretacin
Tasa de error esperado en el nodo N si la clase a
asignar se sortea en forma aleatoria usando la
distribucin de clases presente en el nodo N.
Criterios de medida de impureza

Impureza de error de clasificacin

Error de clasificacin al asignar a la clase de la


mayora.
Es la medida ms "picuda" de las tres cuando las
probabilidades son iguales.
Derivadas discontinuas (puede complicar bsqueda de
decisin ptima)
Criterios de medida de impureza

Impureza en un nodo para un problema binario de clasificacin


como funcin de la proporcin de datos de una clase p.
(Valores renormalizados para visualizacin. Fig Hastie.)
Criterios de medida de impureza

Entropa y Gini ms sensibles


Gini ms "picudo" cuando las probabilidades son
iguales.
Entropa o Gini se usan para crecer el rbol y error de
clasificacin para podarlo.
Criterios de medida de impureza

Entropa y Gini ms sensibles


Gini ms "picudo" cuando las probabilidades son
iguales.
Entropa o Gini se usan para crecer el rbol y error de
clasificacin para podarlo.
Ej.:
Error de Gini Entropa
clasificacin
(90,10) 0,1 0,09 0,33
(45,5) (5,45) 0,1 0,09 0,33
(70,0) (10,20) 0,1 0,066 0,19
Bondad de una particin

N
PI s PD

NI ND

Bondad de la particin s en un nodo N


Decrecimiento en impureza
Criterios de particin
Cul es la mejor caracterstica? La que maximiza el
decremento de impureza:

Caractersticas nominales (color verde?) probar


con todas y seleccionar la de mayor i .
Decisiones sobre caractersticas ordinales o
continuas: primero encontrar el lmite de decisin
ptimo para cada caracterstica y luego elegir la
mejor.
Incorporacin de atributos continuos

Requiere la discretizacin de las caractersticas


para poder incluirlas en el proceso de aprendizaje.
Se genera una caracterstica booleana comparando
la caracterstica continua contra un umbral. i.e.,
pregunta del tipo: xi < s?
Se busca el umbral s que produzca la mejor
ganancia de entropa (impureza)
Lmites de decisin
z2
R1
Capacidad expresiva
R1 limitada de los lmites
x1<0,15?
de decisin
si R2
x2<0,35? R2 R1

A z1
x1<0,65? no
z2 z2 x
B x
si x x
no x x =c
x x z2
+b
A B az 1

z1 z1
Obs: Se puede volver a usar una
caracterstica. Pierde facilidad de interpretacin
Optimalidad de la solucin
Optimalidad de decisin local: Elegir el mejor atributo en
cada nodo) NO garantiza la optimalidad global (por ejemplo el
nmero mnimo de nodos)
Optimalidad de la solucin
Optimalidad de decisin local: Elegir el mejor atributo en
cada nodo) NO garantiza la optimalidad global (por ejemplo el
nmero mnimo de nodos)

La eleccin de la funcin de impureza no es tan determinante


como la eleccin del criterio de parada y los mtodos de poda.
rbol muy grande sobreajustar (overfitting) a los datos, muy
pequeo puede perder capacidad de discriminacin.
Optimalidad de la solucin
Optimalidad de decisin local: Elegir el mejor atributo en
cada nodo) NO garantiza la optimalidad global (por ejemplo el
nmero mnimo de nodos)

La eleccin de la funcin de impureza no es tan determinante


como la eleccin del criterio de parada y los mtodos de poda.
rbol muy grande sobreajustar (overfitting) a los datos, muy
pequeo puede perder capacidad de discriminacin.

Tamao del rbol: parmetro que gobierna la complejidad del


modelo. Debe elegirse de acuerdo a los datos. Se busca rbol
ms simple, ms compacto. Occams razor.
Criterios de Parada

Hacen crecer el rbol hasta el mnimo de


impureza (suma de impurezas en cada hoja)
Desventaja: sobre-ajuste (overfiting)

Alternativas:
Pre-podado: Detener el crecimiento
Pos-podado: Crecer hasta el lmite y luego
podar
Criterios de Parada
1. Validacin cruzada: partir el set de datos en entrenamiento
(90%), test/validacin (10%).
Desventaja: Menos datos para entrenar.
Se para de particionar cuando error
comienza a crecer
Criterios de Parada
1. Validacin cruzada: partir el set de datos en entrenamiento
(90%), test/validacin (10%).
Desventaja: Menos datos para entrenar.
Se para de particionar cuando error
comienza a crecer

2. Umbral sobre la reduccin de impureza: i (N). rbol


depende del elegido por diseador. (Se usa todo el conjunto
de datos y pueden existir hojas en distintos niveles del rbol)
Criterios de Parada
1. Validacin cruzada: partir el set de datos en entrenamiento
(90%), test/validacin (10%).
Desventaja: Menos datos para entrenar.
Se para de particionar cuando error
comienza a crecer

2. Umbral sobre la reduccin de impureza: i (N). rbol


depende del elegido por diseador. (Se usa todo el conjunto
de datos y pueden existir hojas en distintos niveles del rbol)

3. Umbral sobre la cantidad de patrones en un nodo (balanced).


Continuar creciendo el rbol con pocos patrones producira
sobre-ajuste. (Particiones chicas en zonas densas y grandes en
zonas dispersas similar k-vecinos).
Criterios de Parada
4. Penalizar la complejidad del rbol (adems del ajuste)

Tamao: # nodos, #hojas . Depende de eleccin de >0

Minimiza la suma de la complejidad del modelo y la


descripcin (precisin) de los patrones dado el modelo.

Dificultad determinar relacin entre y desempeo del


clasificador .
Criterios de Parada
5. Test de hiptesis. Mide si reduccin de impureza (i) es
estadsticamente significativa (si difiere respecto a una
particin aleatoria)
Criterios de Parada
5. Test de hiptesis. Mide si reduccin de impureza (i) es
estadsticamente significativa (si difiere respecto a una
particin aleatoria)
Supongamos hay n patrones (n1 de w1,n2 de w2) y que una
determinada particin s, enva Pn a la izquierda y (1-P)n a la
derecha. Particin aleatoria debera enviar Pn1 de w1 y Pn2 de
w2 a la izquierda (el resto a la derecha).
Criterios de Parada
5. Test de hiptesis. Mide si reduccin de impureza (i) es
estadsticamente significativa (si difiere respecto a una
particin aleatoria)
Supongamos hay n patrones (n1 de w1,n2 de w2) y que una
determinada particin s, enva Pn a la izquierda y (1-P)n a la
derecha. Particin aleatoria debera enviar Pn1 de w1 y Pn2 de
w2 a la izquierda (el resto a la derecha).
Podemos medir la desviacin respecto a la hiptesis nula
mediante el estadstico de Pearson (chi-squared).
Test 2: (o Pearson). Determinar si la distribucin de eventos
observados en una muestra es consistente con una cierta
distribucin terica.
Criterios de Parada: Test de Hiptesis
Valor Esperado si hay
asignacin aleatoria

x<xs
n=nI+nD

nI=nI1+nI2 nD=nD1+nD2
Hiptesis nula H0: Distribuciones iguales (asignacin aleatoria)
Umbral para cierto nivel de confianza
= P( 2> 2

)

Nivel de confianza: Grados de libertad: c-1

Rechazamos H0 : hacemos ramificacin (si


Aceptamos H0 : se detiene crecimiento (nodo terminal)

Umbral establecido por el usuario


rbol completo

"Podado" severo (pocos nodos)


Mtodos de Poda (pruning)
Efecto horizonte: al detener el crecimiento podemos perder
ramificaciones posteriores beneficiosas.
La poda permite que un subrbol de un nodo permanezca y la otra
desaparezca, mientras que detener el crecimiento poda ambas ramas
simultneamente
Alternativa: crecer el rbol completamente y podarlo luego.
Preferible si es computacionalmente tolerable.
Idea. Estimar error con y sin la ramificacin y decidir si vale la pena
la ramificacin. Si no, unir los nodos.

x<xs?
Mtodos de (pos-)poda
Remplazo de sub-rbol
Conjunto de datos independiente para podado (partir el
conjunto de datos disponibles en dos).
Se busca eliminar el sobreajuste (overfitting)
Mtodos de (pos-)poda
Remplazo de sub-rbol
Conjunto de datos independiente para podado (partir el
conjunto de datos disponibles en dos).
Se busca eliminar el sobreajuste (overfitting)
Comenzando desde las hojas y hacia la raz:
Se remplaza un nodo con hoja etiquetada por clase
mayoritaria.
Se calcula el error en el conjunto de podado si es menor se
remplaza el nodo por hoja.
Se obtiene un sub-rbol ptimo para conjunto de poda.
Poda por mnimo costo-complejidad
Complejidad de un sub-rbol: Nmero de nodos
terminales (hojas), |T|.
Error de clasificacin R(T).
Medida de costo-complejidad:
R (T) = R(T) + |T|

0:parmetro de complejidad
Mtodos de Poda
Elevacin de Sub-rbol
Usando todo los datos para entrenamiento
Es ms compleja y no necesariamente siempre es til:
Usada en C4.5.
Estima el error cometido en un nodo cuando sustituyo
sub-rbol por una de sus ramas. Top/down.
rboles de Decisin

Inestabilidad: sensibles al conjunto de


entrenamiento, alta varianza. Pequeo cambio en los
datos puede generar gran cambio en particiones,
haciendo interpretacin precaria (ejemplo a
continuacin)
Alternativas: Bagging, Random Forest
Priors y costos: Es posible incluir priors o costos
pesando los patrones de entrenamiento con el prior o
los costos.
Ej: ndice de Gini:
EJEMPLO - Clasificacin binaria - 8 muestras

Impureza de Entropa
EJEMPLO - Clasificacin binaria - 8 muestras

Impureza de Entropa

Inestable!
Datos faltantes (en entrenamiento)
Construir el rbol usando los patrones que tienen
definida la caracterstica (puede ser bastante
restrictivo)
Datos faltantes (en entrenamiento)
Construir el rbol usando los patrones que tienen
definida la caracterstica (puede ser bastante
restrictivo)
Si en un nodo N dado hay un patrn x={x1, x2, x3}
con una caracterstica x2 faltante, se puede estimar
i(N) con n patrones para x1 y x3 y con (n-1) para x2.
Se utiliza la caracterstica que decrece i(N) en mayor
cantidad
Datos faltantes (en testing)
Supongamos que queremos construir un rbol capaz de
procesar (en testing) muestras con datos faltantes
Datos faltantes (en testing)
Supongamos que queremos construir un rbol capaz de
procesar (en testing) muestras con datos faltantes
En un nodo dado N, luego de elegir la mejor caracterstica para
una ramificacin (caracterstica primaria), se eligen
caractersticas suplentes en orden, considerando la correlacin
entre caractersticas.
Datos faltantes (en testing)
Supongamos que queremos construir un rbol capaz de
procesar (en testing) muestras con datos faltantes
En un nodo dado N, luego de elegir la mejor caracterstica para
una ramificacin (caracterstica primaria), se eligen
caractersticas suplentes en orden, considerando la correlacin
entre caractersticas.

Correlacin = # Patrones a la izquierda por ambas + #Patrones a la derecha por ambas

El objetivo es tratar de replicar la divisin dada por la


caracterstica primaria
En la clasificacin si el atributo sobre el que hay que decidir
falta se usa el siguiente suplente.
Duda-Hart
Qu clasificador es mejor?
Algunos criterios:
Criterio de crecimiento: impureza de entropa funciona bien
- regla defecto.
Podado preferible a parada con validacin cruzada. Aunque
podado de conjunto de datos grandes puede ser inabordable.
No hay un rbol superior a otro...
rboles de decisin desempeo "similar" a otros mtodos
como redes neuronales, k-vecinos.
Particularmente tiles con datos no mtricos.
Fortalezas y debilidades de rboles

Interpretabilidad de las reglas de decisin


Bajo costo computacional para clasificar
Pueden usar caractersticas continuas y categricas

Entrenamiento computacionalmente caro (post-poda)


No tratan bien regiones no-rectangulares.

You might also like