Informe Sobre Limpieza y Corrección Pre Procesamiento de Datos

INFORME SOBRE LIMPIEZA Y CORRECCIÓN PRE PROCESAMIENTO DE DATOS
En este caso aprendemos a usar los 5 filtros que nos ayudaran a seleccionar un grupo de
instancias en estas utilizaremos las siguientes:
 Remove Fold.
Con el Remove fold podemos eliminar particiones de validación Cruzada ya sea este de un
algoritmo de clasificación como vemos en la siguiente imagen.
 Remove Percentage.
Con el Remove percentage podemos eliminar un porcentaje de las instancias del conjunto
de datos este caso Generalmente es aplicado a un conjunto de datos enorme ya sean de
100000 200000 o quizá más en el ejemplo eliminamos el 20% del conjunto de datos
 Remove Range.
Sirve para eliminar un conjunto de instancias dentro de un rango en este caso indicamos
de que punto a que punto de la instancia se desea eliminar
 Remove Frequent Values.
Permite eliminar un grupo de instancias de un atributo en este caso nominal

 Remove With Values.
Se usa para la eliminación de instancias que contienen datos faltantes o si estas son
atípicas.
Cómo eliminar una instancia duplicada: para ello utilizaremos el Remove Duplicates.
Como vemos las instancias repetidas en este caso fueron eliminadas.
Ahora vemos los algoritmos de muestreo: en ciertos casos los datos recolectados son
insuficientes por ende sucede un desequilibrio de clases en el cual afecta el desempeño
del clasificador por ende necesitamos algoritmos que ente caso nos ayuden a resolver este
problema.
Para este caso utilizamos un primer algoritmo que se denomina.
 Class Balancer. Con este algoritmo podemos balancear las clases
Como podemos observar el algoritmo trata de buscar un balance o equilibrio en los datos a
evaluar.
Ahí vemos que la exactitud varía porque en este caso al buscar el balance los datos
cambian y se produce una variación en los porcentajes.
Ahora usamos el algoritmo llamado Resample con el también como vemos en la siguiente
imagen busca un equilibrio en los datos
En este caso vemos que este algoritmo es mucho mejor que el class balancer ya que el
porcentaje mejora considerablemente.
En el siguiente algoritmo llamado SpreadSubsample vemos el siguiente grafico
Este algoritmo mantiene los datos de la clase minoritaria mientras que de la mayoritaria lo
elimina y así las clases son equilibradas.
Preparación del conjunto de datos: en este caso para extraer los diferentes conjuntos de
datos utilizaremos el algoritmo Resample este es el mismo que fue utilizado en el balanceo
de los algoritmos antes mencionados, en este caso usaremos el algoritmo con una
diferente configuración.
En este caso configuramos para un 80% con eso concluimos que el 20% de las instancias
son diferentes
Este es el funcionamiento del algoritmo Resample.

CONSTRUCCIÓN MODELOS PREDICTIVOS CLASIFICACIÓN
En este caso utilizaremos el Naive Bayes que es el clasificador Bayesiano ingenuo. Para
este caso utilizaremos un conjunto de datos general para generar el modelo usando un
algoritmo de aprendizaje supervisado seguido a esto usamos un conjunto de datos de
prueba aplicamos el modelo y así predecir nuevas instancias.
 Naive Bayes.
En este caso tenemos en 73% de clasificación correcta de datos exactos y con un error de
4 instancias que equivalen al 26%
Al comparar con el modelo anterior vemos una mejora considerable al porcentaje de datos
correctos.
En este caso veremos el algoritmo de clasificación de vecinos más cercanos: Este
algoritmo básicamente trata de determinar la lejanía entre 2 instancias de un primer
registro de entrenamiento a una instancia nueva de prueba y así poder predecir y
seleccionar los K vecinos más cercanos a la instancia.
Como podemos ver la instancia de prueba nos arroja un 60% de datos correctos pero al
combinar con el otro porcentaje de los datos anteriores en este caso nos arroja
Un 100% de instancias correctas siendo está a mejorar. Como conclusión a esto decimos
que el clasificador de vecinos más cercanos como vimos es un clasificador vasado en
instancias también podríamos decir que está basado en memoria donde cargamos y
recorremos todo el conjunto de datos del entrenamiento en este caso para así poder hacer
la predicción de las clases de nuevas instancias.
Clasificador Árbol de decisión: como sabemos un árbol es un conjunto de nodos que están
conectados entre sí y este se encuentra invertido en el cual podemos observar el nodo
Raíz, los nodos internos, y los nodos que se encuentran al final del árbol estas son las hojas
donde son colocadas las decisiones ahora bien mostraremos el funcionamiento de este
clasificador.
Como podemos observar ahí tenemos un modelo de árbol de decisión que utilizamos en el
conjunto de datos.
Que es un clasificador de reglas: una regla tiene la siguiente forma (Si… entonces…) esto
quiere decir que debe cumplir una condición donde la condición en este caso es un
conjunto de atributos y el entonces es la clase a predecir. También tenemos los siguientes.
 LHS: estos son los antecedentes de regla o condición.

 RHS: Este es el consecuente de la regla.
Nuestro objetivo en este caso es el de convertir un conjunto de datos en un conjunto de

reglas. Ahora veremos la funcionalidad de este clasificador.
 Clasificador ZeroR.
Como podemos observar el 60% de los datos o instancias son correctas.
 Clasificador OneR: este clasificador se basa en un único atributo.
Como vemos tiene un 80% de instancias correctas de 12/15 instancias correctas.

 Clasificador Prism: con este clasificador la construcción de las reglas busca cubrir
exactamente los datos, y a medida que estos se cubren se eliminan las instancias de los
datos y el orden de la regla queda predeterminada.
Como observamos el algoritmo pudo construir un conjunto de reglas en este caso con una
exactitud al 100%
 Métricas de Evaluación de las reglas: para empezar tenemos la primera métrica que es la
confianza de una regla que básicamente es el soporte del antecedente con el consecuente
entre el soporte del antecedente el soporte quiere decir la distancia que cumplen con el
antecedente y el consecuente entre la cantidad de instancias.
Como conclusión tenemos que vimos los diferentes clasificadores de reglas y también las
diferentes métricas de exactitud o confianza como también el interés de una regla

Informe Sobre Limpieza y Corrección Pre Procesamiento de Datos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Informe Sobre Limpieza y Corrección Pre Procesamiento de Datos

Uploaded by

Copyright:

Available Formats

INFORME SOBRE LIMPIEZA Y CORRECCIÓN PRE PROCESAMIENTO DE DATOS

 Remove Frequent Values.

Permite eliminar un grupo de instancias de un atributo en este caso nominal

Como vemos las instancias repetidas en este caso fueron eliminadas.

Para este caso utilizamos un primer algoritmo que se denomina.

 Class Balancer. Con este algoritmo podemos balancear las clases

En el siguiente algoritmo llamado SpreadSubsample vemos el siguiente grafico

Este es el funcionamiento del algoritmo Resample.

 LHS: estos son los antecedentes de regla o condición.

Nuestro objetivo en este caso es el de convertir un conjunto de datos en un conjunto de

Como podemos observar el 60% de los datos o instancias son correctas.

 Clasificador OneR: este clasificador se basa en un único atributo.

Como vemos tiene un 80% de instancias correctas de 12/15 instancias correctas.

You might also like