Minería de Datos - Materia

Minera de Datos
Antologa
Ramn Edgardo Rincn Fernndez
Unidad I .: Introduccin a la Minera de Datos :.

1.1 Minera de Datos
Importancia de los Datos
Hoy en da, y est claro que se trata de una tendencia vlida para los prximos aos, el
almacenamiento de la informacin es algo sencillo y barato. Nuestros sistemas informticos cada
vez tienen una capacidad mayor, y lo que ahora es normal encontrar de serie en una
computadora personal, quedar anticuado dentro de unos meses. Este incremento de los sistemas
de almacenamiento tiene un efecto que es realmente interesante: es poco costoso guardar datos
del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes,
etc., por lo que nuestras bases de datos (en el sentido ms amplio del trmino) crecen hasta
lmites insospechados.
Cuando decidimos iniciar ese proceso de almacenamiento de datos, lo solemos hacer con la
intencin de analizarlos posteriormente. Sin embargo, cuando llega el momento, el anlisis que se
realiza suele ser bastante superficial y guiado por los resultados que esperamos encontrar al
analizarlos. Lo normal es utilizar algn paquete estadstico (una hoja de clculo en el caso ms
simple) para localizar correlaciones entre variables, establecer medias y varianzas e intentar
modelar de esta forma nuestra informacin.
Sin embargo, en esa montaa de datos existe informacin que no puede ser encontrada con los
procedimientos habituales de trabajo. La minera de datos nos ayuda a dar un paso ms en ese
anlisis sacando a la luz relaciones ocultas entre los datos: informacin desconocida que pueda
ayudarnos a gestionar mejor nuestro negocio o proceso.
Estructuracin de los datos
Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuracin
y coherencia entre los mismos. Si el responsable de almacenamiento de la informacin ha sido
siempre la misma persona, es posible que una parte de este problema est resuelto. Sin embargo,
en general no se da esa situacin, sino que, ms bien al contrario, son muchas las personas que en
distintos departamentos y a lo largo del tiempo han ido creando ficheros con diferentes tipos de
datos.
Surge aqu la necesidad de conjugar los distintos archivos y bases de datos de manera que
podamos utilizarlos para extraer conclusiones. Aunque ms adelante trataremos el problema del
preprocesamiento de los datos, en este punto podemos echar un vistazo a los problemas que
podemos encontrarnos:
Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha
provocado uno de los mayores problemas informticos es la representacin de la fecha,
donde el ao se puede guardar con 2 o con 4 dgitos.
Diferentes claves para representar el mismo elemento: un mismo cliente puede ser
representado por un cdigo de cliente propio o por su NIF.
Diferentes niveles de precisin al representar un dato: los nmeros reales no siempre se
almacenan de la misma forma, y es posible que esto nos genere algn problema.
Minera de Datos
Antologa
Como podemos ver, la cuestin no es sencilla, y se agrava cuando los diferentes archivos se
encuentran en sistemas informticos y soportes diferentes.
Informacin oculta en los datos
A estas alturas ya va pareciendo claro que si almacenamos la informacin ms relevante de
nuestro negocio en un sistema que acumula y acumula datos sin parar, un anlisis razonable nos
puede permitir descubrir tendencias, localizar grupos de datos con comportamiento homogneo,
establecer relaciones, etc.
Esa informacin est oculta en los datos y ser necesario utilizar todas las tcnicas a nuestro
alcance para obtenerla. El objetivo que nos planteamos es localizar relaciones entre atributos de
nuestro DataWarehouse. Estas relaciones podran ser del tipo:
Para una gran superficie: Ms del 60% de las personas que adquieren queso fresco
compran tambin algn tipo de mermelada.
Para un departamento de fidelizacin de una compaa area: muchos usuarios que hacen
vuelos de menos de 3 das a Berln alquilan un coche en el aeropuerto.
Para un operador de telefona: durante el mes siguiente al lanzamiento de una campaa
de descuento en llamadas internacionales por parte de una compaa de la competencia,
nuestros pequeos clientes redujeron su consumo en este sector, mientras que los
grandes clientes lo mantuvieron.
Minera de datos
La minera de datos puede definirse como la extraccin no trivial de informacin implcita,
previamente desconocida y potencialmente til, a partir de los datos. Para conseguirlo hace uso
de diferentes tecnologas que resuelven problemas tpicos de agrupamiento automtico,
clasificacin, asociacin de atributos y deteccin de patrones secuenciales. La minera de datos es,
en principio, una fase dentro de un proceso global denominado descubrimiento de conocimiento
en bases de datos (Knowledge Discovery in Databases o KDD), aunque finalmente haya adquirido
el significado de todo el proceso en lugar de la fase de extraccin de conocimiento.
Es habitual que los expertos en estadstica confundan la minera de datos con un anlisis
estadstico de stos (afirmaciones de este tipo pueden encontrarse en documentacin de
empresas dedicadas al procesamiento estadstico que venden sus productos como herramientas
de minera de datos). La diferencia fundamental entre ambas tcnicas es muy clara: para conseguir
una afirmacin como la que ha sido utilizada en el ejemplo anterior (Ms del 60% de las personas
que adquieren queso fresco compran tambin algn tipo de mermelada) utilizando un paquete
estadstico, es necesario conocer a priori que existe una relacin entre el queso fresco y la
mermelada, y lo que realizamos con nuestro entorno estadstico es una cuantificacin de dicha
relacin.
En el caso de la minera de datos el proceso es muy distinto: la consulta que se realiza a la base de
datos (al DataWarehouse) busca relaciones entre parejas de productos que son adquiridos por una
misma persona en una misma compra. De esa informacin, el sistema deduce, junto a otras
muchas, la afirmacin anterior. Como podemos ver, en este proceso se realiza un acto de
Minera de Datos
Antologa
descubrimiento de conocimiento real, puesto que no es necesario ni siquiera sospechar la

existencia de una relacin entre estos dos productos para encontrarla.
DataWarehouse
El mecanismo ms habitual para estructurar la informacin de un negocio es haciendo uso de un
DataWarehouse. Las definiciones ms habituales de este trmino son:
Almacn de datos. Plataforma que concentra la informacin de inters de toda la
empresa.
Sistema que permite el almacenamiento en un nico entorno de la informacin histrica
e integrada proveniente de los distintos sistemas de la empresa y que refleja los
indicadores clave asociados a los negocios de la misma.
Sistema de informacin orientado a la toma de decisiones empresariales que,
almacenando de manera integrada la informacin relevante del negocio, permite la
realizacin de consultas complejas con tiempos de respuesta cortos.
Sistema orientado a dar informacin en trminos de negocio en vez de datos en trminos
de explotacin.
Utilidad del DM
La utilidad de Data Mining se puede dar dentro de los siguientes aspectos:
Sistemas parcialmente desconocidos: Si el modelo del sistema que produce los datos es bien
conocido, entonces no necesitamos de la minera de datos ya que todas las variables son de
alguna manera predecibles. Este no es el caso del comercio electrnico, debido a los efectos del
comportamiento humano, el clima y de decisiones polticas entre otros. En estos casos habr una
parte del sistema que es conocida y habr una parte aparentemente de naturaleza aleatoria. Bajo
ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la
posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo.
Enorme cantidad de datos: Al contar con mucha informacin en algunas bases de datos es
importante para una empresa encontrar la forma de analizar "montaas" de informacin (lo que
para un humano sera imposible) y que ello le produzca algn tipo de beneficio.
Potente hardware y software: Muchas de las herramientas presentes en la minera de datos estn
basadas en el uso intensivo de la computacin, en consecuencia, un equipo conveniente y un
software eficiente, con el cual cuente una compaa, aumentar el desempeo del proceso de
buscar y analizar informacin, el cual a veces debe vrselas con producciones de datos del orden
de los Gbytes/hora. El uso del data mining puede ser provechoso en el caso de poseer datos sobre
sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos
sobre la actividad de competidores, etc.
Minera de Datos
Antologa
OBJETIVOS PRINCIPALES DE LA MINERA DE DATOS

Data Mining persigue ciertos objetivos de manera especfica:
Descripcin: El principal producto del proceso de la minera de datos es el descubrimiento de
reglas. Estas mostrarn nuevas relaciones entre las variables o excepciones de acuerdo a la
empresa en que se utilice este proceso. Ello enriquecer el anlisis y la descripcin de la forma en
que trabaja una compaa y ayudar en la planificacin y en el diseo de futuros cambios. Es
posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible
realizar modificaciones apropiadas en la organizacin con el propsito de mejorar su desempeo.
Prediccin (Forecasting): Una vez descubiertas reglas importantes, estas pueden ser utilizadas
para estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien
en la identificacin e interrupcin a tiempo, de una futura mala experiencia de crdito. En esta
tarea, se complementan las tcnicas estadsticas tradicionales con aquellas provenientes de la
inteligencia artificial. Conceptos adaptativos como los algoritmos genticos y las redes neuronales,
permiten realizar predicciones ms acertadas, especialmente en casos de gran complejidad y con
relaciones internas.
1.2 Proceso de la Minera de Datos
Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los
mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada.
El proceso de minera de datos se compone de las siguientes fases:
Seleccin y preprocesado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca
es el idneo y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera
sobre los datos "en bruto".
Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no
vlidos, desconocidos... segn las necesidades y el algoritmo que va a usarse), se obtienen
muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce
el nmero de valores posibles (mediante redondeo, clustering...).
Seleccin de variables
An despus de haber sido preprocesados, en la mayora de los casos se tiene una cantidad
ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las
variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de
conocimiento obtenido del proceso de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:
Minera de Datos
Antologa
1. Aquellos basados en la eleccin de los mejores atributos del problema

2. Y aquellos que buscan variables independientes mediante tests de sensibilidad,
algoritmos de distancia o heursticos
Extraccin de conocimiento
Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que

representa patrones de comportamiento observados en los valores de las variables del problema o
relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez
para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado
diferente de los datos.
Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones
que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel
que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos modelos.
1.2.1
Seleccin de Objetivos
El primer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en definir claramente el problema empresarial y considerar formas de proporcionar una respuesta
para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema, definir las
mtricas por las que se evaluar el modelo y definir los objetivos concretos del proyecto de
minera de datos. Estas tareas se traducen en preguntas como las siguientes:
Minera de Datos
Antologa
Qu est buscando? Qu tipos de relaciones intenta buscar?

Refleja el problema que est intentando resolver las directivas o procesos de la empresa?
Desea realizar predicciones a partir del modelo de minera de datos o solamente buscar
asociaciones y patrones interesantes?
Qu atributo del conjunto de datos desea intentar predecir?
Cmo se relacionan las columnas? En caso de que haya varias tablas, cmo se
relacionan?
Cmo se distribuyen los datos? Los datos son estacionales? Los datos representan con
precisin los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad de datos
para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles.
Si los datos no abarcan las necesidades de los usuarios, podra tener que volver a definir el
proyecto.
Tambin debe considerar las maneras en las que los resultados del modelo se pueden incorporar
en los indicadores de rendimiento clave (KPI) que se utilizan para medir el progreso comercial.
1.2.2
Preparacin de los Datos
Preparar los Datos

El segundo paso del proceso de minera de datos, como se indica en el siguiente diagrama,
consiste en consolidar y limpiar los datos identificados en el paso Definir el problema.
Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos; tambin
pueden contener incoherencias como entradas que faltan o incorrectas. Por ejemplo, los datos
pueden mostrar que un cliente adquiri un producto incluso antes que se ofreciera en el mercado
o que el cliente compra regularmente en una tienda situada a 2.000 kilmetros de su casa.
La limpieza de datos no solamente implica quitar los datos no vlidos, sino tambin buscar las
correlaciones ocultas en los datos, identificar los orgenes de datos que son ms precisos y
Minera de Datos
Antologa
determinar qu columnas son las ms adecuadas para usarse en el anlisis. Por ejemplo, debera
utilizar la fecha de envo o la fecha de pedido? Qu influye ms en las ventas: la cantidad, el
precio total o un precio con descuento? Los datos incompletos, los datos equivocados y las
entradas que parecen independientes, pero que de hecho estn estrechamente correlacionadas
pueden influir en los resultados del modelo de maneras que no espera. Por consiguiente, antes de
empezar a generar los modelos de minera de datos, debera identificar estos problemas y
determinar cmo los corregir.
Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada
transaccin. Por consiguiente, tiene que utilizar alguna forma de automatizacin para explorar los
datos y buscar las incoherencias. Existen herramientas necesarias para completar este paso,
incluidas las transformaciones para automatizar la limpieza y consolidacin de los datos.
Es importante tener en cuenta que los datos que utiliza para la minera de datos no necesitan
almacenarse en un cubo de Procesamiento analtico en lnea (OLAP), ni siquiera en una base de
datos relacional, aunque puede utilizarlos ambos como orgenes de datos. Puede realizar minera
de datos mediante cualquier origen de datos definido como origen de datos de Analysis Services.
Por ejemplo, archivos de texto, libros de Excel o datos de otros proveedores externos. Para
obtener ms informacin, vea Definir orgenes de datos (Analysis Services).
Explorar los datos
El tercer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minera de
datos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y mximos,
calcular la media y las desviaciones estndar, y examinar la distribucin de los datos. Por ejemplo,
al revisar el mximo, el mnimo y los valores de la media se podran determinar que los datos no
son representativos de los clientes o procesos de negocio, y que por consiguiente debe obtener
ms datos equilibrados o revisar las suposiciones que son la base de sus expectativas. Las
Minera de Datos
Antologa
desviaciones estndar y otros valores de distribucin pueden proporcionar informacin til sobre
la estabilidad y exactitud de los resultados. Una desviacin estndar grande puede indicar que
agregar ms datos podra ayudarle a mejorar el modelo. Los datos que se desvan mucho de una
distribucin estndar se podran sesgar o podran representar una imagen precisa de un problema
de la vida real, pero dificultar el ajustar un modelo a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de datos
contiene datos defectuosos y, a continuacin, puede inventar una estrategia para corregir los
problemas u obtener una descripcin ms profunda de los comportamientos que son tpicos de su
negocio.
Generar Modelos
El cuarto paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en generar el modelo o modelos de minera de datos. Utilizar los conocimientos adquiridos en el
paso Explorar los datos para definir y crear los modelos.
Defina qu datos desea que se utilicen creando una estructura de minera de datos. La estructura
de minera de datos define el origen de datos, pero no contiene ningn dato hasta que lo procesa.
Al procesar la estructura de minera de datos, las herramientas generan los agregados y otra
informacin estadstica que se puede utilizar para el anlisis. Cualquier modelo de minera de
datos que est basado en la estructura puede utilizar esta informacin.
Antes de que se procese el modelo, un modelo de minera de datos simplemente es un
contenedor que especifica las columnas que se usan para la entrada, el atributo que est
prediciendo y parmetros que indican al algoritmo cmo procesar los datos. El proceso de un
modelo tambin se denomina entrenamiento. El entrenamiento hace referencia al proceso de
aplicar un algoritmo matemtico concreto a los datos de la estructura para extraer patrones. Los
patrones que encuentre en el proceso de entrenamiento dependern de la seleccin de los datos
de entrenamiento, el algoritmo que elija y cmo se haya configurado el algoritmo. SQL Server
Minera de Datos
Antologa
2008 contiene muchos algoritmos diferentes. Cada uno est preparado para un tipo diferente de
tarea y crea un tipo distinto de modelo.
Tambin puede utilizar los parmetros para ajustar cada algoritmo y puede aplicar filtros a los
datos de entrenamiento para utilizar un subconjunto de los datos, creando resultados diferentes.
Despus de pasar los datos a travs del modelo, el objeto de modelo de minera de datos contiene
los resmenes y modelos que se pueden consultar o utilizar para la prediccin.
Explorar y Validar los Modelos
El quinto paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en explorar los modelos de minera de datos que ha generado y comprobar su eficacia.
Antes de implementar un modelo en un entorno de produccin, es aconsejable probar si funciona

correctamente. Adems, al generar un modelo, normalmente se crean varios con configuraciones
diferentes y se prueban todos para ver cul ofrece los resultados mejores para su problema y sus
datos.
Existe software que proporciona herramientas que ayudan a separar los datos en conjuntos de
datos de entrenamiento y pruebas, para que pueda evaluar con precisin el rendimiento de todos
los modelos en los mismos datos. El conjunto de datos de entrenamiento se utiliza para generar el
modelo y el conjunto de datos de prueba para comprobar la precisin del modelo mediante la
creacin de consultas de prediccin.
Para comprobar si el modelo es especfico de sus datos o se puede utilizar para realizar inferencias
en la poblacin general, puede utilizar la tcnica estadstica denominada validacin cruzada para
crear automticamente subconjuntos de los datos y probar el modelo con cada uno.
Minera de Datos
Antologa
Si ninguno de los modelos que ha creado en el paso Generar modelos funciona correctamente,
puede que deba volver a un paso anterior del proceso y volver a definir el problema o volver a
investigar los datos del conjunto de datos original.
Implementar y Actualizar los modelos
El ltimo paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en implementar los modelos que funcionan mejor en un entorno de produccin.
Una vez que los modelos de minera de datos se encuentran en el entorno de produccin, puede
llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son algunas de las
tareas que puede realizar:
Utilizar los modelos para crear predicciones que pueda utilizar para tomar decisiones
empresariales. SQL Server ofrece el lenguaje DMX, que puede utilizar para crear consultas
de prediccin, y el Generador de consultas de prediccin, que le ayuda a generar las
consultas.
Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del modelo.
Incrustar la funcionalidad de minera de datos directamente en una aplicacin. Puede
incluir Objetos de administracin de anlisis (AMO), que contiene un conjunto de objetos
que la aplicacin pueda utilizar para crear, cambiar, procesar y eliminar estructuras y
modelos de minera de datos.
Utilizar Servicios de Integracin para crear un paquete en el que se utilice un modelo de
minera de datos para dividir de forma inteligente los datos entrantes en varias tablas. Por
ejemplo, si una base de datos se actualiza continuamente con clientes potenciales, puede
utilizar un modelo de minera de datos junto con servicios de integracin para dividir los
datos entrantes en clientes que probablemente compren un producto y clientes que
probablemente no compren un producto.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo
de minera de datos existente.
Actualizar los modelos despus de la revisin y anlisis. Cualquier actualizacin requiere
que vuelve a procesar los modelos.
Minera de Datos
Antologa
Actualizar dinmicamente los modelos, cuando entren ms datos en la organizacin, y

realizar modificaciones constantes para mejorar la efectividad de la solucin debera ser
parte de la estrategia de implementacin.
1.3 Discretizacin
La discretizacin es la clasificacin y agrupamiento solo trabajan con atributos nominales. Cuando
se tiene atributos numricos deben ser discretizados en un conjunto pequeo de rangos. La
mayora de los algoritmos de rboles y reglas de decisin pueden trabajar con atributos numricos
(lentos).
Existen dos formas de Discretizacin:
a. Discretizacin Local
Esta considera los atributos de manera local para tomar la decisin de donde efectuar la
ramificacin. Se considera localmente el proceso de discretizar, cada vez las decisiones se realizan
con menos datos.
b. Discretizacin Global
Esta considera los atributos de manera global para tomar la decisin de donde encontrar la raz de
la ramificacin. Se considera localmente el proceso de discretizar, cada vez las decisiones se
realizan con ms datos.
Para enfrentar los problemas de discretizacin de datos, existen las siguientes opciones:
1. No supervisada: cuantificar o asignar un valor a cada atributo considerando que no se
conoce las clases que hay en el conjunto de entrenamiento (conjunto de datos
seleccionados o muetreo).
2. Supervisada: considerar que s se conocen las clases.
3. Dividir los datos en un nmero predeterminado de intervalos iguales (no supervisado)
4. Por Intervalos iguales: distribuye los atributos en depsitos, se corre el riesgo de que un
intervalo tenga ms datos que otro el cual puede tener cero.
5. Por frecuencias iguales: divide los atributos en un predeterminado nmero de rangos para
evitar que un rango tenga ms datos que otros ecualizacin por histograma.
Problemas Descriptivos
Evaluacin de Modelos Descriptivos:
Reglas de asociacin: evaluacin sencilla: dos parmetros (support, confidence).
No supervisados: mucho ms compleja que en los predictivos: concepto de error
difcil de definir.
En los mtodos basados en distancia se pueden observar ciertos parmetros:
distancia entre bordes de los clsters
distancia entre centros (de haberlos)
radio y densidad (desviacin tpica de la distancia) de los clsters.
Minera de Datos
Antologa
Para cada ejemplo a agrupar se comprueba su distancia con el centro o con el borde de cada
clster.Problemas Predictivos
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a
priori, a partir de otros conocidos. En general un algoritmo en minera de datos genera un modelo
predictivo con base a los datos de entrada. Para poder hacer la minera se deben interpretar los
modelos generados, algunos de ellos son fciles de interpretar, tales como los rboles de decisin
y las reglas de decisin.
1.4 Tcnicas y Herramientas
El data mining es una de las principales herramientas que se utilizan dentro de los programas de
gestin del conocimiento como soporte a la toma de decisiones.
El fin es la extraccin de informacin oculta o anlisis de datos mediante tcnicas estadsticas de
grandes bases de datos.
Las herramientas de data mining o minera de datos pueden responder a preguntas de negocios
empresariales a priori no planteadas o que pueden consumir demasiado tiempo para ser
resueltas.
Los programas de gestin del conocimiento se complementan con distintas herramientas adems
del data mining, como puede ser el data warehousing o el groupware. El datamining, como
herramienta de bsqueda de informacin, se utiliza como sistema de apoyo a la toma de
decisiones de las altas direcciones de las empresas.
Las tcnicas de data mining se centran en analizar el gran volumen de datos, que en una primera
seleccin pueden ser pertinentes, pero que la aplicacin de tcnicas de seleccin ceida a unas
determinada demanda, reduce el tamao de los datos eligiendo las variables ms influyentes en el
problema.
En definitiva, la minera de datos es una tecnologa usada para descubrir informacin oculta y
desconocida, pero potencialmente til, a partir de las fuentes de informacin de la propia
empresa. Obtiene un conocimiento de un negocio, utilizando tcnicas de clustering, redes
neuronales, rboles de decisin y reglas de asociacin etc.
1.4.1
Tcnicas
Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial

y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se
aplican sobre un conjunto de datos para obtener unos resultados.
Las tcnicas ms representativas son:
Minera de Datos
Antologa
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico

inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un
sistema de interconexin de neuronas en una red que colabora para producir un estmulo
de salida. Algunos ejemplos de red neuronal son:
o El Perceptrn.
o El Perceptrn multicapa.
o Los Mapas Autoorganizados, tambin conocidos como redes de Kohonen.
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz
pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2
variables.
rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el

mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas
de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas,
que sirven para representar y categorizar una serie de condiciones que suceden de forma
sucesiva, para la resolucin de un problema. Ejemplos:
o Algoritmo ID3.
o Algoritmo C4.5.
Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se

emplea en todos los diseos experimentales y en la regresin para indicar los diferentes
factores que modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores

segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada
de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y
no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)

desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren
patrones y tendencias en los datos.
1.4.2
Herramientas
Existen muchas herramientas de software para el desarrollo de modelos de minera de datos tanto
libres como comerciales como, por ejemplo:
R
KNIME
SPSS Clementine (software)
SAS Enterprise Miner
STATISTICA Data Miner
Minera de Datos
RapidMiner
Weka
KXEN
Orange
Antologa
Minera de Datos
Antologa
Unidad II .: Preparacin de los Datos :.

2.1 Preliminares: repaso de conceptos estadsticos
La estadstica es un auxiliar de muchas ciencias con base matemtica referente a la recoleccin,

anlisis e interpretacin de datos, ya sea para ayudar en la resolucin de la toma de decisiones o
para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de
ocurrencia en forma aleatoria o condicional.
Distribucin normal.
Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde
las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en reas de
negocios o instituciones gubernamentales.
La estadstica se divide en dos elementos:
La estadstica descriptiva, que se dedica a los mtodos de recoleccin, descripcin,

visualizacin y resumen de datos originados a partir de los fenmenos en estudio. Los
datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos de parmetros
estadsticos son: la media y la desviacin estndar. Algunos ejemplos grficos son:
histograma, pirmide poblacional, clsters, etc.
La estadstica inferencial, que se dedica a la generacin de los modelos, inferencias y
predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de
las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca
de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a
preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas
(estimacin), pronsticos de futuras observaciones, descripciones de asociacin
(correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Otras
tcnicas de modelamiento incluyen anova, series de tiempo y minera de datos.
Minera de Datos
Antologa
Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una
disciplina llamada estadstica matemtica, la cual se refiere a las bases tericas de la materia. La
palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un
conjunto de datos, como en estadsticas econmicas, estadsticas criminales, etc.
Prembulo
Al aplicar la estadstica a un problema cientfico, industrial o social, se comienza con un proceso o
poblacin a ser estudiado. Esta puede ser la poblacin de un pas, de granos cristalizados en una
roca o de bienes manufacturados por una fbrica en particular durante un periodo dado. Tambin
podra ser un proceso observado en varios instantes y los datos recogidos de esta manera
constituyen una serie de tiempo.
Por razones prcticas, en lugar de compilar datos de una poblacin entera, usualmente se estudia
un subconjunto seleccionado de la poblacin, llamado muestra. Datos acerca de la muestra son
recogidos de manera observacional o experimental. Los datos son entonces analizados
estadsticamente lo cual sigue dos propsitos: descripcin e inferencia.
El concepto de correlacin es particularmente valioso. Anlisis estadsticos de un conjunto de
datos puede revelar que dos variables (esto es, dos propiedades de la poblacin bajo
consideracin) tienden a variar conjuntamente, como si hubiera una conexin entre ellas. Por
ejemplo un estudio del ingreso anual y la edad de muerte entre personas podran resultar en que
personas pobres tienden a tener vidas ms cortas que personas de mayor ingreso. Las dos
variables se dicen a ser correlacionadas. Sin embargo, no se pude inferir inmediatamente la
existencia de una relacin de causalidad entre las dos variables. El fenmeno correlacionado
podra ser la causa de un tercero, previamente no considerado, llamado variable confundida.
Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas en la muestra
pueden ser extendidas a la poblacin completa. Un problema mayor es el de determinar que tan
representativa es la muestra extrada. La estadstica ofrece medidas para estimar y corregir por
aleatoriedad en la muestra y en el proceso de recoleccin de los datos, as como mtodos para
disear experimentos robustos como primera medida, ver diseo experimental.
El concepto matemtico fundamental empleado para entender la aleatoriedad es el de
probabilidad. La estadstica matemtica (tambin llamada teora estadstica) es la rama de las
matemticas aplicadas que usa la teora de probabilidades y el anlisis matemtico para examinar
las bases tericas de la estadstica.
El uso de cualquier mtodo estadstico es vlido solo cuando el sistema o poblacin bajo
consideracin satisface los supuestos matemticos del mtodo. El mal uso de la estadstica puede
producir serios errores en la descripcin e interpretacin, afectando las polticas sociales, la
prctica mdica y la calidad de estructuras tales como puentes y plantas de reaccin nuclear.
Incluso cuando la estadstica es correctamente aplicada, los resultados pueden ser difcilmente
interpretados por un inexperto. Por ejemplo, el significado estadstico de una tendencia en los
datos, que mide el grado al cual la tendencia puede ser causada por una variacin aleatoria en la
muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades
Minera de Datos
Antologa
estadsticas bsicas (y el escepticismo) que una persona necesita para manejar informacin en el
da a da se refiere como cultura estadstica.
Mtodos estadsticos
Un objetivo comn para un proyecto de investigacin estadstica es investigar la causalidad, y en

particular extraer una conclusin en el efecto que algunos cambios en los valores de predictores o
variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes
tipos de estudios estadsticos para estudiar causalidad: estudios experimentales y observacionales.
En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o
variables) en el comportamiento de una variable dependiente es observado. La diferencia entre
los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy
efectivo.
Un estudio experimental implica tomar mediciones del sistema bajo estudio, manipular el sistema
y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la
manipulacin ha modificado los valores de las mediciones. En contraste, un estudio observacional
no necesita manipulacin experimental. Por el contrario, los datos son recogidos y las
correlaciones entre predictores y la respuesta son investigadas.
Un ejemplo de un estudio experimental es el famoso experimento de Hawthorne el cual pretenda
probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric
Company. Los investigadores estaban interesados en si al incrementar la iluminacin en un
ambiente de trabajo, la produccin de los trabajadores aumentaba. Los investigadores primero
midieron la productividad de la planta y luego modificaron la iluminacin en un rea de la planta
para ver si cambios en la iluminacin afectaran la productividad. La productividad mejor bajo
todas las condiciones experimentales. Sin embargo, el estudio fue muy criticado por errores en los
procedimientos experimentales, especficamente la falta de un grupo control y seguimiento.
Un ejemplo de un estudio observacional es un estudio que explora la correlacin entre fumar y el
cncer de pulmn. Este tipo de estudio normalmente usa una encuesta para recoger
observaciones acerca del rea de inters y luego produce un anlisis estadstico. En este caso, los
investigadores recogeran observaciones de fumadores y no fumadores y luego miraran los casos
de cncer de pulmn en ambos grupos.
Los pasos bsicos para un experimento son:
Planeamiento estadstico de la investigacin, lo cual incluye encontrar fuentes de

informacin, seleccin de material disponible en el rea y consideraciones ticas para la
investigacin y el mtodo propuesto. Se plantea un problema de estudio,
Disear el experimento concentrndose en el modelo y la interaccin entre variables
independientes y dependientes. Se realiza un muestreo consistente en la recoleccin de
datos referentes al fenmeno o variable que deseamos estudiar. Se propone un modelo
de probabilidad, cuyos parmetros se estiman mediante estadsticos a partir de los datos
de muestreo. Sin embargo, se mantiene lo que se denominan hiptesis sostenidas (que
no son sometidas a comprobacin). Se valida el modelo comparndolo con lo que sucede
Minera de Datos
Antologa
en la realidad. Se utiliza mtodos estadsticos conocidos como test de hiptesis o prueba

de significacin.
Se producen estadsticas descriptivas.
Inferencia estadstica. Se llega a un consenso acerca de qu dicen las observaciones acerca
del mundo que observamos.
Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos futuros. Se
produce un reporte final con los resultados del estudio.
Niveles de medicin
Hay cuatro tipos de mediciones o escalas de medicin en estadstica. Los cuatro tipos de niveles de
medicin (nominal, ordinal, intervalo y razn) tienen diferentes grados de uso en la investigacin
estadstica. Las medidas de razn, en donde un valor cero y distancias entre diferentes mediciones
son definidas, dan la mayor flexibilidad en mtodos estadsticos que pueden ser usados para
analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones,
pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura
en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos,
pero un orden interpretable para sus valores. Las medidas nominales no tienen ningn rango
interpretable entre sus valores.
La escala de medida nominal, puede considerarse la escala de nivel ms bajo. Se trata de agrupar
objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de orden de los
nmeros. La escala de intervalos iguales est caracterizada por una unidad de medida comn y
constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es
arbitrario, y no refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta
escala, adems de poseer las caractersticas de la escala ordinal, permite determinar la magnitud
de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o
Razones es el nivel de medida ms elevado y se diferencia de las escalas de intervalos iguales
nicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta
escala significan ausencia de la magnitud que estamos midiendo. Si se observa una carencia total
de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los
nmeros asignados corresponden iguales diferencias en el grado de atributo presente en el objeto
de estudio.
Tcnicas de anlisis estadstico
Algunos tests y procedimientos para investigacin de observaciones bien conocidos son:
Prueba t de Student
Prueba de
Anlisis de varianza (ANOVA)
U de Mann-Whitney
Anlisis de regresin
Correlacin
Iconografa de las correlaciones
Frecuencia estadstica
Anlisis de frecuencia acumulada
Prueba de la diferencia menos significante de Fisher
Minera de Datos
Antologa
Coeficiente de correlacin producto momento de Pearson

Coeficiente de correlacin de rangos de Spearman
Anlisis factorial exploratorio
Anlisis factorial confirmatorio
Computacin Estadstica
El rpido y sostenido incremento en el poder de clculo de la computacin desde la segunda mitad
del siglo XX ha tenido un sustancial impacto en la prctica de la ciencia estadstica. Viejos modelos
estadsticos fueron casi siempre de la clase de los modelos lineales. Ahora, complejos
computadores junto con apropiados algoritmos numricos, han causado un renacer del inters en
modelos no lineales (especialmente redes neuronales y rboles de decisin) y la creacin de
nuevos tipos tales como modelos lineales generalizados y modelos multinivel.
El incremento en el poder computacional tambin ha llevado al crecimiento en popularidad de
mtodos intensivos computacionalmente basados en remuestreo, tales como tests de
permutacin y de bootstrap, mientras tcnicas como el muestreo de Gibbs han hecho los mtodos
bayesianos ms accesibles. La revolucin en computadores tiene implicaciones en el futuro de la
estadstica, con un nuevo nfasis en estadsticas experimentales y empricas. Un gran nmero
de paquetes estadsticos est ahora disponible para los investigadores. Los sistemas dinmicos y
teora del caos, desde hace una dcada, empezaron a interesar en la comunidad hispana, pues en
la anglosajona de Estados Unidos estaba ya establecida la conducta catica en sistemas
dinmicos no lineales con 350 libros para 1997 y empezaban algunos trabajos en los campos de
las ciencias sociales y en aplicaciones de la fsica. Tambin se estaba contemplando su uso en
analtica.
2.2 Preliminares: tipo de atributos

La entrada del proceso de MD
Vista minable: en un contexto de BD relacionales, es una nica tabla con todos los atributos
relevantes para el proceso de MD.
Atributos: Nos concentraremos en dos tipos de atributos
Atributos numricos: enteros, reales.
Atributos nominales: tambin referenciados como atributos categricos, enumerados o discretos.
Toman valores en un conjunto finito y preestablecido de categoras.
Como un reto para MD es realizar algoritmos que puedan aprender desde atributos numricos y
simblicos combinados con otros tipos de atributos (imgenes, texto, sonido).
Minera de Datos
Antologa
2.3. Etapas para Creacin del Modelo de Minera.

Preparacin de datos
Salida Conjunto de datos
Este es el conjunto (o conjuntos) producido por la fase de preparacin de datos, que ser usada
para modelar o para el trabajo principal de anlisis del proyecto.
Descripcin del conjunto de datos
Describir el conjunto de dato (o conjuntos) que ser usado para el modelado y el trabajo principal
de anlisis del proyecto.
Seleccin de datos
Tarea Seleccin de datos
Decidir qu datos sern usados para el anlisis. Los criterios incluyen la importancia a los objetivos
de la minera de datos, la calidad, y las restricciones tcnicas como lmites sobre el volumen de
datos o los tipos de datos. Note que la seleccin de datos cubre la seleccin de atributos
(columnas) as como la seleccin de registros (filas) en una tabla.
Salida Razonamiento para la inclusin/exclusin
Listar los datos para ser incluidos/excluidos y los motivos para estas decisiones.
Limpieza de datos
Tarea Limpiar datos
Elevar la calidad de los datos al nivel requerido por las tcnicas de anlisis seleccionadas. Esto
puede implicar la seleccin de los subconjuntos de datos limpios, la insercin de datos por
defectos adecuados, o tcnicas ms ambiciosas tales como la estimacin de datos faltantes
mediante modelado.
Salida Informe de la limpieza de los datos
Describa que decisiones y acciones fueron tomadas para dirigir los problemas de calidad de datos
informados durante la tarea de Verificacin de Calidad de Datos de los Datos de la fase de
Comprensin de Datos. Las transformaciones de los datos para una apropiada limpieza y el posible
impacto en el anlisis de resultados deberan ser considerados.
Minera de Datos
Antologa
Construir datos
Tarea Construir datos
Esta tarea incluye la construccin de operaciones de preparacin de datos tales como la
produccin de atributos derivados o el ingreso de nuevos registros, o la transformacin de valores
para atributos existentes.
Salidas Atributos derivados
Los atributos derivados son los atributos nuevos que son construidos de uno o ms atributos
existentes en el mismo registro. Ejemplo: rea = longitud * anchura.
Registros generados
Describa la creacin de registros completamente nuevos. Ejemplo: Crear registros para los clientes
quienes no hicieron compras durante el ao pasado. No haba ninguna razn de tener tales
registros en los datos brutos, pero para el objetivo del modelado esto podra tener sentido para
representar explcitamente el hecho que ciertos clientes no hayan hecho compra nada.
Integrar datos
Tarea Integrar datos
Estos son los mtodos por el cual la informacin es combinada de mltiples tablas o registros para
crear nuevos registros o valores.
Salida Combinacin de datos
La combinacin de tablas se refiere a la unin simultnea de dos o ms tablas que tienen
informacin diferente sobre el mismo objeto. Ejemplo: una cadena de venta al pblico tiene una
tabla con la informacin sobre las caractersticas generales de cada tienda (Por ejemplo, el
espacio, el tipo de comercio), otra tabla con datos resumidos de las ventas (por ejemplo, el
beneficio, el cambio porcentual en ventas desde el ao anterior), y el otro con informacin sobre
los datos demogrficos del rea circundante. Cada una de estas tablas contiene un registro para
cada tienda. Estas tablas pueden ser combinadas simultneamente en una nueva tabla con un
registro para cada tienda, combinando campos de las tablas fuentes.
Los datos combinados tambin cubren agregaciones. La agregacin se refiere a operaciones en la
que nuevos valores son calculados de informacin resumida de mltiples registros y/o tablas. Por
ejemplo, convirtiendo una tabla de compra de clientes donde hay un registro para cada compra en
una tabla nueva donde hay un registro para cada cliente, con campos tales como el nmero de
compras, el promedio de la cantidad de compra, el porcentaje de rdenes cobrados a tarjeta de
crdito, el porcentaje de artculos bajo promocin, etc.
Minera de Datos
Antologa
Formatear datos
Tarea Formatear datos
Formateando transformaciones se refiere a modificaciones principalmente sintcticas hechas a los
datos que no cambian su significado, pero podra ser requerido por la herramienta de modelado.
Salida Datos reformateados
Algunas herramientas tienen requerimientos sobre el orden de los atributos, tales como el primer
campo que es un nico identificador para cada registro o el ltimo campo es el campo resultado
que el modelo debe predecir.
Podra ser importante cambiar el orden de los registros en el conjunto de datos. Quizs la
herramienta de modelado requiere que los registros sean clasificados segn el valor del atributo
de resultado. Comnmente, los registros del conjunto de datos son ordenados al principio de
algn modo, pero el algoritmo que modela necesita que ellos estn en un orden moderadamente
arbitrario. Por ejemplo, cuando se usa redes neuronales, esto es generalmente mejor para los
registros para ser presentados en un orden aleatorio, aunque algunas herramientas manejen esto
automticamente sin la intervencin explicita del usuario.
Adems, hay cambios puramente sintcticos hechos para satisfacer las exigencias de la
herramienta de modelado especfica. Ejemplos: el quitar de comas de adentro de campos de texto
en ficheros de datos delimitados por coma, corta todos los valores a un mximo de 32 caracteres.
2.4 Tratamiento de la falta de datos
Los datos no siempre estn disponibles. Por ejemplo, muchas filas no tienen registrados valores
para muchos atributos, tales como los ingresos del cliente en datos de ventas.
La falta de valores se puede deber a:
Mal funcionamiento de equipos.
Inconsistencia con otros datos registrados y por lo tanto eliminados.
Datos no ingresados debido a equivocaciones o malos entendidos.
Algunos datos pudieron no considerarse importantes al momento de ingresar datos.
No se registr historial o cambios en los datos.
Puede ser necesario estimar los valores faltantes.
Los valores faltantes son un problema comn en anlisis estadstico. Se ha propuesto muchos
mtodos para el tratamiento de valores faltantes. Muchos de estos mtodos fueron desarrollados
para el tratamiento de valores faltantes en encuestas por muestreo.
Bello (1995), tratamiento de valores faltantes in regression
Troyanskaya et al (2001), tratamiento de datos faltantes en clasificacin no supervisada.
Minera de Datos
Antologa
Mecanismos de valores faltantes

a. Valores faltantes completamente al azar (MCAR): La probabilidad que una instancia tenga
un valor faltante para un atributo es la misma para todas las instancias. Es decir, esta
probabilidad no depende ni de los valores observados ni de los valores faltantes. La
mayora de los valores faltantes no son MCAR.
Por ejemplo, supongamos que peso y edad son variables de inters en un estudio. Si la
probabilidad que una persona d informacin acerca de su peso es la misma para todas las
personas sin tomar en cuenta su peso y edad, entonces los valores faltantes en el atributo peso
son considerados como MCAR.
Este mecanismo es ms adecuado para datos a ser usados en clasificacin no supervisada.
b. Valores faltantes al azar (MAR): La probabilidad que una instancia tenga un valor faltante
en un atributo depende de los valores observados, como por ejemplo la clase a la cual
pertenece la instancia, pero no depende de los valores faltantes. Este mecanismo es ms
adecuado para datos usados en clasificacin supervisada.
c. Valores faltantes no al azar o no ignorables (NMAR): La probabilidad de que una instancia
tenga un valor faltante en un atributo depende de los valores faltantes en el conjunto de
datos. Ocurre cuando las personas entrevistadas no quieren revelar algo muy personal
acerca de ellas. El patrn de valores faltantes no es aleatorio. Este tipo de valores faltantes
es el ms difcil de tratar y es el que ocurre ms frecuentemente.
Para conjuntos de datos con un bajo porcentaje de valores faltantes el mecanismo se puede
considerar MCAR.
Para conjuntos de datos con un alto porcentaje de valores faltantes el mecanismo se puede
considerar NMAR.
Para conjuntos de datos con valores faltantes simulados el mecanismo se puede considerar MAR.
Tratamientos de valores faltantes
Eliminacin de casos. Ignorar la fila que contiene datos faltantes. Usualmente es aplicado
cuando el valor que falta es el de la clase (asumiendo que se est haciendo clasificacin).
No es efectiva cuando el porcentaje de valores faltantes por atributo vara
considerablemente.
Estimacin de parmetros, donde los procedimientos de Mxima Verosimilitud que usan
variantes del algoritmo EM (Expectation-Maximization) pueden manejar la estimacin de
parmetros en presencia de valores faltantes.
Tcnicas de Imputacin, donde los valores faltantes son reemplazados con valores
estimados basados en la informacin disponible en el conjunto de datos.
Minera de Datos
Antologa
En el contexto de clasificacin supervisada, se usan cuatro mtodos para el tratamiento de valores

faltantes:
Eliminacin de casos (CD) Este mtodo consiste en descartar todas las instancias (casos)
con valores perdidos en por lo menos un atributo. Una variante de este mtodo consiste
en determinar el grado de valores faltantes en cada instancia y atributo, y eliminar las
instancias y/o atributos con altos niveles de valores faltantes. Antes de eliminar cualquier
atributo es necesario evaluar su relevancia en el anlisis.
Imputacin usando la media (MI) Reemplazar los valores faltantes de un atributo dado
por la media de todos los valores conocidos de ese atributo en la clase a la que la instancia
con el valor faltante pertenece.
Imputacin usando la mediana (MDI). Como la media se ve afectada por la presencia de
outliers, parece natural usar la mediana en su lugar para asegurar robustez. En este caso
los valores faltantes para un atributo dado es reemplazado por la mediana de todos los
valores conocidos de ese atributo en la clase a la que la instancia con el valor faltante
pertenece.
Efecto de valores faltantes en clasificacin supervisada
Para conjuntos de datos con una pequea cantidad de valores faltantes se observa poca diferencia
entre la eliminacin de casos y otros mtodos de imputacin.
Cuando se usa eliminacin de casos la variabilidad del estimado del error de clasificacin aumenta.
Casi no hay diferencia entre usar imputacin por la media e imputacin por la mediana.
El efecto de los valores faltantes depende de la forma que se distribuyen en la matriz de datos y en
su localizacin con respecto a las variables ms importantes.
El porcentaje de instancias con valores faltantes tiene mayor efecto en el proceso de clasificacin
que el porcentaje total de valores faltantes en la matriz de datos
El tratamiento de los valores faltantes en el proceso de clasificacin depende del clasificador que
est siendo usado.
2.5 Reduccin de dimensionalidad

Es importante saber qu atributos o variables necesitamos y cuantas instancias van a ser
necesarias, por lo que es necesaria una seleccin de datos, no solo con el objetivo de reducir el
tamao para obtener una minera de datos ms rpida, sino que puede permitir mejorar algunos
resultados, aplicando diferentes tcnicas. En nuestro caso, que tratamos con datos del estilo
atributo-valor (los datos se encuentran en una tabla) hemos utilizado dos tipos de seleccin: la
seleccin horizontal (muestreo), donde se eliminan algunas filas mediante el muestreo y la
seleccin vertical (reduccin de dimensionalidad) donde se eliminan algunos atributos que no son
de importancia.
Minera de Datos
Antologa
En este trabajo los datos recogidos en la base de datos representan el total de la muestra, pero al
ser estudiados en alguna situacin o modelo, se hace evidente si existiera alguna repeticin en las
filas de atributos debido a que ocurran en un mismo criterio. La utilizacin de un criterio en los
datos representa una reduccin horizontal, esto se hizo con el objetivo de obtener un primer
modelo con un subconjunto de instancias y variables, lo que podra permitir mejorar el resultado
en precisin y en costos.
El aplicar la reduccin de dimensionalidad se realiz teniendo tres objetivos fundamentales:
Eliminar atributos irrelevantes o redundantes
Expresar el modelo resultante en funcin de menos variables, lo que hace algunos
modelos ms comprensibles, y por tanto mejora su calidad
Representar estos modelos visualmente requiere de pocos atributos para lograr una
claridad.
La extraccin de los datos puede resultar de diferentes fuentes u orgenes (Bases de Datos,
Archivos, diferentes dispositivos de almacenamiento, entre otros), por lo que es comn que
existan muchos datos errneos o faltantes en un atributo; en esta situacin es preferible
deshacerse de l.
No es sencillo eliminar atributos. Para eliminar atributos, utilizamos las siguientes reglas, que son
aplicables muy fcilmente a las bases de datos.
Eliminacin de claves candidatas.
Eliminacin de atributos dependientes
Minera de Datos
Antologa
Unidad III .: Arboles de Decisin :.
El paso ms importante de este proceso es conocido como minera de datos o data mining (DM a
partir de ahora). DM es un campo interdisciplinar con el objetivo general de predecir resultados
y/o descubrir relaciones en los datos. DM puede ser descriptivo, i.e. descubrir patrones que
describen los datos, o predictivo, para pronosticar el comportamiento del modelo basado en los
datos disponibles.
Tpicamente un algoritmo de DM tiene tres componentes
el modelo
el criterio de preferencia o eleccin
el algoritmo de bsqueda.
El modelo tiene dos posibles tipologas:
Funcin.- puede ser de clasificacin, regresin, clustering, de generacin de reglas, reglas
de asociacin, modelos de dependencia o anlisis de secuencias.
Representacin.- puede ser redes neuronales, rboles de decisin, discriminacin lineal,
etc.
Cada modelo tiene unos parmetros que deben ser determinados mediante un algoritmo de
bsqueda que optimiza los parmetros del modelo segn el criterio de eleccin o preferencia que
hace un mejor ajuste del modelo a los datos.
Un concepto primordial, y diferenciador de las tcnicas estadsticas ms clsicas, es el de

aprendizaje automtico (machine learning), que fue concebido hace aproximadamente cuatro
dcadas con el objetivo de desarrollar mtodos computacionales que implementaran varias
formas de aprendizaje, en particular, mecanismos capaces de inducir conocimiento a partir de
datos. Ya que el desarrollo de software ha llegado a ser uno de los principales cuellos de botella de
la tecnologa informtica de hoy, la idea de introducir conocimiento por medio de ejemplos parece
particularmente atractivo al sentido comn. Tal forma de induccin de conocimiento es deseable
en problemas que carecen de solucin algortmica eficiente, son vagamente definidos, o
informalmente especificados. Ejemplos de tales problemas pueden ser la diagnosis mdica, el
reconocimiento de patrones visuales o la deteccin de regularidades en enormes cantidades de
datos.
Los algoritmos de aprendizaje automtico pueden clasificarse en dos grandes categoras: mtodos
de caja negra (o sin modelo), tales como redes neuronales o los mtodos bayesianos, y mtodos
orientados al conocimiento, tales como los que generan rboles de decisin, reglas de asociacin,
o reglas de decisin. La propuesta de caja negra desarrolla su propia representacin del
conocimiento, que no es visible desde el exterior. Los mtodos orientados al conocimiento, por el
contrario, construyen una estructura simblica del conocimiento que intenta ser til desde el
punto de vista de la funcionalidad, pero tambin descriptiva desde la perspectiva de la
inteligibilidad. Existen tambin mtodos para extraer reglas comprensibles a partir de estas cajas
negras, con lo que en realidad ambas categoras pueden ser tiles para la extraccin de
conocimiento.
Minera de Datos
Antologa
Lgicamente, las reas del aprendizaje automtico y la minera de datos se solapan en gran
medida, en cuanto a los problemas que tratan y a los algoritmos que utilizan. No obstante, la
minera de datos tiene un mayor enfoque en el conocimiento comprensible a partir de grandes
cantidades de informacin, mientras que el aprendizaje automtico se orienta ms a la tarea del
aprendizaje propiamente, buscando en algunos casos estrategias o heursticas, ms que el propio
conocimiento comprensible. Por esa razn, la minera de datos tiene un espectro de aplicacin
ms amplio visto desde el exterior, en el sentido de que interacta mejor con diferentes dominios,
pues el aprendizaje realizado se transforma en conocimiento til para el experto en el dominio
concreto.
Un ltimo concepto relacionado es el de soft-computing, idea que engloba gran parte de las
metodologas que pueden ser aplicadas en DM. Algunas de las metodologas ms extendidas y
usadas son tales como algoritmos genticos, lgica fuzzy, redes neuronales, razonamiento basado
en casos, conjuntos rough o hibridaciones de las anteriores.
3.1 Extraccin de regla

Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico.
La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado: es simplemente el
acto de construir un modelo en una situacin donde usted conoce la respuesta y luego la aplica en
otra situacin de la cual desconoce la respuesta.
Otra lnea de trabajo relacionada es la de reconocimiento de patrones (pattern recognition o
matching), concepto anterior en el tiempo al de aprendizaje automtico y con un enorme
potencial prctico. Este campo estudia el desarrollo y aplicacin de sistemas complejos basados en
tcnicas "blandas" (redes neuronales, lgica difusa, algoritmos evolutivos, etc.) para la tarea de
clasificacin adaptable de patrones, en una doble vertiente de reconocimiento y de focalizacin
(conocimiento contextual). Este tipo de sistemas tiene su aplicacin en problemas de los que no se
dispone de un modelo matemtico, o el modelo es demasiado complejo, o las propiedades
estadsticas de los datos son muy variables. Tal es el caso, por ejemplo, de patrones visuales
basados en imgenes areas o satelitales, de problemas de clasificacin y diagnstico en algunos
campos (como la medicina o la balstica). Tambin se puede aplicar a problemas relacionados en el
campo del control inteligente, en el cual los sistemas complejos neuronales suministran la
capacidad de aprendizaje y la lgica borrosa permite la extraccin de las reglas de clasificacin o
diagnstico.
3.2 Mtodos para la construccin de arboles de decisin
Los rboles de decisin se pueden considerar como un mtodo para aproximar una funcin
objetivo de valores discretos, que es resistente al ruido en los datos y que es capaz de hallar o
aprender una disyuncin de expresiones. El resultado puede, de esta manera, expresarse como un
conjunto de reglas Si-entonces. Por otra parte, los rboles de decisin pueden entenderse como
una representacin de los procesos involucrados en las tareas de clasificacin.
Minera de Datos
Antologa
Estn formados por:
Nodos: nombres o identificadores de los atributos.

Ramas: posibles valores del atributo asociado al nodo.
Hojas: conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase.
Desde el punto de vista del aprendizaje de mquina, se puede ver el proceso de creacin de un
rbol de decisin, como una bsqueda de un rbol que clasifique correctamente los datos del
problema en cuestin. Visto de esta forma, en los rboles de decisin se pueden identificar los
siguientes elementos:
1. Espacio de hiptesis: Todos los posibles rboles de decisin.
2. Mtodo: Escalada (hill-climbing), empezando por el rbol vaco, aunque podran ser un
mtodo, como por ejemplo, el basado en programacin gentica, en donde se hace la
bsqueda sobre rboles completos, los cuales son transformados mediante operaciones
evolutivos (cruce. Mutacin, reproduccin), y se evalan a la luz de su desempeo en
relacin con los datos del problema, ver por ejemplo [7, 9]
3. Heurstica que gua la bsqueda: Ganancia de informacin.
La representacin del conocimiento en forma de rbol resulta relativamente simple y es una de
las causas por la que los procedimientos utilizados en su aprendizaje sean ms sencillos que los
sistemas que utilizan lenguajes de representacin ms potentes, como redes semnticas,
representaciones en lgica de predicados, etc. Sin embargo, esto deriva en que la potencia
expresiva de los rboles de decisin sea menor que la de esos otros sistemas.
Algoritmo de rboles de decisin

El algoritmo de rboles de decisin es un algoritmo de clasificacin y regresin proporciona para el
modelado de prediccin de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basndose en las relaciones entre las
columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como estados, de
estas columnas para predecir los estados de una columna que se designa como elemento de
prediccin. Especficamente, el algoritmo identifica las columnas de entrada que se correlacionan
Minera de Datos
Antologa
con la columna de prediccin. Por ejemplo, en un escenario para predecir qu clientes van a
adquirir probablemente una bicicleta, si nueve de diez clientes jvenes compran una bicicleta,
pero slo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad es un buen
elemento de prediccin en la compra de bicicletas. El rbol de decisin realiza predicciones
basndose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresin lineal para determinar dnde se divide
un rbol de decisin.
Si se define ms de una columna como elemento de prediccin, o si los datos de entrada
contienen una tabla anidada que se haya establecido como elemento de prediccin, el algoritmo
genera un rbol de decisin independiente para cada columna de prediccin.
Cmo funciona el algoritmo
El algoritmo de rboles de decisin genera un modelo de minera de datos mediante la creacin de
una serie de divisiones en el rbol. Estas divisiones se representan como nodos. El algoritmo
agrega un nodo al modelo cada vez que una columna de entrada tiene una correlacin significativa
con la columna de prediccin. La forma en que el algoritmo determina una divisin vara en
funcin de si predice una columna continua o una columna discreta.
El algoritmo de rboles de decisin utiliza la seleccin de caractersticas para guiar la seleccin de
los atributos ms tiles. Los algoritmos de minera de datos utilizan la seleccin de caractersticas
para mejorar el rendimiento y la calidad del anlisis. La seleccin de caractersticas es importante
para evitar que los atributos irrelevantes utilicen tiempo de procesador. Si utiliza demasiados
atributos de prediccin o de entrada al disear un modelo de minera de datos, el modelo puede
tardar mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los mtodos que se
usan para determinar si hay que dividir el rbol figuran mtricas estndar del sector para la
entropa y las redes Bayesianas. Para obtener ms informacin sobre los mtodos que se usan
para seleccionar los atributos significativos y, a continuacin, puntuarlos y clasificarlos.
El algoritmo de rboles de decisin utiliza tcnicas para controlar el crecimiento del rbol.
Predecir columnas discretas
La forma en que el algoritmo de rboles de decisin genera un rbol para una columna de
prediccin discreta puede mostrarse mediante un histograma. El siguiente diagrama muestra un
histograma que traza una columna de prediccin, Bike Buyers, con una columna de entrada, Age.
El histograma muestra que la edad de una persona ayuda a distinguir si esa persona comprar una
bicicleta.
Predecir columnas continuas
Cuando el algoritmo de rboles de decisin de Microsoft genera un rbol basndose en una
columna de prediccin continua, cada nodo contiene una frmula de regresin. Se produce una
divisin en un punto de no linealidad de la frmula de regresin. Por ejemplo, considere el
siguiente diagrama.
Minera de Datos
Antologa
Datos requeridos para los modelos de rboles de decisin

Cuando prepare los datos para su uso en un modelo de rboles de decisin, conviene que
comprenda qu requisitos son imprescindibles para el algoritmo concreto, incluidos el volumen de
datos necesario y la forma en que estos se utilizan.
Los requisitos para un modelo de rboles de decisin son los siguientes:
Una nica columna key . Cada modelo debe contener una columna numrica o de texto
que identifique cada registro de manera nica. No estn permitidas las claves compuestas.
Una columna de prediccin. Se requiere al menos una columna de prediccin. Puede
incluir varios atributos de prediccin en un modelo y pueden ser de tipos diferentes,
numrico o discreto. Sin embargo, el incremento del nmero de atributos de prediccin
puede aumentar el tiempo de procesamiento.
Columnas de entrada. Se requieren columnas de entrada, que pueden ser discretas o
continuas. Aumentar el nmero de atributos de entrada afecta al tiempo de
procesamiento.
Mtodos especficos de rboles de decisin incluyen:

rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones. Estas
decisiones generan reglas para la clasificacin de un conjunto de datos. Ver CART y CHAID.
3.3 Construccin de arboles de decisin para regresin y clasificacin

Arboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones.
Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos
de rboles de decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification And
Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square
Automatic Interaction Detection)
CART rboles de clasificacin y regresin
Tcnica usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se
pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn
un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos
preparacin de datos que CHAID.
CHAID Deteccin de interaccin automtica de Chi cuadrado
Tcnica similar a la anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado
para crear mltiples divisiones.
Minera de Datos
Antologa
El mtodo Chaid (Chi Squared Automatic Interaction Detector) es un anlisis que genera un rbol
de decisin para predecir el comportamiento de una variable, a partir de una o ms variables
predictoras, de forma que los conjuntos de una misma rama y un mismo nivel son disjuntos. Es til
en aquellas situaciones en las que el objetivo es dividir una poblacin en distintos segmentos
basndose en algn criterio de decisin.
El rbol de decisin se construye partiendo el conjunto de datos en dos o ms subconjuntos de
observaciones a partir de los valores que toman las variables predictoras. Cada uno de estos
subconjuntos vuelve despus a ser particionado utilizando el mismo algoritmo. Este proceso
contina hasta que no se encuentran diferencias significativas en la influencia de las variables de
prediccin de uno de estos grupos hacia el valor de la variable de respuesta.
La raz del rbol es el conjunto de datos ntegro, los subconjuntos y los subsubconjuntos
conforman las ramas del rbol. Un conjunto en el que se hace una particin se llama nodo.
El nmero de subconjuntos en una particin puede ir de dos hasta el nmero de valores distintos
que puede tomar la variable usada para hacer la separacin. La variable de prediccin usada para
crear una particin es aquella ms significativamente relacionada con la variable de respuesta de
acuerdo con test de independencia de la Chi cuadrado sobre una tabla de contingencia.
3.4 Nodos de arboles de decisin
Un rbol de decisin lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar
as una decisin. El rbol de decisin suele contener nodos internos, nodos de probabilidad, nodos
hojas y arcos. Un nodo interno contiene un test sobre algn valor de una de las propiedades. Un
nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del
problema, este tipo de nodos es redondo, los dems son cuadrados. Un nodo hoja representa el
valor que devolver el rbol de decisin y finalmente las ramas brindan los posibles caminos que
se tienen de acuerdo a la decisin tomada.
Minera de Datos
Antologa
Unidad IV .: Minera de Datos Descriptivas :.

4.1 Reglas de Asociacin
Reglas de Asociacin: establece asociaciones en base a los perfiles de los clientes sobre los cuales
se est realizando el data mining. Las reglas de Asociacin estn siempre definidas sobre atributos
binarios. No es muy complicado generar reglas en grandes bases de datos. El problema es que tal
algoritmo eventualmente puede dar informacin que no es relevante. Data Mining envuelve
modelos para determinar patterns a partir de los datos observados. Los modelos juegan un rol de
conocimiento inferido. Diciendo cuando el conocimiento representa conocimiento til o no, esto
es parte del proceso de extraccin de conocimiento en bases de datos (Knowledge Discovery in
Databases-KDD).
4.2 Redes neuronales
Redes Neuronales.- Es un sistema compuesto por un gran nmero de elementos bsicos (Artificial
Neurons), agrupados en capas (Layers) y que se encuentran altamente interconectados
(Synapses); Esta estructura posee varias entradas y salidas, las cuales sern entrenadas para
reaccionar (valores O), de una manera deseada, a los estmulos de entrada (valores I).
Estos sistemas emulan, de una cierta manera, al cerebro humano. Requieren aprender a
comportarse (Learning) y alguien debe encargarse de ensearles o entrenarles (Training), en base
a un conocimiento previo del entorno del problema.
El volumen de datos que se acumula continuamente, y la necesidad de encontrar mtodos que
permitan descubrir conocimiento (dentro de esas enormes masas de datos), han convertido a la
Minera de Datos en una disciplina de importancia estratgica para la planeacin y la toma de
decisiones. La Minera de Datos se apoya en la aplicacin de mtodos matemticos de anlisis, y
especficamente del uso redes neuronales artificiales, que son de gran utilidad para llevar a cabo el
anlisis inteligente de grandes volmenes de informacin digital.
Las Redes Neuronales (Neural Networks) son utilizadas para la prediccin, la minera de datos
(data mining), el reconocimiento de patrones y los sistemas de control adaptativo. Constituyen
una parte muy importante en el estudio y desarrollo de la inteligencia artificial (AI) y el de la vida
artificial (a-life).
Las RN pueden ser combinadas con otras herramientas como la lgica difusa (lgica fuzzy), los
algoritmos genticos, los sistemas expertos, las estadsticas, las transformadas de Fourier, etc.
Las redes neuronales se han revelado como un til instrumento para obtener informacin a partir
de grandes masas de datos. En la minera de datos se han utilizado, bsicamente dos tipos
distintos de redes neuronales: Redes de Kohonen y perceptrones multicapa o redes de
backpropagation.
Las redes de Kohonen o mapas autoorganizativos son redes neuronales que forman un mapa
bidimensional de rasgos a partir de los datos de entrada de forma que cada caso agrupado en
clases o clsters de mxima similaridad.
Minera de Datos
Antologa
El rasgo diferencial ms importante de este tipo de red es que aprende sin supervisin, es decir, es
capaz de descubrir clases de casos. Normalmente, se combinan con otras redes de aprendizaje
supervisado, como los perceptrones multicapa o redes backpropagation.
Estos sistemas de aprendizaje supervisado permiten identificar clases no linealmente separables
reajustando, a partir del error de salida, los pesos de las conexiones del nivel anterior de la red, lo
que se repite hasta llegar a la capa de entrada. Entre las herramientas de redes neuronales
actualmente disponibles se encuentran NeuralWorks (NeuralWare), Darwin (Thinking Machine),
Rencon Data Mining System (Lokeed Martin Product and Services), Neural Connection (SPSS Inc),
Matlab Neural Network Toolbox (The Math Works), entre otros.
Genricamente son mtodos de proceso numrico en paralelo, en el que las variables interactan
mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se
contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar
a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un
modelo adecuado.
Por lo tanto, las Redes neuronales artificiales son modelos predecibles, no lineales que aprenden a
travs del entrenamiento y semejan la estructura de una red neuronal biolgica.
4.2.1 Anlisis Factorial
Este anlisis se usa para agrupar casos (sujetos u objetos) en lugar de variables que es el propsito
principal de un anlisis factorial tpico.
Metodologa desarrollada por el britnico William Stphenson (1902-1989), que bsicamente
construye un anlisis factorial a partir de la matriz de correlacin entre personas y no entre
variables.
Desventajas:
Slo puede ser usado con variables ordinales o de intervalo.
No se puede trabajar con muestras grandes.
Los supuestos sobre independencia de reactivos se violan al pedir que sean clasificados por
orden de rango.
Un mismo segmento puede contener sujetos completamente desiguales aunque tengan el
mismo perfil ya que uno califica alto en la escala y otro bajo.
El Anlisis factorial es una tcnica estadstica de reduccin de datos usada para explicar la
variabilidad entre las variables observadas en trminos de un nmero menor de variables no
observadas llamadas factores. Las variables observadas se modelan como combinaciones lineales
de factores ms expresiones de error. El anlisis factorial se origin en psicometra, y se usa en las
ciencias del comportamiento tales como ciencias sociales, mercadeo, gestin de productos,
investigacin de operaciones y otras ciencias aplicadas que tratan con grandes cantidades de
datos.
Minera de Datos
Antologa
Existen dos tipos de anlisis factorial:

El anlisis factorial exploratorio, AFE, se usa para tratar de descubrir la estructura interna
de un nmero relativamente grande de variables. La hiptesis a priori del investigador es
que pueden existir una serie de factores asociados a grupos de variables. Las cargas de los
distintos factores se utilizan para intuir la relacin de stos con las distintas variables. Es el
tipo de anlisis factorial ms comn.
El anlisis factorial confirmatorio, AFC, trata de determinar si el nmero de factores
obtenidos y sus cargas se corresponden con los que cabra esperar a la luz de una teora
previa acerca de los datos. La hiptesis a priori es que existen unos determinados factores
preestablecidos y que cada uno de ellos est asociado con un determinado subconjunto
de las variables. El anlisis factorial confirmatorio entonces arroja un nivel de confianza
para poder aceptar o rechazar dicha hiptesis.
Los Anlisis Factoriales Descriptivos. Permiten hacer visualizaciones de realidades multivariantes

complejas y, por ende, manifestar las regularidades estadsticas, as como eventuales
discrepancias respecto de aquella y sugerir hiptesis de explicacin.

Minería de Datos - Materia

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Minería de Datos - Materia

Uploaded by

Copyright:

Available Formats

Minera de Datos

Ramn Edgardo Rincn Fernndez

Unidad I .: Introduccin a la Minera de Datos :.

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

descubrimiento de conocimiento real, puesto que no es necesario ni siquiera sospechar la

Ramn Edgardo Rincn Fernndez

OBJETIVOS PRINCIPALES DE LA MINERA DE DATOS

1.2 Proceso de la Minera de Datos

Ramn Edgardo Rincn Fernndez

1. Aquellos basados en la eleccin de los mejores atributos del problema

Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que

Ramn Edgardo Rincn Fernndez

Qu est buscando? Qu tipos de relaciones intenta buscar?

Preparacin de los Datos

Preparar los Datos

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Antes de implementar un modelo en un entorno de produccin, es aconsejable probar si funciona

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Actualizar dinmicamente los modelos, cuando entren ms datos en la organizacin, y

Ramn Edgardo Rincn Fernndez

Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial

Ramn Edgardo Rincn Fernndez

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico

rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el

Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se

Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Unidad II .: Preparacin de los Datos :.

La estadstica es un auxiliar de muchas ciencias con base matemtica referente a la recoleccin,

La estadstica descriptiva, que se dedica a los mtodos de recoleccin, descripcin,

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Un objetivo comn para un proyecto de investigacin estadstica es investigar la causalidad, y en

Planeamiento estadstico de la investigacin, lo cual incluye encontrar fuentes de

Ramn Edgardo Rincn Fernndez

en la realidad. Se utiliza mtodos estadsticos conocidos como test de hiptesis o prueba

Ramn Edgardo Rincn Fernndez

Coeficiente de correlacin producto momento de Pearson

2.2 Preliminares: tipo de atributos

Ramn Edgardo Rincn Fernndez

2.3. Etapas para Creacin del Modelo de Minera.

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Mecanismos de valores faltantes

Ramn Edgardo Rincn Fernndez

En el contexto de clasificacin supervisada, se usan cuatro mtodos para el tratamiento de valores

2.5 Reduccin de dimensionalidad

Ramn Edgardo Rincn Fernndez

Ramn Edgardo Rincn Fernndez

Unidad III .: Arboles de Decisin :.

Un concepto primordial, y diferenciador de las tcnicas estadsticas ms clsicas, es el de

Ramn Edgardo Rincn Fernndez

3.1 Extraccin de regla

Ramn Edgardo Rincn Fernndez

Estn formados por:

Nodos: nombres o identificadores de los atributos.

Algoritmo de rboles de decisin