Professional Documents
Culture Documents
Antologa
Minera de Datos
Antologa
Como podemos ver, la cuestin no es sencilla, y se agrava cuando los diferentes archivos se
encuentran en sistemas informticos y soportes diferentes.
Informacin oculta en los datos
A estas alturas ya va pareciendo claro que si almacenamos la informacin ms relevante de
nuestro negocio en un sistema que acumula y acumula datos sin parar, un anlisis razonable nos
puede permitir descubrir tendencias, localizar grupos de datos con comportamiento homogneo,
establecer relaciones, etc.
Esa informacin est oculta en los datos y ser necesario utilizar todas las tcnicas a nuestro
alcance para obtenerla. El objetivo que nos planteamos es localizar relaciones entre atributos de
nuestro DataWarehouse. Estas relaciones podran ser del tipo:
Para una gran superficie: Ms del 60% de las personas que adquieren queso fresco
compran tambin algn tipo de mermelada.
Para un departamento de fidelizacin de una compaa area: muchos usuarios que hacen
vuelos de menos de 3 das a Berln alquilan un coche en el aeropuerto.
Para un operador de telefona: durante el mes siguiente al lanzamiento de una campaa
de descuento en llamadas internacionales por parte de una compaa de la competencia,
nuestros pequeos clientes redujeron su consumo en este sector, mientras que los
grandes clientes lo mantuvieron.
Minera de datos
La minera de datos puede definirse como la extraccin no trivial de informacin implcita,
previamente desconocida y potencialmente til, a partir de los datos. Para conseguirlo hace uso
de diferentes tecnologas que resuelven problemas tpicos de agrupamiento automtico,
clasificacin, asociacin de atributos y deteccin de patrones secuenciales. La minera de datos es,
en principio, una fase dentro de un proceso global denominado descubrimiento de conocimiento
en bases de datos (Knowledge Discovery in Databases o KDD), aunque finalmente haya adquirido
el significado de todo el proceso en lugar de la fase de extraccin de conocimiento.
Es habitual que los expertos en estadstica confundan la minera de datos con un anlisis
estadstico de stos (afirmaciones de este tipo pueden encontrarse en documentacin de
empresas dedicadas al procesamiento estadstico que venden sus productos como herramientas
de minera de datos). La diferencia fundamental entre ambas tcnicas es muy clara: para conseguir
una afirmacin como la que ha sido utilizada en el ejemplo anterior (Ms del 60% de las personas
que adquieren queso fresco compran tambin algn tipo de mermelada) utilizando un paquete
estadstico, es necesario conocer a priori que existe una relacin entre el queso fresco y la
mermelada, y lo que realizamos con nuestro entorno estadstico es una cuantificacin de dicha
relacin.
En el caso de la minera de datos el proceso es muy distinto: la consulta que se realiza a la base de
datos (al DataWarehouse) busca relaciones entre parejas de productos que son adquiridos por una
misma persona en una misma compra. De esa informacin, el sistema deduce, junto a otras
muchas, la afirmacin anterior. Como podemos ver, en este proceso se realiza un acto de
Minera de Datos
Antologa
Minera de Datos
Antologa
Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los
mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada.
El proceso de minera de datos se compone de las siguientes fases:
Seleccin y preprocesado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca
es el idneo y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera
sobre los datos "en bruto".
Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no
vlidos, desconocidos... segn las necesidades y el algoritmo que va a usarse), se obtienen
muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce
el nmero de valores posibles (mediante redondeo, clustering...).
Seleccin de variables
An despus de haber sido preprocesados, en la mayora de los casos se tiene una cantidad
ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las
variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de
conocimiento obtenido del proceso de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:
Minera de Datos
Antologa
Extraccin de conocimiento
Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones
que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel
que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos modelos.
1.2.1
Seleccin de Objetivos
El primer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en definir claramente el problema empresarial y considerar formas de proporcionar una respuesta
para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema, definir las
mtricas por las que se evaluar el modelo y definir los objetivos concretos del proyecto de
minera de datos. Estas tareas se traducen en preguntas como las siguientes:
Minera de Datos
Antologa
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad de datos
para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles.
Si los datos no abarcan las necesidades de los usuarios, podra tener que volver a definir el
proyecto.
Tambin debe considerar las maneras en las que los resultados del modelo se pueden incorporar
en los indicadores de rendimiento clave (KPI) que se utilizan para medir el progreso comercial.
1.2.2
Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos; tambin
pueden contener incoherencias como entradas que faltan o incorrectas. Por ejemplo, los datos
pueden mostrar que un cliente adquiri un producto incluso antes que se ofreciera en el mercado
o que el cliente compra regularmente en una tienda situada a 2.000 kilmetros de su casa.
La limpieza de datos no solamente implica quitar los datos no vlidos, sino tambin buscar las
correlaciones ocultas en los datos, identificar los orgenes de datos que son ms precisos y
Minera de Datos
Antologa
determinar qu columnas son las ms adecuadas para usarse en el anlisis. Por ejemplo, debera
utilizar la fecha de envo o la fecha de pedido? Qu influye ms en las ventas: la cantidad, el
precio total o un precio con descuento? Los datos incompletos, los datos equivocados y las
entradas que parecen independientes, pero que de hecho estn estrechamente correlacionadas
pueden influir en los resultados del modelo de maneras que no espera. Por consiguiente, antes de
empezar a generar los modelos de minera de datos, debera identificar estos problemas y
determinar cmo los corregir.
Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada
transaccin. Por consiguiente, tiene que utilizar alguna forma de automatizacin para explorar los
datos y buscar las incoherencias. Existen herramientas necesarias para completar este paso,
incluidas las transformaciones para automatizar la limpieza y consolidacin de los datos.
Es importante tener en cuenta que los datos que utiliza para la minera de datos no necesitan
almacenarse en un cubo de Procesamiento analtico en lnea (OLAP), ni siquiera en una base de
datos relacional, aunque puede utilizarlos ambos como orgenes de datos. Puede realizar minera
de datos mediante cualquier origen de datos definido como origen de datos de Analysis Services.
Por ejemplo, archivos de texto, libros de Excel o datos de otros proveedores externos. Para
obtener ms informacin, vea Definir orgenes de datos (Analysis Services).
Explorar los datos
El tercer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minera de
datos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y mximos,
calcular la media y las desviaciones estndar, y examinar la distribucin de los datos. Por ejemplo,
al revisar el mximo, el mnimo y los valores de la media se podran determinar que los datos no
son representativos de los clientes o procesos de negocio, y que por consiguiente debe obtener
ms datos equilibrados o revisar las suposiciones que son la base de sus expectativas. Las
Minera de Datos
Antologa
desviaciones estndar y otros valores de distribucin pueden proporcionar informacin til sobre
la estabilidad y exactitud de los resultados. Una desviacin estndar grande puede indicar que
agregar ms datos podra ayudarle a mejorar el modelo. Los datos que se desvan mucho de una
distribucin estndar se podran sesgar o podran representar una imagen precisa de un problema
de la vida real, pero dificultar el ajustar un modelo a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de datos
contiene datos defectuosos y, a continuacin, puede inventar una estrategia para corregir los
problemas u obtener una descripcin ms profunda de los comportamientos que son tpicos de su
negocio.
Generar Modelos
El cuarto paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en generar el modelo o modelos de minera de datos. Utilizar los conocimientos adquiridos en el
paso Explorar los datos para definir y crear los modelos.
Defina qu datos desea que se utilicen creando una estructura de minera de datos. La estructura
de minera de datos define el origen de datos, pero no contiene ningn dato hasta que lo procesa.
Al procesar la estructura de minera de datos, las herramientas generan los agregados y otra
informacin estadstica que se puede utilizar para el anlisis. Cualquier modelo de minera de
datos que est basado en la estructura puede utilizar esta informacin.
Antes de que se procese el modelo, un modelo de minera de datos simplemente es un
contenedor que especifica las columnas que se usan para la entrada, el atributo que est
prediciendo y parmetros que indican al algoritmo cmo procesar los datos. El proceso de un
modelo tambin se denomina entrenamiento. El entrenamiento hace referencia al proceso de
aplicar un algoritmo matemtico concreto a los datos de la estructura para extraer patrones. Los
patrones que encuentre en el proceso de entrenamiento dependern de la seleccin de los datos
de entrenamiento, el algoritmo que elija y cmo se haya configurado el algoritmo. SQL Server
Minera de Datos
Antologa
2008 contiene muchos algoritmos diferentes. Cada uno est preparado para un tipo diferente de
tarea y crea un tipo distinto de modelo.
Tambin puede utilizar los parmetros para ajustar cada algoritmo y puede aplicar filtros a los
datos de entrenamiento para utilizar un subconjunto de los datos, creando resultados diferentes.
Despus de pasar los datos a travs del modelo, el objeto de modelo de minera de datos contiene
los resmenes y modelos que se pueden consultar o utilizar para la prediccin.
Explorar y Validar los Modelos
El quinto paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en explorar los modelos de minera de datos que ha generado y comprobar su eficacia.
Minera de Datos
Antologa
Si ninguno de los modelos que ha creado en el paso Generar modelos funciona correctamente,
puede que deba volver a un paso anterior del proceso y volver a definir el problema o volver a
investigar los datos del conjunto de datos original.
Implementar y Actualizar los modelos
El ltimo paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste
en implementar los modelos que funcionan mejor en un entorno de produccin.
Una vez que los modelos de minera de datos se encuentran en el entorno de produccin, puede
llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son algunas de las
tareas que puede realizar:
Utilizar los modelos para crear predicciones que pueda utilizar para tomar decisiones
empresariales. SQL Server ofrece el lenguaje DMX, que puede utilizar para crear consultas
de prediccin, y el Generador de consultas de prediccin, que le ayuda a generar las
consultas.
Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del modelo.
Incrustar la funcionalidad de minera de datos directamente en una aplicacin. Puede
incluir Objetos de administracin de anlisis (AMO), que contiene un conjunto de objetos
que la aplicacin pueda utilizar para crear, cambiar, procesar y eliminar estructuras y
modelos de minera de datos.
Utilizar Servicios de Integracin para crear un paquete en el que se utilice un modelo de
minera de datos para dividir de forma inteligente los datos entrantes en varias tablas. Por
ejemplo, si una base de datos se actualiza continuamente con clientes potenciales, puede
utilizar un modelo de minera de datos junto con servicios de integracin para dividir los
datos entrantes en clientes que probablemente compren un producto y clientes que
probablemente no compren un producto.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo
de minera de datos existente.
Actualizar los modelos despus de la revisin y anlisis. Cualquier actualizacin requiere
que vuelve a procesar los modelos.
Minera de Datos
Antologa
1.3 Discretizacin
La discretizacin es la clasificacin y agrupamiento solo trabajan con atributos nominales. Cuando
se tiene atributos numricos deben ser discretizados en un conjunto pequeo de rangos. La
mayora de los algoritmos de rboles y reglas de decisin pueden trabajar con atributos numricos
(lentos).
Existen dos formas de Discretizacin:
a. Discretizacin Local
Esta considera los atributos de manera local para tomar la decisin de donde efectuar la
ramificacin. Se considera localmente el proceso de discretizar, cada vez las decisiones se realizan
con menos datos.
b. Discretizacin Global
Esta considera los atributos de manera global para tomar la decisin de donde encontrar la raz de
la ramificacin. Se considera localmente el proceso de discretizar, cada vez las decisiones se
realizan con ms datos.
Para enfrentar los problemas de discretizacin de datos, existen las siguientes opciones:
1. No supervisada: cuantificar o asignar un valor a cada atributo considerando que no se
conoce las clases que hay en el conjunto de entrenamiento (conjunto de datos
seleccionados o muetreo).
2. Supervisada: considerar que s se conocen las clases.
3. Dividir los datos en un nmero predeterminado de intervalos iguales (no supervisado)
4. Por Intervalos iguales: distribuye los atributos en depsitos, se corre el riesgo de que un
intervalo tenga ms datos que otro el cual puede tener cero.
5. Por frecuencias iguales: divide los atributos en un predeterminado nmero de rangos para
evitar que un rango tenga ms datos que otros ecualizacin por histograma.
Problemas Descriptivos
Evaluacin de Modelos Descriptivos:
Reglas de asociacin: evaluacin sencilla: dos parmetros (support, confidence).
No supervisados: mucho ms compleja que en los predictivos: concepto de error
difcil de definir.
En los mtodos basados en distancia se pueden observar ciertos parmetros:
distancia entre bordes de los clsters
distancia entre centros (de haberlos)
radio y densidad (desviacin tpica de la distancia) de los clsters.
Minera de Datos
Antologa
Para cada ejemplo a agrupar se comprueba su distancia con el centro o con el borde de cada
clster.Problemas Predictivos
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a
priori, a partir de otros conocidos. En general un algoritmo en minera de datos genera un modelo
predictivo con base a los datos de entrada. Para poder hacer la minera se deben interpretar los
modelos generados, algunos de ellos son fciles de interpretar, tales como los rboles de decisin
y las reglas de decisin.
1.4 Tcnicas y Herramientas
El data mining es una de las principales herramientas que se utilizan dentro de los programas de
gestin del conocimiento como soporte a la toma de decisiones.
El fin es la extraccin de informacin oculta o anlisis de datos mediante tcnicas estadsticas de
grandes bases de datos.
Las herramientas de data mining o minera de datos pueden responder a preguntas de negocios
empresariales a priori no planteadas o que pueden consumir demasiado tiempo para ser
resueltas.
Los programas de gestin del conocimiento se complementan con distintas herramientas adems
del data mining, como puede ser el data warehousing o el groupware. El datamining, como
herramienta de bsqueda de informacin, se utiliza como sistema de apoyo a la toma de
decisiones de las altas direcciones de las empresas.
Las tcnicas de data mining se centran en analizar el gran volumen de datos, que en una primera
seleccin pueden ser pertinentes, pero que la aplicacin de tcnicas de seleccin ceida a unas
determinada demanda, reduce el tamao de los datos eligiendo las variables ms influyentes en el
problema.
En definitiva, la minera de datos es una tecnologa usada para descubrir informacin oculta y
desconocida, pero potencialmente til, a partir de las fuentes de informacin de la propia
empresa. Obtiene un conocimiento de un negocio, utilizando tcnicas de clustering, redes
neuronales, rboles de decisin y reglas de asociacin etc.
1.4.1
Tcnicas
Minera de Datos
Antologa
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz
pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2
variables.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y
no supervisados (Weiss y Indurkhya, 1998):
Herramientas
Existen muchas herramientas de software para el desarrollo de modelos de minera de datos tanto
libres como comerciales como, por ejemplo:
R
KNIME
SPSS Clementine (software)
SAS Enterprise Miner
STATISTICA Data Miner
Minera de Datos
RapidMiner
Weka
KXEN
Orange
Antologa
Minera de Datos
Antologa
Distribucin normal.
Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde
las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en reas de
negocios o instituciones gubernamentales.
La estadstica se divide en dos elementos:
Minera de Datos
Antologa
Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una
disciplina llamada estadstica matemtica, la cual se refiere a las bases tericas de la materia. La
palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un
conjunto de datos, como en estadsticas econmicas, estadsticas criminales, etc.
Prembulo
Al aplicar la estadstica a un problema cientfico, industrial o social, se comienza con un proceso o
poblacin a ser estudiado. Esta puede ser la poblacin de un pas, de granos cristalizados en una
roca o de bienes manufacturados por una fbrica en particular durante un periodo dado. Tambin
podra ser un proceso observado en varios instantes y los datos recogidos de esta manera
constituyen una serie de tiempo.
Por razones prcticas, en lugar de compilar datos de una poblacin entera, usualmente se estudia
un subconjunto seleccionado de la poblacin, llamado muestra. Datos acerca de la muestra son
recogidos de manera observacional o experimental. Los datos son entonces analizados
estadsticamente lo cual sigue dos propsitos: descripcin e inferencia.
El concepto de correlacin es particularmente valioso. Anlisis estadsticos de un conjunto de
datos puede revelar que dos variables (esto es, dos propiedades de la poblacin bajo
consideracin) tienden a variar conjuntamente, como si hubiera una conexin entre ellas. Por
ejemplo un estudio del ingreso anual y la edad de muerte entre personas podran resultar en que
personas pobres tienden a tener vidas ms cortas que personas de mayor ingreso. Las dos
variables se dicen a ser correlacionadas. Sin embargo, no se pude inferir inmediatamente la
existencia de una relacin de causalidad entre las dos variables. El fenmeno correlacionado
podra ser la causa de un tercero, previamente no considerado, llamado variable confundida.
Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas en la muestra
pueden ser extendidas a la poblacin completa. Un problema mayor es el de determinar que tan
representativa es la muestra extrada. La estadstica ofrece medidas para estimar y corregir por
aleatoriedad en la muestra y en el proceso de recoleccin de los datos, as como mtodos para
disear experimentos robustos como primera medida, ver diseo experimental.
El concepto matemtico fundamental empleado para entender la aleatoriedad es el de
probabilidad. La estadstica matemtica (tambin llamada teora estadstica) es la rama de las
matemticas aplicadas que usa la teora de probabilidades y el anlisis matemtico para examinar
las bases tericas de la estadstica.
El uso de cualquier mtodo estadstico es vlido solo cuando el sistema o poblacin bajo
consideracin satisface los supuestos matemticos del mtodo. El mal uso de la estadstica puede
producir serios errores en la descripcin e interpretacin, afectando las polticas sociales, la
prctica mdica y la calidad de estructuras tales como puentes y plantas de reaccin nuclear.
Incluso cuando la estadstica es correctamente aplicada, los resultados pueden ser difcilmente
interpretados por un inexperto. Por ejemplo, el significado estadstico de una tendencia en los
datos, que mide el grado al cual la tendencia puede ser causada por una variacin aleatoria en la
muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades
Minera de Datos
Antologa
estadsticas bsicas (y el escepticismo) que una persona necesita para manejar informacin en el
da a da se refiere como cultura estadstica.
Mtodos estadsticos
Minera de Datos
Antologa
Prueba t de Student
Prueba de
Anlisis de varianza (ANOVA)
U de Mann-Whitney
Anlisis de regresin
Correlacin
Iconografa de las correlaciones
Frecuencia estadstica
Anlisis de frecuencia acumulada
Prueba de la diferencia menos significante de Fisher
Minera de Datos
Antologa
Computacin Estadstica
El rpido y sostenido incremento en el poder de clculo de la computacin desde la segunda mitad
del siglo XX ha tenido un sustancial impacto en la prctica de la ciencia estadstica. Viejos modelos
estadsticos fueron casi siempre de la clase de los modelos lineales. Ahora, complejos
computadores junto con apropiados algoritmos numricos, han causado un renacer del inters en
modelos no lineales (especialmente redes neuronales y rboles de decisin) y la creacin de
nuevos tipos tales como modelos lineales generalizados y modelos multinivel.
El incremento en el poder computacional tambin ha llevado al crecimiento en popularidad de
mtodos intensivos computacionalmente basados en remuestreo, tales como tests de
permutacin y de bootstrap, mientras tcnicas como el muestreo de Gibbs han hecho los mtodos
bayesianos ms accesibles. La revolucin en computadores tiene implicaciones en el futuro de la
estadstica, con un nuevo nfasis en estadsticas experimentales y empricas. Un gran nmero
de paquetes estadsticos est ahora disponible para los investigadores. Los sistemas dinmicos y
teora del caos, desde hace una dcada, empezaron a interesar en la comunidad hispana, pues en
la anglosajona de Estados Unidos estaba ya establecida la conducta catica en sistemas
dinmicos no lineales con 350 libros para 1997 y empezaban algunos trabajos en los campos de
las ciencias sociales y en aplicaciones de la fsica. Tambin se estaba contemplando su uso en
analtica.
Minera de Datos
Antologa
Minera de Datos
Antologa
Construir datos
Tarea Construir datos
Esta tarea incluye la construccin de operaciones de preparacin de datos tales como la
produccin de atributos derivados o el ingreso de nuevos registros, o la transformacin de valores
para atributos existentes.
Salidas Atributos derivados
Los atributos derivados son los atributos nuevos que son construidos de uno o ms atributos
existentes en el mismo registro. Ejemplo: rea = longitud * anchura.
Registros generados
Describa la creacin de registros completamente nuevos. Ejemplo: Crear registros para los clientes
quienes no hicieron compras durante el ao pasado. No haba ninguna razn de tener tales
registros en los datos brutos, pero para el objetivo del modelado esto podra tener sentido para
representar explcitamente el hecho que ciertos clientes no hayan hecho compra nada.
Integrar datos
Tarea Integrar datos
Estos son los mtodos por el cual la informacin es combinada de mltiples tablas o registros para
crear nuevos registros o valores.
Salida Combinacin de datos
La combinacin de tablas se refiere a la unin simultnea de dos o ms tablas que tienen
informacin diferente sobre el mismo objeto. Ejemplo: una cadena de venta al pblico tiene una
tabla con la informacin sobre las caractersticas generales de cada tienda (Por ejemplo, el
espacio, el tipo de comercio), otra tabla con datos resumidos de las ventas (por ejemplo, el
beneficio, el cambio porcentual en ventas desde el ao anterior), y el otro con informacin sobre
los datos demogrficos del rea circundante. Cada una de estas tablas contiene un registro para
cada tienda. Estas tablas pueden ser combinadas simultneamente en una nueva tabla con un
registro para cada tienda, combinando campos de las tablas fuentes.
Los datos combinados tambin cubren agregaciones. La agregacin se refiere a operaciones en la
que nuevos valores son calculados de informacin resumida de mltiples registros y/o tablas. Por
ejemplo, convirtiendo una tabla de compra de clientes donde hay un registro para cada compra en
una tabla nueva donde hay un registro para cada cliente, con campos tales como el nmero de
compras, el promedio de la cantidad de compra, el porcentaje de rdenes cobrados a tarjeta de
crdito, el porcentaje de artculos bajo promocin, etc.
Minera de Datos
Antologa
Formatear datos
Tarea Formatear datos
Formateando transformaciones se refiere a modificaciones principalmente sintcticas hechas a los
datos que no cambian su significado, pero podra ser requerido por la herramienta de modelado.
Salida Datos reformateados
Algunas herramientas tienen requerimientos sobre el orden de los atributos, tales como el primer
campo que es un nico identificador para cada registro o el ltimo campo es el campo resultado
que el modelo debe predecir.
Podra ser importante cambiar el orden de los registros en el conjunto de datos. Quizs la
herramienta de modelado requiere que los registros sean clasificados segn el valor del atributo
de resultado. Comnmente, los registros del conjunto de datos son ordenados al principio de
algn modo, pero el algoritmo que modela necesita que ellos estn en un orden moderadamente
arbitrario. Por ejemplo, cuando se usa redes neuronales, esto es generalmente mejor para los
registros para ser presentados en un orden aleatorio, aunque algunas herramientas manejen esto
automticamente sin la intervencin explicita del usuario.
Adems, hay cambios puramente sintcticos hechos para satisfacer las exigencias de la
herramienta de modelado especfica. Ejemplos: el quitar de comas de adentro de campos de texto
en ficheros de datos delimitados por coma, corta todos los valores a un mximo de 32 caracteres.
2.4 Tratamiento de la falta de datos
Los datos no siempre estn disponibles. Por ejemplo, muchas filas no tienen registrados valores
para muchos atributos, tales como los ingresos del cliente en datos de ventas.
La falta de valores se puede deber a:
Mal funcionamiento de equipos.
Inconsistencia con otros datos registrados y por lo tanto eliminados.
Datos no ingresados debido a equivocaciones o malos entendidos.
Algunos datos pudieron no considerarse importantes al momento de ingresar datos.
No se registr historial o cambios en los datos.
Puede ser necesario estimar los valores faltantes.
Los valores faltantes son un problema comn en anlisis estadstico. Se ha propuesto muchos
mtodos para el tratamiento de valores faltantes. Muchos de estos mtodos fueron desarrollados
para el tratamiento de valores faltantes en encuestas por muestreo.
Bello (1995), tratamiento de valores faltantes in regression
Troyanskaya et al (2001), tratamiento de datos faltantes en clasificacin no supervisada.
Minera de Datos
Antologa
Minera de Datos
Antologa
Minera de Datos
Antologa
En este trabajo los datos recogidos en la base de datos representan el total de la muestra, pero al
ser estudiados en alguna situacin o modelo, se hace evidente si existiera alguna repeticin en las
filas de atributos debido a que ocurran en un mismo criterio. La utilizacin de un criterio en los
datos representa una reduccin horizontal, esto se hizo con el objetivo de obtener un primer
modelo con un subconjunto de instancias y variables, lo que podra permitir mejorar el resultado
en precisin y en costos.
El aplicar la reduccin de dimensionalidad se realiz teniendo tres objetivos fundamentales:
Eliminar atributos irrelevantes o redundantes
Expresar el modelo resultante en funcin de menos variables, lo que hace algunos
modelos ms comprensibles, y por tanto mejora su calidad
Representar estos modelos visualmente requiere de pocos atributos para lograr una
claridad.
La extraccin de los datos puede resultar de diferentes fuentes u orgenes (Bases de Datos,
Archivos, diferentes dispositivos de almacenamiento, entre otros), por lo que es comn que
existan muchos datos errneos o faltantes en un atributo; en esta situacin es preferible
deshacerse de l.
No es sencillo eliminar atributos. Para eliminar atributos, utilizamos las siguientes reglas, que son
aplicables muy fcilmente a las bases de datos.
Eliminacin de claves candidatas.
Eliminacin de atributos dependientes
Minera de Datos
Antologa
El paso ms importante de este proceso es conocido como minera de datos o data mining (DM a
partir de ahora). DM es un campo interdisciplinar con el objetivo general de predecir resultados
y/o descubrir relaciones en los datos. DM puede ser descriptivo, i.e. descubrir patrones que
describen los datos, o predictivo, para pronosticar el comportamiento del modelo basado en los
datos disponibles.
Tpicamente un algoritmo de DM tiene tres componentes
el modelo
el criterio de preferencia o eleccin
el algoritmo de bsqueda.
El modelo tiene dos posibles tipologas:
Funcin.- puede ser de clasificacin, regresin, clustering, de generacin de reglas, reglas
de asociacin, modelos de dependencia o anlisis de secuencias.
Representacin.- puede ser redes neuronales, rboles de decisin, discriminacin lineal,
etc.
Cada modelo tiene unos parmetros que deben ser determinados mediante un algoritmo de
bsqueda que optimiza los parmetros del modelo segn el criterio de eleccin o preferencia que
hace un mejor ajuste del modelo a los datos.
Minera de Datos
Antologa
Lgicamente, las reas del aprendizaje automtico y la minera de datos se solapan en gran
medida, en cuanto a los problemas que tratan y a los algoritmos que utilizan. No obstante, la
minera de datos tiene un mayor enfoque en el conocimiento comprensible a partir de grandes
cantidades de informacin, mientras que el aprendizaje automtico se orienta ms a la tarea del
aprendizaje propiamente, buscando en algunos casos estrategias o heursticas, ms que el propio
conocimiento comprensible. Por esa razn, la minera de datos tiene un espectro de aplicacin
ms amplio visto desde el exterior, en el sentido de que interacta mejor con diferentes dominios,
pues el aprendizaje realizado se transforma en conocimiento til para el experto en el dominio
concreto.
Un ltimo concepto relacionado es el de soft-computing, idea que engloba gran parte de las
metodologas que pueden ser aplicadas en DM. Algunas de las metodologas ms extendidas y
usadas son tales como algoritmos genticos, lgica fuzzy, redes neuronales, razonamiento basado
en casos, conjuntos rough o hibridaciones de las anteriores.
Minera de Datos
Antologa
Desde el punto de vista del aprendizaje de mquina, se puede ver el proceso de creacin de un
rbol de decisin, como una bsqueda de un rbol que clasifique correctamente los datos del
problema en cuestin. Visto de esta forma, en los rboles de decisin se pueden identificar los
siguientes elementos:
1. Espacio de hiptesis: Todos los posibles rboles de decisin.
2. Mtodo: Escalada (hill-climbing), empezando por el rbol vaco, aunque podran ser un
mtodo, como por ejemplo, el basado en programacin gentica, en donde se hace la
bsqueda sobre rboles completos, los cuales son transformados mediante operaciones
evolutivos (cruce. Mutacin, reproduccin), y se evalan a la luz de su desempeo en
relacin con los datos del problema, ver por ejemplo [7, 9]
3. Heurstica que gua la bsqueda: Ganancia de informacin.
La representacin del conocimiento en forma de rbol resulta relativamente simple y es una de
las causas por la que los procedimientos utilizados en su aprendizaje sean ms sencillos que los
sistemas que utilizan lenguajes de representacin ms potentes, como redes semnticas,
representaciones en lgica de predicados, etc. Sin embargo, esto deriva en que la potencia
expresiva de los rboles de decisin sea menor que la de esos otros sistemas.
Minera de Datos
Antologa
con la columna de prediccin. Por ejemplo, en un escenario para predecir qu clientes van a
adquirir probablemente una bicicleta, si nueve de diez clientes jvenes compran una bicicleta,
pero slo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad es un buen
elemento de prediccin en la compra de bicicletas. El rbol de decisin realiza predicciones
basndose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresin lineal para determinar dnde se divide
un rbol de decisin.
Si se define ms de una columna como elemento de prediccin, o si los datos de entrada
contienen una tabla anidada que se haya establecido como elemento de prediccin, el algoritmo
genera un rbol de decisin independiente para cada columna de prediccin.
Cmo funciona el algoritmo
El algoritmo de rboles de decisin genera un modelo de minera de datos mediante la creacin de
una serie de divisiones en el rbol. Estas divisiones se representan como nodos. El algoritmo
agrega un nodo al modelo cada vez que una columna de entrada tiene una correlacin significativa
con la columna de prediccin. La forma en que el algoritmo determina una divisin vara en
funcin de si predice una columna continua o una columna discreta.
El algoritmo de rboles de decisin utiliza la seleccin de caractersticas para guiar la seleccin de
los atributos ms tiles. Los algoritmos de minera de datos utilizan la seleccin de caractersticas
para mejorar el rendimiento y la calidad del anlisis. La seleccin de caractersticas es importante
para evitar que los atributos irrelevantes utilicen tiempo de procesador. Si utiliza demasiados
atributos de prediccin o de entrada al disear un modelo de minera de datos, el modelo puede
tardar mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los mtodos que se
usan para determinar si hay que dividir el rbol figuran mtricas estndar del sector para la
entropa y las redes Bayesianas. Para obtener ms informacin sobre los mtodos que se usan
para seleccionar los atributos significativos y, a continuacin, puntuarlos y clasificarlos.
El algoritmo de rboles de decisin utiliza tcnicas para controlar el crecimiento del rbol.
Predecir columnas discretas
La forma en que el algoritmo de rboles de decisin genera un rbol para una columna de
prediccin discreta puede mostrarse mediante un histograma. El siguiente diagrama muestra un
histograma que traza una columna de prediccin, Bike Buyers, con una columna de entrada, Age.
El histograma muestra que la edad de una persona ayuda a distinguir si esa persona comprar una
bicicleta.
Predecir columnas continuas
Cuando el algoritmo de rboles de decisin de Microsoft genera un rbol basndose en una
columna de prediccin continua, cada nodo contiene una frmula de regresin. Se produce una
divisin en un punto de no linealidad de la frmula de regresin. Por ejemplo, considere el
siguiente diagrama.
Minera de Datos
Antologa
Una nica columna key . Cada modelo debe contener una columna numrica o de texto
que identifique cada registro de manera nica. No estn permitidas las claves compuestas.
Una columna de prediccin. Se requiere al menos una columna de prediccin. Puede
incluir varios atributos de prediccin en un modelo y pueden ser de tipos diferentes,
numrico o discreto. Sin embargo, el incremento del nmero de atributos de prediccin
puede aumentar el tiempo de procesamiento.
Columnas de entrada. Se requieren columnas de entrada, que pueden ser discretas o
continuas. Aumentar el nmero de atributos de entrada afecta al tiempo de
procesamiento.
Minera de Datos
Antologa
El mtodo Chaid (Chi Squared Automatic Interaction Detector) es un anlisis que genera un rbol
de decisin para predecir el comportamiento de una variable, a partir de una o ms variables
predictoras, de forma que los conjuntos de una misma rama y un mismo nivel son disjuntos. Es til
en aquellas situaciones en las que el objetivo es dividir una poblacin en distintos segmentos
basndose en algn criterio de decisin.
El rbol de decisin se construye partiendo el conjunto de datos en dos o ms subconjuntos de
observaciones a partir de los valores que toman las variables predictoras. Cada uno de estos
subconjuntos vuelve despus a ser particionado utilizando el mismo algoritmo. Este proceso
contina hasta que no se encuentran diferencias significativas en la influencia de las variables de
prediccin de uno de estos grupos hacia el valor de la variable de respuesta.
La raz del rbol es el conjunto de datos ntegro, los subconjuntos y los subsubconjuntos
conforman las ramas del rbol. Un conjunto en el que se hace una particin se llama nodo.
El nmero de subconjuntos en una particin puede ir de dos hasta el nmero de valores distintos
que puede tomar la variable usada para hacer la separacin. La variable de prediccin usada para
crear una particin es aquella ms significativamente relacionada con la variable de respuesta de
acuerdo con test de independencia de la Chi cuadrado sobre una tabla de contingencia.
3.4 Nodos de arboles de decisin
Un rbol de decisin lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar
as una decisin. El rbol de decisin suele contener nodos internos, nodos de probabilidad, nodos
hojas y arcos. Un nodo interno contiene un test sobre algn valor de una de las propiedades. Un
nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del
problema, este tipo de nodos es redondo, los dems son cuadrados. Un nodo hoja representa el
valor que devolver el rbol de decisin y finalmente las ramas brindan los posibles caminos que
se tienen de acuerdo a la decisin tomada.
Minera de Datos
Antologa
Minera de Datos
Antologa
El rasgo diferencial ms importante de este tipo de red es que aprende sin supervisin, es decir, es
capaz de descubrir clases de casos. Normalmente, se combinan con otras redes de aprendizaje
supervisado, como los perceptrones multicapa o redes backpropagation.
Estos sistemas de aprendizaje supervisado permiten identificar clases no linealmente separables
reajustando, a partir del error de salida, los pesos de las conexiones del nivel anterior de la red, lo
que se repite hasta llegar a la capa de entrada. Entre las herramientas de redes neuronales
actualmente disponibles se encuentran NeuralWorks (NeuralWare), Darwin (Thinking Machine),
Rencon Data Mining System (Lokeed Martin Product and Services), Neural Connection (SPSS Inc),
Matlab Neural Network Toolbox (The Math Works), entre otros.
Genricamente son mtodos de proceso numrico en paralelo, en el que las variables interactan
mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se
contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar
a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un
modelo adecuado.
Por lo tanto, las Redes neuronales artificiales son modelos predecibles, no lineales que aprenden a
travs del entrenamiento y semejan la estructura de una red neuronal biolgica.
4.2.1 Anlisis Factorial
Este anlisis se usa para agrupar casos (sujetos u objetos) en lugar de variables que es el propsito
principal de un anlisis factorial tpico.
Metodologa desarrollada por el britnico William Stphenson (1902-1989), que bsicamente
construye un anlisis factorial a partir de la matriz de correlacin entre personas y no entre
variables.
Desventajas:
Slo puede ser usado con variables ordinales o de intervalo.
No se puede trabajar con muestras grandes.
Los supuestos sobre independencia de reactivos se violan al pedir que sean clasificados por
orden de rango.
Un mismo segmento puede contener sujetos completamente desiguales aunque tengan el
mismo perfil ya que uno califica alto en la escala y otro bajo.
El Anlisis factorial es una tcnica estadstica de reduccin de datos usada para explicar la
variabilidad entre las variables observadas en trminos de un nmero menor de variables no
observadas llamadas factores. Las variables observadas se modelan como combinaciones lineales
de factores ms expresiones de error. El anlisis factorial se origin en psicometra, y se usa en las
ciencias del comportamiento tales como ciencias sociales, mercadeo, gestin de productos,
investigacin de operaciones y otras ciencias aplicadas que tratan con grandes cantidades de
datos.
Minera de Datos
Antologa