Modulo Mineria de Datos II 2012u

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD Escuela de Ciencias Bsicas Tecnologa e Ingeniera Curso Minera de Datos
MODULO MINERIA DE DATOS COD 201170
JOSE MIGUEL HERRAN SUAREZ
UNIVERSIDAD NACIONAL ABIERTA YA DISTANCIA UNAD PROGRAMA: INGENIERIA DE SISTEMAS TUNJA. 2012 1
INDICE DE CONTENIDO
Contenido
INTRODUCCIN ........................................................................................................................................... 7 UNIDAD 1: MINERIA DE DATOS .................................................................................................................... 9 1.1. Capitulo I:Conceptos Fundamentales ............................................................................................... 9 Leccin 1: Caractersticas de Mineria de Datos. ................................................................................... 10 Artculo de Reflexin. La informacin digital crece a mas del doble cada ao........................................ 13 Leccion 2. Disponibilidad de Software .................................................................................................. 17 Leccion 3. Ejemplos de aplicaciones de la Minera de Datos. ............................................................... 21 Leccion 4. Objetivos de la Minera de Datos .......................................................................................... 22 Leccin 5. Minera de datos y la toma de decisiones. ............................................................................ 28 Actividad de cierre Capitulo I ................................................................................................................... 28 1.2. Capitulo II KDD. ............................................................................................................................. 30 Leccin 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos ...................................... 30 Leccin 7. Diagrama del Proceso de KDD ............................................................................................... 32 Leccion. 8. Etapas de abordaje. .............................................................................................................. 34 Leccion 9. Desarrollo del proceso de KDD .............................................................................................. 36 Leccion 10. Evaluacin de Patrones........................................................................................................ 44 Actividad cierre Capitulo II Caso de Estudio. ........................................................................................... 45 1.3 Capitulo III Reglas de Asociacin usadas en Minera de Datos............................................................. 49 Leccin 11. Identificacin de las reglas de asociacin. .......................................................................... 49 Leccion 12. Algoritmos para la busqueda de reglas asociadas. .......................................................... 54 Leccion 13.Jerarquias. ............................................................................................................................. 58 Leccion 13.Redes Bayesianas. ................................................................................................................. 61 Leccion 14. Arboles de Decision. (Repaso) ............................................................................................. 62 Leccion 15. AlgoritmoC.45 ...................................................................................................................... 64 Actividad de cierre Capitulo III ................................................................................................................. 66 UNIDAD II PROCESO DE MINERIA DE DATOS. ............................................................................................ 67 2.1. CapituloIV: El Modelo de CRISP DM. .................................................................................................. 67 Leccion 16. Generalidades ...................................................................................................................... 67 Leccion 17. Comprensin del Negocio. ................................................................................................... 69 Leccion 18. Comprensin de los datos. .................................................................................................. 70
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD Escuela de Ciencias Bsicas Tecnologa e Ingeniera Curso Minera de Datos Leccion 19. Modelado. ............................................................................................................................ 72 Leccion 20. Evaluacion e Implantacin. .................................................................................................. 73 Actividad de cierre Capitulo IV ................................................................................................................ 73 2.2 Capitulo V. Herramientas de Minera de Datos ...................................................................................... 75 Leccion 21. WEKA .................................................................................................................................... 75 Leccion. 22. IlliMine. ............................................................................................................................... 77 Leccion. 23 Rattle. ................................................................................................................................... 78 Leccion 24. Rapid Miner .......................................................................................................................... 78 Leccion. 25. Knime. ................................................................................................................................. 79 Actividad de Cierre Capitulo V. ................................................................................................................ 80 2.3. Capitulo VI Ambientes de Trabajo en Grid ............................................................................................ 80 Leccion 26. Grid WEKA ............................................................................................................................ 80 Leccion 27. Discovery Net ....................................................................................................................... 82 Leccion 28. Componentes de un Modelo GridMiner ............................................................................. 84 Leccin 29. Mineria de Datos y Almacenes de Datos en ODM. ............................................................. 86 Leccin 30. Oracle DataMinig (ODM) ..................................................................................................... 87 Actividad de Cierre Capitulo VI. ............................................................................................................... 88 UNIDAD III. Contexto de la Mienra de Datos ............................................................................................. 89 Capitulo VII. Causas de aplicacin de la Minera de Datos. ......................................................................... 89 Leccion 31. WEB Mining y Text Mining .................................................................................................. 90 Leccion 32.OLTP Y OLAP .......................................................................................................................... 95 Leccion 33. Bases de datos de transacion ............................................................................................ 96 Leccion 34. Arquitectura de los Almacenes de Datos ............................................................................ 99 Leccion 35. Explotacin de un Almacen de Datos. ............................................................................... 100 Actividad de cierre Capitulo VII ............................................................................................................. 108 Capitulo VIII. Otros tipos de DataMart ....................................................................................................... 109 Leccion 36. Rolap- Molap ...................................................................................................................... 109 Leccion 37. Almacen de Datos y Mineria de Datos ............................................................................. 112 Leccion 38. Exploracion y seleccion. El contexto de la vista minable. ................................................ 116 Leccion 39. Exploracin mediante visualizacin. ................................................................................. 126 Leccion 40. Visualizacin Multidimensional......................................................................................... 130 Actividad de cierre Capitulo VIII ............................................................................................................ 141 Capitulo 9: Tcnicas de Minera de Datos. ................................................................................................. 143 Leccion. 41. Redes Neuronales ............................................................................................................ 143 Leccion 42. Procesamiento analtico en linea .................................................................................... 151 Leccion 43. WEB Mining ........................................................................................................................ 154 Leccin 44. Disciplinas relacionadas ...................................................................................................... 161 Leccion 45. Mineria de Textos .............................................................................................................. 166 ANEXOS ................................................................................................................................................... 171 Oracle SQL Developer ................................................................................................................................. 171 Conectar Oracle SQL Developer con MySQL.......................................................................................... 172
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD Escuela de Ciencias Bsicas Tecnologa e Ingeniera Curso Minera de Datos Conectar Oracle SQL Developer con SQL Server y Sybase ..................................................................... 174 Servidor virtual con Pentaho configurado ............................................................................................. 175 La instalacin de Pentaho .......................................................................................................................... 176 Las herramientas de Virtualizacin ............................................................................................................ 178 VirtualBox .............................................................................................................................................. 178 VMware ................................................................................................................................................. 178 El Sistema Operativo .............................................................................................................................. 179 Oracle SQL Developer .............................................................................................................................. 180 Conectar Oracle SQL Developer con MySQL.......................................................................................... 182 Conectar Oracle SQL Developer con SQL Server y Sybase ..................................................................... 184 Conclusiones ............................................................................................................................................ 186 BIBLIOGRAFIA .......................................................................................................................................... 187
Listado de figuras
1. Figura 1. Anlisis de datos 2. Figura 2. Distinto Enfoque 3. Figura3. Olap y consultas deductivas dirigidos por hiptesis 4. Figura 4. Disponibilidad de software comercial. 5. Figura 5: Jerarqua del conocimiento. 6. Figura 6: Proceso de KDD 7. Figura 7.etapas en el proceso de KDD. 8. Figura 8. Ejemplos de imagenes de clulas con leucemia. 9. Figura 9. Ejemplo de cmo transformar una imagen de una clula a una tabla. 10. Figura 10. La Minera de Datos y su relacin con otras reas de conocimiento. 11. figura 11. Clasificacin de Leucemias agudas. 12. Figura 12. Taxonoma de una categora. 13. Figura 13. Insercin en la relacin de compras con una jerarqua. 14. figura 14. Contexto de bases de datos frente a data minimg. 15. figura 15. Explorador de weka. 16. figura 16. Grid weka, escenario de usos. 17. figura17. Componentes de discovery net. 18. figura 18. Componentes de gridminer. 19. Figura 19. Contexto de bases de datos frente a data minimg. 20. Figura 20 almacn de datos como integracin de diferentes fuentes de datos. 21. Figura 21. Topologa de un clasificador Naive Bayes.
Listado de tablas
Tabla 1: Ejemplos de aplicaciones de la minera de datos. Tabla 2. Fases de modelo crips-dm. Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos Tabla 4.Tabulacion de ventas con nombre_articuloy color Tabla 5. Representacin relacional de los datos. Tabla 6. Tabulacion cruzada de ventas con la jerarquia
INTRODUCCIN
Este modulo pretende y busca dar una visin general de lo que son las tcnicas de anlisis de los datos y el proceso de Minera de Datos, basndose en una gran recoleccin de informacin de variadas fuentes, paginas de internet, artculos cientficos, foros de desarrollo y en especial en los libros (la gran mayora en ingles) todos ellos citados para respetar la propiedad intelectual y brindar al estudiante los conceptos y las tcnicas de la manera mas entendible; de manera tal que al estudiar el modulo en la soledad de su propia disciplina logre adquirir los conocimientos sin problemas y no provoce un desanimo ni una apata al area de estudio, a la vez se debe tener en cuenta que cada semestre se actualizar el modulo por lo tanto es importante bajarlo del repositorio para una mayor concordancia con el curso en la plataforma. El tema que concierne es muy complejo y hay mucha tela de donde cortar, por lo que se pretende sentar las bases para una profundizacin en las diferentes areas de aplicacin, y a la vez se recomienda hacer un repaso jucioso de las tematicas revisadas en Bases de Datos, Anlisis y Diseo de Sistemas, Inteligencia Artificial (Redes Neuronales) y Probabilidad. Durante el desarrollo tecnolgico podemos ver como una de las herramientas que han sido de gran utilidad dentro del campo del manejo de volmenes de informacin la Mineria de Datos se ha venido abriendo campo en los diferentes mbitos laborales como son las aplicaciones cientficas, de negocios y medios de informacin gracias a ella se puede ver como esta interactuando y almacenando datos en la mayora de los casos, estas organizaciones tienden a construir conjuntos de datos centralizados o almacenes de datos (Data warehouse) que renen toda la informacin de sus liares dispersas geogrcamente. Es as que esta situacin ha fomentado el desarrollo de herramientas para el tratamiento de la informacin, dando lugar a una disciplina conocida como Mineria 7
de datos o (Data Mining), se define como un conjunto de tcnicas y herramientas aplicadas al proceso de extraer y presentar conocimiento implcito previamente desconocido. El objetiv de la implementacin de este modulo el cual vale tiene un peso de tres crditos es el abordaje de la tematica relacionada como sigue. La temtica de la unidad uno es Mineria de Datos, la Unidad dos Preapracin de los Datos, unidad tres Tecnicas de Mineria de Datos. Con la realizacin de este modulo como material didctico de consulta para tutores y estudiantes de la UNAD.
UNIDAD 1: MINERIA DE DATOS
1.1.
Capitulo I:Conceptos Fundamentales
La minera de datos est relacionada con la subrea de la estadstica denominada explorador de datos, que tiene objetivos parecidos y se basa en las medidas estadsticas. Tambin est estrechamente relacionada con las subreas de la inteligencia artificial denomina descubrimiento del conocimiento y aprendizaje de la mquina. La caracterstica importante de la minera de datos es que se usa normalmente para el manejo de datos que estn agrupados en grandes volmenes; aunque la idea de esta area de estudio relacionada sea aplicable a los problemas de minera de datos, la escalabilidad con respecto al tamao de los datos es un criterio nuevo importante, que se debe tener en cuenta para el proceso de aplicabilidad de los conceptos. Un algoritmo es escalable y el tiempo de ejecucin crece (linealmente) en proporcin al tamao del conjunto de datos, lo que mantiene los recursos disponibles del sistema (por ejemplo, la cantidad de memoria principal y la velocidad el proceso de la UCP) constante, deben adaptar los algoritmos antiguos o desarrollar otros nuevos para que se garantice la escalabilidad a la hora de descubrir pautas en los datos. La bsqueda de tendencias tiles en los conjuntos de datos es una definicin bastante imprecisa de la minera de datos: en cierto sentido se puede considerar que todas las consultas a bases de datos hacen exactamente esto; pero en realidad, hay un continuo uso de las herramientas de anlisis y exploracin, con las consultas de SQL que crean mediante la algebra relacional (con algunas extensiones), OLAP ofrece expresiones de consulta en nivel superior basadas en el modelo de datos multidimensionales, y la minera de datos proporciona las operaciones de anlisis abstractas. Se puede pensar en las diferentes tareas de la minera de datos como consultas complejas especificadas en un nivel elevado, con unos cuantos parmetros que son definibles por los usuarios, para las que se implementan algoritmos especializados. SQL /MM: minera de datos SQL /MM.
La SQL /MM: data mining de la norma SQL: 1999 soporta cuatro tipos de modelos de minera de datos: Conjuntos de elementos frecuentes y reglas de asociacin Agrupaciones de registros Arboles de regresin Arboles de clasificacin.
Se introduce entonces varios tipos de datos nuevos, estos tipos de datos desempean varios papeles, algunos representan una clase de modelo concreta (por ejemplo, DM_Regression model, DM_ClusteringModel); otros especifican los parmetros de entrada de un algoritmo de minera (por ejemplo, DM_ RegTask, DM_ClusTask); unos describen los datos de entrada (por ejemplo, DM_LogicaDataSpec, DM, _MininData); y otros representan el resultado de la ejecucin de un algoritmo de minera (por ejemplo, DM_RegResult, DM_ClusResult). En conjunto estas clases y sus mtodos ofrecen una interfaz normalizada para los algoritmos de minera de datos que se pueden invocar desde cualquier sistema de bases de datos SQL: en 1999. Los modelos de minera de datos se pueden exportar en formato XML normalizado denominado lengua de marcas de modelos predictivos (Predictive Model Markup Language, PMML); tambin se pueden importar los modelos representados mediante PMML.
Leccin 1: Caractersticas de Mineria de Datos. Historia de la Minera de Datos Extraccin de patrones de informacin (implcitos, no triviales, desconocidos y potencialmente tiles) a partir de grandes cantidades datos.
10
Tambin conocido por: Descubrimiento del conocimiento en bases de datos (KDD), extraccin del conocimiento, anlisis de datos/patrones, inteligencia de negocios
Minera de datos NO es: _ Procesamiento deductivo de consultas en BBDD _ Un sistema experto o DSS _ Anlisis estadstico _ Visualizacin de datos _ Pequeos programas de aprendizaje
Muchas de las tcnicas usadas en MD ya eran conocidas previamente, a qu se debe el boomactual? En los 90s convergen los siguientes factores: Los datos se estn produciendo Los datos se estn almacenando La potencia computacional necesaria es abordable Existe una gran presin en la competitividad empresarial Las herramientas software de MD estn disponibles
La MD slo tiene sentido cuando se dispone de grandes volmenes de datos?
Ahora los datos se producen en grandes cantidades: scanners de venta, tarjetas de crdito, paper view, teletienda, ciencia, e-commerce, e-learning, e-business, etc.Algunos ejemplos: El .log producido por Yahoo es de 10 GB cada hora. 11
El .log de google es de 23 GB cada 33 minutos. Un Astrnomo instrumentista puede producir de 50 a 100 GB de datos en una noche. ( Proyecto SETI) El genoma humano ocupa unos 300 TeraBytes. 12 millones de personas poseen una tarjeta Master Card. Blockbuster Entertainment Corp... 36 millones de casas/familias como clientes. Ebay, Mercadolibre, millones de transacciones cada da.
12
Artculo de Reflexin. La informacin digital crece a mas del doble cada ao.
Para una documentacin e ilustracin ms acorde, se acude a la URL
Fuente: Artculo Publicado en la url: http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/ ECM public recientemente los resultados del estudio de IDC Digital Universe, Extracting Value from Chaos, en el que se llega a la conclusin de que la informacin digital en el mundo crece ms del doble cada dos aos, llegando a la colosal cifra de 1,8 zettabytes creados y replicados en 2011. La tecnologa y el dinero son los encargados de impulsar las fuerzas que residen detrs de este incesante crecimiento. Las nuevas tecnologas para la utilizacin sencilla de la informacin estn reduciendo el coste a la hora de crear, capturar, gestionar y almacenar la informacin: un sexto del coste en 2011 respecto a 2005. Adems, desde 2005 las inversiones anuales de las empresas en el Universo Digital han aumentado un 50%, alcanzando unos 4.000 millones de dlares. El estudio seala que un crecimiento masivo de servidores, archivos y gestin de datos no logra mantener el ritmo del crecimiento de personal: IDC seala que las habilidades, experiencia y recursos para gestionar la avalancha de datos y recursos sencillamente no sigue el ritmo de crecimiento de otras reas. Durante la prxima dcada, los departamentos de TI de todo el mundo experimentarn un crecimiento de: - 10 veces el nmero de servidores (virtuales y fsicos). - 50 veces la cantidad de informacin a gestionar. - 75 veces el nmero de archivos o contenedores que encapsulan la informacin en el universo digital, que crece incluso ms rpido que la propia informacin, como cada vez ms los sistemas integrados tales como sensores en prendas de vestir, en puentes o en dispositivos mdicos. - 1,5 veces el nmero de profesionales de TI disponibles para gestionar este volumen. A pesar de que la informtica en la nube representa menos del 2% del gasto actual en TI, IDC predice que en 2015 casi el 20% de la informacin pasar por las manos de los proveedores de servicios de informtica en la nube, lo que 13
significa que en alguna parte del viaje del byte, desde su origen a su eliminacin, la informacin se almacenar o procesar en la nube. Tal vez hasta un 10% permanecer en la nube. El estudio tambin seala que la sombra digital tiene mente propia: la cantidad de informacin que crean los particulares (escribiendo documentos, haciendo fotografas, descargando msica, etc.) es mucho menor que la cantidad de informacin creada sobre ellos mismos en el universo digital. Adems, la responsabilidad legal o de cualquier otra naturaleza es de las empresas: a pesar de que el 75% de la informacin en el universo digital la generan particulares, las empresas son legalmente responsables del 80% de esta informacin en algn punto de su vida digital.
Otros hallazgos clave Las nuevas herramientas de captura, bsqueda, descubrimiento y anlisis pueden ayudar a las empresas a obtener una visin de los datos no estructurados, que representan ms de un 90% del universo digital. Estas herramientas pueden crear datos sobre los datos de forma automtica, al igual que las rutinas de reconocimiento facial que ayudan a etiquetar las fotos en Facebook. El crecimiento de los datos sobre los datos es dos veces ms rpido que el del universo digital en su conjunto. Por otra parte, las herramientas de inteligencia empresarial tratan cada vez ms con datos en tiempo real, tanto si se trata de cargar primas de seguros de automviles en funcin de dnde se conduce, de la distribucin de la energa a travs de la red inteligente o de cambiar mensajes sobre la marcha segn las respuestas de las redes sociales. En cuanto a las herramientas de gestin de almacenamiento ayudan a reducir los costes de la parte del universo digital que almacenamos, como la deduplicacin, la autoorganizacin en niveles y la virtualizacin, as como para ayudarnos a decidir qu almacenamos exactamente, como las soluciones de gestin de contenidos. Fuente: Artculo Publicado en la url: http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
La coleccin de datos orientadas a un dominio, integrado, no voltil y variable en el tiempo que ayuda a la toma de decisiones de la empresa u organizacin, esa es 14
la informacin importante que se debe analizar y se debe tomar en cuenta para el desarrollo de esta lnea profesional en la TI.
El expediente de una empresa ms all de la informacin transaccional y operacional, almacenado para favorecer el anlisis y la divulgacin eficientes de datos, se subdivide a veces en unidades lgicas ms pequeas, llamadas los centroscomerciales dependientes de los datos.
Generalmente, dos ideas bsicas:
_ Integracion de los datos de bases de datos distribuidas y diferentemente estructura, que facilita una descripcin global y un anlisis comprensivo en el almacn de los datos.
_ Separacionde los datos usados en operaciones diarias, los datos usados en el almacn de los datos para los propsitos de la divulgacin, de la ayuda enla toma de decisiones, para el anlisis y para controlar algn tem de proudccion o la oferta de un articulo o la creacin de uno nuevo en una empresa.
15
ESTRUCTURA DEL SISTEMA
FIGURA 2. DISTINTO ENFOQUE
FIGURA3. OLAP Y CONSULTAS DEDUCTIVAS DIRIGIDOS POR HIPTESIS Minera de datos dirigido por los datos
16
Leccion 2. Disponibilidad de Software
Algoritmos y tcnicas usadas:
Investigacin > software comercial > aceptacin
FIGURA 4. DISPONIBILIDAD DE SOFTWARE COMERCIAL
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson.
SOFTWARE LIBRE WEKA
17
Weka (Waikato Environment for Knowledge Analysis - Entorno para Anlisis del Conocimiento de la Universidad de Waikato) es una plataforma de software para aprendizaje automtico y minera de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNUGPL.
La minera de datos consiste en hallar tendencias o pautas interesantes en conjuntos de datos de gran tamao para orientar las decisiones sobre actividades futuras. Hay una esperanza generalizada de que las herramientas de minera de datos puedan identificar esas pautas de los datos con un aporte humano mnimo. Las pautas identificadas por esas herramientas pueden ofrecer a los analistas de datos una perspectiva til e inesperada que posteriormente se puede investigar con ms detenimiento, quizs empleando otras herramientas de soporte a las decisiones. En el mundo real la minera de datos es mucho ms aplicacin de uno de estos algoritmos. Los datos suelen tener ruido o estar incompletos y, a menos que esto se comprenda y corrija, es probable que muchas pautas interesantes se pasen por alto y a la fiabilidad de las detectadas sea baja. Adems el anlisis debe decidir los tipos de algoritmos de minera que se invocan, aplicarlos a un conjunto bien escogido de muestra de datos y de variables (es decir, Tuplas y atributos), resumir los resultados, aplicar otras herramientas de ayuda a la toma de decisiones y de minera e iterar el proceso para poderlo ejecutar de la manera mas optima. Cabe mencionar en este punto que lamineria de datos es una tcnica que aborda y que pretende analizar datos y a partir de ellos lograr predecir un estado de una variable. Limitarse a almacenar informacin en un almacn de datos no proporciona los beneficios que las organizaciones buscan a la hora de implantar este tipo de sistemas; para conseguir sacar el mximo provecho de un almacn de datos, es necesario extraer el conocimiento oculto dentro del almacn. sin embargo, a 18
medida que crece la cantidad y la complejidad de los datos contenidos en un almacn de datos, se hace cada vez ms fcil, si no imposible, para los analistas de negocio identificar las tendencias y relaciones en los datos de manera acertada, este proceso es muy complejo ya que deben usar herramientas avanzadas de consulta y de generacin de informes.
La minera de datos es una de las maneras de extraer patrones y tendencias significativas de entre un enorme conjunto de datos. La mayora de datos descubre informacin dentro de los almacenes de datos que las consultas e informes que no pueden hacer por mtodos tradicionales de manera efectiva. Existen numerosas definiciones sobre lo que s la minera de datos, desde definiciones muy amplias que describen la minera de datos como cualquier herramienta que permite a los usuarios acceder directamente a grandes cantidades de datos, hasta definiciones ms especficas, como la que afirma que se trata de herramientas y aplicaciones que realizan anlisis estadsticos sobre los datos para detectar patrones.
Minera de datos: Es el proceso de extraer la informacin vlida, previamente desconocida, comprensible y til de base de datos de gran tamao y utilizar dicha informacin para tomar decisiones de negocio cruciales. La minera de datos se preocupa del anlisis de los datos y de la utilizacin de tcnicas software para localizar patrones y relaciones ocultas e inesperadas dentro de una serie de conjuntos de datos. El enfoque de laminera de datos consiste en revelar informacin que est oculta y sea inesperada, ya que no tiene mucho sentido tratar de encontrar patrones y relaciones que resulten intuitivos por s mismos. Para identificar los patrones y relaciones ocultos se examinan las reglas y caractersticas subyacentes a los datos.
19
El anlisis de minera de datos tiende a trabajar comenzando por los propios datos y progresando hacia arriba, y las tcnicas que producen los resultados ms precisos requieren, normalmente, grandes volmenes de datos para poder ofrecer una conclusin fiable. El proceso de anlisis comienza desarrollando una representacin ptima de la estructura de una serie de datos de ejemplo, adquirindose uno ciertos
conocimientos durante esta fase. Dichos conocimientos se amplan posteriormente a conjuntos de datos de mayor tamao, trabajando con la suposicin de que esos conjuntos de datos de mayor tamao tienen una estructura similar a la de los datos de muestra. La minera de datos puede reportar enormes beneficios a las empresas que hayan hecho una inversin de significativa en tecnologas de almacn de datos. Aunque la minera de datos es una tecnologa relativamente nueva, ya se utilizan diversos sectores. La tabla indica diversos ejemplos de aplicaciones de laminera de datos en comercio al por menos/marketing, banca, seguros y medicina.
20
Leccion 3. Ejemplos de aplicaciones de la Minera de Datos.
Fuente: Autor
Comercio al por menor/marketing
Identificacin de los patrones de compra de los clientes. Determinacin de asociaciones entre las caractersticas demogrficas de los clientes. Prediccin de la respuesta a las campaas de publicidad por correo anlisis de cesta de la compra.
Banca Deteccin de patrones de uso fraudulento de tarjetas de crdito. 21
Identificacin de clientes leales. Prediccin de clientes que tienen probabilidad de cambiar de banco suministrador de tarjeta de crdito determinacin de los casos realizados por ciertos grupos de clientes con la tarjeta de crdito. Seguros Anlisis de partes. Prediccin de los clientes que suscribe nuevas polizas.
Medicina
Caracterizacin del comportamiento de los pacientes para predecir las visitas quirrgicas. Identificacin enfermedades. de terapias medicas adecuadas para diferentes
Leccion 4. Objetivos de la Minera de Datos Objetivo General Descubrir patrones, perfiles, y tendencias a travs del anlisis de datos con tecnologas de reconocimiento de patrones, redes neuronales, lgica difusa, algoritmos genticos y otras tcnicas estadsticas avanzadas del anlisis multivariante de datos.
Objetivos Especficos de la Minera de Datos
La Minera de Datos como parte de los sistemas de apoyo a las decisiones, a partir de un anlisis comparativo entre la teora y la investigacin de campo, para obtener conclusiones que permitan identificar cmo 22
implementar y utilizar adecuadamente la Minera de Datos en la toma de decisiones. Identificar cules son las caractersticas de los productos de Minera de Datos ms relevantes a nivel mundial.
Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos.
En algunos casos, los datos se consolidan en un almacn de datos y en market de datos; en otros, se mantienen en servidores de Internet e Intranet.
El entorno de la minera de datos suele tener una arquitectura cliente servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral (objeto de datos) de la informacin enterrada en archivos corporativos o en registros pblicos, archivados
El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos (formatos de registro de datos) y otras poderosas herramientas indagatorias para efectuar preguntas y obtener rpidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. ( hacer anlisis de la informacin y tratar de evitar la redundancia)
Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesar rpidamente.
23
Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera de datos produce cinco tipos de informacin:
a. Asociaciones. b. Secuencias. c. Clasificaciones. d. Agrupamientos. e. Pronsticos. Los mineros de datos usan varias herramientas y tcnicas.
La minera de datos es un proceso que invierte la dinmica del mtodo cientfico en el siguiente sentido:
En el mtodo cientfico, primero se formula la hiptesis y luego se disea el experimento para coleccionar los datos que confirmen o refuten la hiptesis.
Si esto se hace con la formalidad adecuada (cuidando cules son las variables controladas y cules experimentales), se obtiene un nuevo conocimiento.
En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu son como son.
Luego entonces, se valida esa hiptesis inspirada por los datos en los datos mismos, ser numricamente significativa, pero experimentalmente invlida. De ah que la minera de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minera de datos para confirmar las hiptesis formuladas puede ser peligroso, pues se est haciendo una inferencia poco vlida.
24
La minera de datos es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de minera de datos muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementndose con otra herramienta.
Fundamentos del Data Mining. Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est lista para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
Las bases de datos comerciales estn creciendo a un ritmo sin precedentes.
25
Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontr que el 19% de los que contestaron estn por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retal), estos nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son ms performantes que mtodos
estadsticos clsicos.
En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo paso se basa en el previo. Por ejemplo, l es crtica para Data Mining.
Los componentes esenciales de la tecnologa de Data Mining han estado bajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologas fueran prcticas para los entornos de data warehouse actuales.
Alcance de Data Mining. El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos - por ej.: encontrar informacin de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaa para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o 26
investigar inteligentemente hasta encontrar exactamente donde residen los valores.
Dadas bases de datos de sucinte tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (tarjetead marketing). Data Mining usa datos en maulina promocionales anteriores para idntica posibles objetivos para maximizar los resultados de la inversin en futuros maulina. Otros problemas predecibles incluyen pronsticos de problemas nancieros futuros y otras formas de incumplimiento, e idntica segmentos de poblacin que probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e idntifica modelos previamente desconocidos en un slo paso. Otros problemas de descubrimiento de modelos incluyen detectar transacciones fraudulentas de tarjetas de crditos e idntifica datos anormales que pueden representar errores en la carga de datos.
Las tcnicas de Data Mining pueden revisar los beneficios de automatizacin y transaccion en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualizan y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance, pueden analizar bases de datos masivas en minutos. Procesamiento 27
ms rpido, signicado que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar inmensas cantidades de datos.
Grandes bases de datos, a su vez, producen mejores predicciones.
Leccin 5. Minera de datos y la toma de decisiones. En el desarrollo de la conceptualizacin que hasta el momento se ha desarrollado en el modulo se ha mencionado hasta aqu una gran cantidad de elementos que se deben aplicar y analizar para poder hacer un ejercicio acorde a la realidad y que sea concomitante tanto con las teoras estudiadas, como a la vez con las necesidades de informacin de la entidad o empresa en la que se vaya a realizar una aplicacin de minera de datos.
El acceso a la informacin para el departamento gerencial o administrativo de una empresa, debe estar enmarcado con una serie de caractersticas como la eficiencia de la informacin, la claridad en la misma, la sistematicidad de su estructura, la correspondencia con la realidad, etc. Es por ello que para poder seguir adelante en el desarrollo y como cierre del capitulo I se debern acudir a direferentes fuentes, tanto externas como internas para documentarse sobre la importancia misma de la minera de datos y ante todo en el apoyo a la toma de decisiones.
Actividad de cierre Capitulo I Se debe: Realizar una lectura juiciosa de artculos cientficos indexados sobre la importancia de la mineria de datos.
28
Que aspectos considera importantes que se deben evaluar para el desarrollo de un anlisis de informacin bajo el enfoque de la minera de datos. Realizar una ruta de planeacin de un proyecto en una empresa con criterios y etapas de la minera de datos. Construir con una herramienta (ej. Cmaptools) una estructura que explique el desarrollo de la planeacin del punto anterior. Hacer un cuadro informativo con el siguiente formato para documentar lo que hasta el momento ha aprendido el estudiante.
Primer acercamiento a una aplicacin con MD en una empresa

Nombre de la empresa
Objeto de la empresa Actividades desarrollar a
Nombre de la Etapa
Descripcion etapa
de
la
Producto Responsable entregar
Es importante mencionar que para este punto, el estudiante esta en libertad de agregar tantas etapas con lo considere ya que este punto (a diferencia de los anteriores), lo que pretende es servir de entrenamiento de lo aprendido y hacer una aplicabilidad de los conceptos.
29
1.2.
Capitulo II KDD.
Leccin 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos
6.1 Proceso de Descubrimiento del Conocimiento (KDD)
En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido bsicamente al gran poder de procesamiento de las mquinas como a su bajo costo de almacenamiento.
Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin oculta, de gran importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin.
El descubrimiento de esta informacin oculta es posible gracias a la Minera de Datos (Data Mining), que entre otras tcnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga de la preparacin de los datos y la interpretacin de los resultados obtenidos, los cuales dan un signicado a estos patrones encontrados.
As el valor real de los datos reside en la informacin que se puede extraer de ellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensin de los fenmenos que nos rodean. Hoy, ms que nunca, los mtodos analticos avanzados son el arma secreta de muchos negocios exitosos.
Empleando mtodos analticos avanzados para la explotacin de datos, los negocios incrementan sus ganancias, maximizan la esencia operativa, reducen costos y mejoran la satisfaccin del cliente De forma general, los datos son la 30
materia prima bruta. En el momento que el usuario les atribuye algn signicado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin de la informacin y ese modelo representen un valor agregado, entonces nos referimos al conocimiento. En el desarrollo del proceso se analiza e ilustra la jerarqua que existe en una base de datos entre los datos, informacin y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. La separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento.
La capacidad de generar y almacenar informacin creci considerablemente en los ltimos tiempos, se ha estimado que la cantidad de datos en el mundo almacenados en bases de datos se duplica cada 20 meses. Es as que hoy las organizaciones tienen gran cantidad de datos almacenados y organizados, pero a los cuales no les pueden analizar escientemente en su totalidad.
Con las sentencias SQL se puede realizar un primer anlisis, aproximadamente el 80% de la informacin se obtiene con estas tcnicas. El 20% restante, que la mayora de las veces, contiene la informacin ms importante, requiere la utilizacin de tcnicas ms avanzadas.
El Descubrimiento de Conocimiento en Bases de Datos (KDD) apunta a procesar automticamente grandes cantidades de datos para encontrar conocimiento til en ellos, de esta manera permitir al usuario el uso de esta informacin valiosa para su conveniencia.
El KDD es el Proceso no trivial de idntica patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles a partir de los datos.
(Fallad et al., 1996) El objetivo fundamental del KDD es encontrar conocimiento til, vlido, relevante y nuevo sobre un fenmeno o actividad mediante algoritmos encientes, dadas las crecientes rdenes de magnitud en los datos. Al mismo 31
tiempo hay un profundo inters por presentar los resultados de manera visual o al menos de manera que su interpretacin sea muy clara. Otro aspecto es que la interaccin humano-mquina deber ser accesible, dinmica y colaboradora.
El resultado de la exploracin deber ser interesante y su calidad no debe ser afectada por mayores volmenes de datos o por ruido en los datos. En este sentido, los algoritmos de descubrimiento de informacin deben ser altamente robustos.
FIGURA 5: JERARQUA DEL CONOCIMIENTO.
Leccin 7. Diagrama del Proceso de KDD
El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos) para extraer (identifica) lo que se considera como conocimiento de acuerdo a la especicacin de ciertos parmetros usando una base de datos junto con reprocesamientos y post-procesamientos.
32
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson.
Figura 6: Proceso de KDD
Se estima que la extraccin de patrones (minera) de los datos ocupa solo el 15% al 20% del esfuerzo total del proceso de KDD.El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos:
Determinar las fuentes de informacin: que pueden ser tiles, dnde conseguirlas y como accederlas.
Disear el esquema de un almacn de datos (Data Warehouse) que consiga unicar de manera operativa toda la informacin recogida. 33
Implantacin del almacn de datos: que permita la navegacin y visualizacin previa de sus datos, para discernir qu aspectos puede interesar que sean estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo.
Seleccin, limpieza y transformacin de los datos que se van a analizar: la seleccin incluye tanto la filtracin o fusin horizontal (tablas) como vertical
(atributos).La limpieza y reprocesamiento de datos se logra diseando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc.
Seleccionar y aplicar el mtodo de minera de datos apropiado, esto incluye:
La seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasicacin,agrupamiento o clustering, regresin, etc. La seleccin de l o de los algoritmos a utilizar. La transformacin de los datos al formato requerido por el algoritmo especco de minera de datos. Llevar a cabo el proceso de minera de datos.
Se buscan patrones que puedan expresarse como un modelo o simplemente que expresen dependencias de los datos, el modelo encontrado depende de su funcin (clasicacin) y de su forma de representarlo (rboles de decisin, reglas de asociacin, etc.), se tiene que especcar con criterio de preferencia para seleccionar un modelo dentro de un conjunto posible de modelos, se tiene definir la estrategia de bsqueda a utilizar (normalmente est predeterminada en el algoritmo de minera).
Leccion. 8. Etapas de abordaje.
34
Evaluacin, interpretacin, transformacin y representacin de los patrones extrados:
Evaluacion de los datos.
Se debe hacer un acercaiento real y muy especifico a la informacin que se maneja en la base de datos, esto con el fin de entender claramente el tipo de informacin que manje, el flujo de la misma, la dinmica de actualizacin, los procesos que se desarrollan y por supuesto cuales son las verianles que se tienen y que en el momento no se estn teniendo en cuenta. Este es quiz una de las etapas mas simples pero de mayor importancia, el 73% de las ocasiones en la que se fracasa en la aplicacin de la mineria de datos, esta en la falta de previsin y de atencin especial al desarrollo de esta etapa ya que de no ser abordada de manera acertiva todo el proceso ser un fracaso.
Interpretar los resultados y posiblemente regresar a los pasos anteriores.
Esto puede involucrar repetir el proceso, quizs con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretacin puede beneciarse de procesos de visualizacin, y sirve tambin para borrar patrones redundantes oirrelevantes.
Difusin y uso del nuevo conocimiento.
Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conictos potenciales con el conocimiento existente.
El conocimiento se obtiene para realizar acciones, ya sea incorporndolo dentro de un sistema de desempeo o simplemente para almacenarlo y reportarlo a las personas interesadas.
35
En este sentido, KDD implica un proceso interactivo e iterativo involucrando la aplicacin de varios algoritmos de minera de datos.
Metas del KDD Procesar automticamente grandes cantidades de datos crudos. Idntica los patrones ms signicativos y relevantes. Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Leccion 9. Desarrollo del proceso de KDD El Preprocesamiento. El proceso KDD, ilustrado en la Figura 1, est dividido en una serie de pasos, desde la seleccin y limpieza de la BD hasta la evaluacin e interpretacin de los Resultados.
FIGURA 7.ETAPAS EN EL PROCESO DE KDD. 36
En la Figura 7 se observa que las primeras etapas del proceso KDD se dedican a limpiar, preparar, seleccionar y formatear a los datos de acuerdo a los patrones a buscar y el algoritmo de Minera de Datos a utilizar. A esta etapa se le conoce como pre procesamiento.
Posteriormente, aparece la etapa de minera de datos, en la cual se buscan o descubren los patrones ocultos en los datos, los cuales pasan a una etapa de evaluacin, en donde se determina la validez y confiabilidad de dichos patrones. Al final de todo este proceso, se obtienen una serie de patrones llamados conocimiento.
A continuacin se describen a mayor detalle cada una de las etapas.
En esta etapa los datos son preparados para el proceso de Minera de Datos. Dicha etapa se divide en tres pasos bsicos.
Seleccin y Limpieza En el mundo real, existen muchas bases de datos que tienen diversos problemas, como son valores faltantes, ruido (valores que por alguna causa no son correctos), Inconsistencias (valores que no corresponden a los dominios de los atributos que son contradictorios con otros datos de la misma BD), errores de captura, errores en la fuente de informacin, errores provocados por los sistemas de cmputo, entre otros. Estos problemas deben eliminarse antes de cualquier proceso de minera de datos, ya que pueden afectar a la precisin de los resultados o incluso, el algoritmo de minera puede construir patrones a partir de un conjunto de datos incorrectos.
37
Para estos casos, se deben de implementar una serie de estrategias que corrijan tales problemas.
Lamentablemente no existe una nica solucin, ya que dependiendo del tipo de datos ser la estrategia a implementar. Por ejemplo, considere una tabla R con n registros definida sobre un conjunto de atributos {A1,, Am} en donde existe un registro <v1,, vs-1, vs, vs+1,, vn> en el cual el valor del atributo s es desconocido (es decir, vs =?). Una estrategia para solucionar este problema sera simplemente eliminar dicho registro . Sin embargo, en el caso de que ste registro sea muy valioso o significativo, se buscara otra forma de solucionar el problema, como por ejemplo, estimar el posible valor para vs a travs de la media.
FIG. 8 EJEMPLOS DE IMAGENES DE CLULAS CON LEUCEMIA.

Fuente: http://es.scribd.com/doc/93421745/Caso-de-Exito-Mineria-de-Datos
Otro problema comn que se presenta en un conjunto de datos es el ruido. Por ejemplo, considere una BD de imgenes mdicas tomadas a travs de un microscopio ptico. La calidad de las imgenes depende de muchos factores, como es la preparacin de las muestras, la ptica del microscopio, la calidad de la cmara digital, entre otros. Dependiendo de estas variables, se pueden obtener imgenes como la mostrada en la Figura 8 izquierda), en donde aparecen manchas que no son propias de las caractersticas de las clulas. En estos casos se deben de buscar filtros (dentro del rea del procesamiento digital de imgenes) que permitan remover estas imperfecciones, de tal manera que al momento de 38
trabajar con las clulas, estas imperfecciones no alteren al proceso de minera de datos.
Por otro lado, la seleccin es una estrategia til cuando la dimensin de la BD es muy alta. Entre ms grande sea una BD, los tiempos de respuesta pueden llegar a ser prohibitivos. En estos casos se opta por no trabajar directamente con todos los datos, sino con un subconjunto de los datos originales, llamada muestra o datos de entrenamiento.
El problema con esta estrategia es garantizar que los datos contenidos en la muestra sean representativos con respecto al total del conjunto. Lamentablemente esta condicin no es fcil de garantizar, por lo que se ha optado por construir no solo una, sino un conjunto de muestras con las cuales trabajar (construidas a travs de un proceso aleatorio). Como consecuencia, por cada muestra se obtendr un conjunto de patrones, los cuales tendrn que compararse y evaluarse con respecto a los resultados encontrados a partir de otras muestras.
Preparacin de Datos En esta etapa del proceso KDD se busca eliminar todos aquellos datos que no sern relevantes para el proceso de minera de datos. Por ejemplo, considere la imagen de la Figura 8 derecha), donde la tarea consiste en identificar caractersticas especficas de las clulas que representan leucemia. En este caso, toda la imagen como tal no nos interesa, slo la regin que delimita a la clula (regin de inters). Por tanto, es necesario extraer esta regin del resto de la imagen, a travs de tcnicas de segmentacin.
Es importante mencionar que no todas las bases de datos requerirn aplicar cada uno de los pasos mencionados en el proceso KDD. Por ejemplo, para la base de datos representada por la tabla R, si todos los atributos son importantes y adems, 39
todos los registros son significativos, despus de eliminar cualquier inconsistencia o ruido el proceso se brincara a la siguiente etapa, sin pasar por la preparacin de datos.
Transformacin de Datos Cada algoritmo que se desarrolla siempre establece el tipo y estructura de los datos que admite. Por ejemplo, un algoritmo de ordenamiento como quicksort admite con entrada un arreglo de nmeros, por lo que no es posible utilizarlo para ordenar imgenes. De la misma forma, los algoritmos de minera de datos siempre Definen un formato y estructura para sus entradas.
Si para la tarea que se est resolviendo se determina utilizar un algoritmo de minera de datos y los datos no coinciden con la entrada admitida por el algoritmo, entonces se procede a transformarlos. No obstante en cualquier proceso de transformacin, cierta cantidad de la informacin de los datos originales se pierde.
Por tanto, un punto fundamental en este proceso es perder la menor cantidad de la informacin de los datos.
Por ejemplo, considere que se utilizar un algoritmo de clasificacin como C4.5 para construir un rbol que permita clasificar a las clulas como linfoblsticas y mieloblsticas (las dos familias de leucemia). Dado que el algoritmo C4.5 admite como entrada una tabla, se requerir transformar a las clulas a este formato. Esta Transformacin no es trivial, ya que en primera instancia no existe ningn tipo de relacin natural entre una imagen y una tabla. Sin embargo, si se analiza las caractersticas de cualquier clula, se podr observar que estas tienen propiedades como un rea (en pixeles), un dimetro, convexidad, gama de color, un nmero de grumos entre otras.
40
Estas propiedades se pueden utilizar como atributos de una tabla, donde cada registro correspondera a una clula especfica, as como se ilustra en la Figura 9.
41
FIG. 9 EJEMPLO DE CMO TRANSFORMAR UNA IMAGEN DE UNA CLULA A UNA TABLA.
La MD es la parte central del proceso KDD, en la cual se buscan o encuentran patrones de inters para el usuario. Los patrones descubiertos pueden ser singrafos, reglas de asociacin, rboles de clasificacin, una red neuronal entrenada, entre otros.
Para entender el alcance de la MD, hay que comprender qu tipo de tareas se pueden realizar. Para ello, se identifican caractersticas comunes que sirven para Agrupar las tareas de MD, que son: Tipos de BD sobre las que se hace MD: aqu se identifica sobre qu tipos de bases de datos se trabaja, como data warehouse, bases de datos relacionales, espaciales, temporales, secuenciales, entre otras. Esto permite identificar la estructura de los datos a trabajar. Tipo de conocimiento minado: se determina la estructura del conocimiento a identificar, que pueden ser caracterizaciones, reglas de asociacin, rboles de clasificacin, redes neuronales. Los patrones descubiertos pueden ser descriptivos, es decir, muestran la serie de hechos bajo los cuales se
42
sustenta el patrn, como son los rboles de clasificacin, reglas de clasificacin, entre otros.
Sin embargo, existen mtodos que no son descriptivos, simplemente dan el resultado final sin que el usuario pueda conocer el porqu del resultado. Ejemplo de estos sistemas son las redes neuronales (a estos sistemas se les ve como cajas negras, se conoce la entrada y la salida pero no se entiende que pasa en el interior). Tipo de tcnica utilizada: aqu se define si se utilizan tcnicas estadsticas de aprendizaje automtico. Dominios de aplicacin: clasificacin basada en los dominios de trabajo, que pueden ser qumicos, biolgicos como el DNA, tericos, entre otros.
Otro aspecto importante en toda tarea de MD es identificar si se van a buscar odescubrir patrones. En un proceso de bsqueda, la minera de datos parte de un conjunto de datos D y un patrn a buscar S. La tarea consiste en identificar si existen subestructuras en D que sean idnticas o similares a S. Por otro lado, si la tarea se aboca a descubrir patrones ocultos, entonces se parte de un conjunto de datos D y a partir de estos datos, se identifican caractersticas comunes en los mismos.
Debido a que la MD emplea conocimientos que se han desarrollado en diferentes reas de investigacin, se ha convertido en un rea multidisciplinaria, en la que intervienen conceptos de bases de datos, inteligencia artificial, aprendizaje automtico, entre otras, tal como se ilustra en la Figura 10.
43
FIG. 10. LA MINERA DE DATOS Y SU RELACIN CON OTRAS REAS DE CONOCIMIENTO.
Leccion 10. Evaluacin de Patrones
En la etapa de evaluacin se extraen los patrones con mayor importancia para el usuario final. Para lograrlo, es necesario establecer parmetros que nos permitan comparar la calidad de un patrn con respecto a otro.
La medida ms usual para evaluar patrones es el porcentaje de precisin, en el cual dado un conjunto de datos D y un patrn P, se determina el porcentaje de casos en donde el patrn P es vlido correcto con respecto al total de casos en D. Por ejemplo, considere el caso de una escuela con 200 alumnos, en los cuales se ha encontrado una regla de clasif icacin que dice: si el alumno tiene un promedio superior a 8 y tiene como mximo 3 faltas en un cuatrimestre, entonces es un alumno que no reprueba ninguna materia. Para verificar la validez de esta regla, es necesario determinar para cuantos alumnos en D aplicara la regla, es decir, cuantos alumnos tienen un promedio mayor a 8, no faltan ms de 3 veces y no reprueban (soporte) y del nmero obtenido, determinar en cuantos dado el antecedente, se cumple la consecuencia (confianza). Para este ejemplo, si existen 45 alumnos que cumplen con un promedio superior a 8, no faltan ms de 3 veces en un cuatrimestre y 50 alumnos que adems no reprueban, entonces el soporte 44
de la regla es de 50/200 = 25%. Por otro lado, si de ellos solo 45 alumnos cumplenque si tienen promedio superior a 8 y no faltan ms de 3 veces, entonces no reprueban, se obtendra una confianza de 45/50 = 90%.
Otro aspecto muy importante en todo proceso de evaluacin de patrones es determinar el umbral a partir del cual un patrn es vlido. Por ejemplo, para el ejemplo de la BD de la escuela, un 90% de confianza puede resultar muy bueno para detectar a los alumnos que difcilmente reprueban. Sin embargo, si cambiamos de dominio de trabajo ese mismo 90% puede ser malo.
Por ejemplo, considere el caso en el cual se est tratando de construir un modelo que permita predecir si un paciente, a partir de su cuadro clnico, es susceptible a sufrir algn tipo de cncer. Para este tipo de dominios, un 90% no es suficiente, requirindose niveles muy cercanos al 100%. Por tanto, la exigencia en la precisin de los resultados est sujeta al dominio de trabajo y el uso que se le dar al conocimiento minado.
Actividad cierre Capitulo II Caso de Estudio. Tomado Fuente: http://es.scribd.com/doc/31587475/Ejemplos-de-Mineria-de-Datos
En la siguiente seccin se presenta un caso real en el cual se ha aplicado con xito el proceso de minera de datos.
Clasificacin de Leucemias Agudas empleandoMinera de Datos La Leucemia es una enfermedad que se caracteriza por alterar el proceso madurativo de las clulas que conforman a la sangre (glbulos rojos, glbulos blancos, plaquetas y plasma), provocando una proliferacin descontrolada de 45
clulas sanguneas inmaduras. Esta proliferacin se origina a nivel de la mdula sea.
En la actualidad, para detectar si un paciente padece de esta enfermedad se sigue la siguiente metodologa. El estudio inicia con un anlisis morfolgico de las muestras por medio del experto, el cual identifica ciertas caractersticas que le hagan sospechar si el paciente sufre de la enfermedad. Si es el caso, entonces las muestras son turnadas a un estudio de cartometra de flujo, el cual sirve para definir el tipo de leucemia (leucemia linfoblsticas LLA- o mieloblsticas -LMA) y el subtipo (L1, L2 L3 y MO, M1, M2, M3, M4, M5, M6 y M7). Con base en los resultados obtenidos, el experto en el dominio prescribe un tratamiento acorde a las caractersticas de la enfermedad.
Lamentablemente este procedimiento sufre de varios inconvenientes: el anlisis por observacin es un proceso susceptible a errores, ya que la capacidad de la visin humana para detectar detalles pequeos es limitada. Aunado a esto, factores como el cansancio, condiciones de luz, problemas visuales en el experto, entre otros, lo que disminuye la precisin del diagnstico inicial.
Por otro lado, un estudio de cartometra de flujo no es barato, lo que provoca que en pases en desarrollo como Colombia los estudios en ocasiones no se puedan llevar a cabo. Por lo anterior surge la necesidad de desarrollar herramientas de apoyo al diagnstico mdico que sean confiables y adems, de bajo costo.
Con respuesta a esta necesidad, se est desarrollando una investigacin en el cual participan investigadores del INAOE IMSS UPP para crear una herramienta para la deteccin de leucemia aguda a partir de un anlisis morfolgico de imgenes digitales. En este sistema, el objetivo es extraer caractersticas de las clulas que permitan construir modelos que sirvan para clasificar nuevas muestras.
46
Para lograrlo, se propuso una metodologa basada en el proceso KDD, as como se muestra en la Figura 11
FIG. 11 CLASIFICACIN DE LEUCEMIAS AGUDAS.
El proceso inicia capturando las imgenes a travs de un microscopio ptico de alta calidad, el cual cuenta con una cmara digital. De este proceso se obtiene una Base de imgenes, en donde se seleccionan las de mayor calidad (que contengan caractersticas representativas de la enfermedad). Ese proceso es realizado en conjunto con los expertos del dominio.
Una vez seleccionadas las imgenes, se procede a limpiarlas, empleando una serie de filtros que disminuyen imperfecciones. Finalizado este proceso, se procede a una etapa de segmentacin, en la cual se extraen exclusivamente las regiones de inters de cada imagen. Cabe hacer mencin que en este proceso 47
intervienen los expertos, ya que una imagen puede contener diferentes tipos de clulas donde no todas son representativas de la leucemia. Al mismo tiempo, los expertos en el domino realizaron un proceso de clasificacin, identificando el tipo y subtipo de la muestra. Esta informacin fue de gran utilidad para el proceso de minera de datos.
Despus de la segmentacin, se transformaron las clulas a un formato de tabla (seleccin de caractersticas, Figura 5), donde se extrajeron caractersticas como el dimetro, media de los valores en tonos de gris, entropa, anisotropa, correlacin, rea, convexidad, entre otros parmetros. Esta transformacin fue necesaria, ya que diversos algoritmos de clasificacin, como redes neuronales, rboles de clasificacin como C4.5 requieren este formato.
A partir de las caractersticas extradas, se probaron diferentes algoritmos. Es importante mencionar que se utilizaron tanto algoritmos descriptivos como no descriptivos, ya que los expertos en el dominio no solo estaban interesados en conocer las clases, sino adems, en identificar las caractersticas de definen a cada clase.
Este procedimiento se pudo llevar a cabo gracias a la clasificacin de las muestras que realizaron los expertos en el proceso de seleccin.
Actualmente, el proyecto se encuentra en la fase de evaluacin de resultados, en donde se han alcanzado clasificaciones con una precisin promedio superior al 90% (para familias como subfamilias). De acerado a los expertos, estos resultados son muy alentadores, considerando que la precisin alcanzada por los expertos a travs de un anlisis morfolgico ronda el 40%.
Este es un claro ejemplo en el cual el proceso KDD y la minera de datos se han usado para identificar patrones complejos, que pueden llegar a tener un fuerte impacto en la sociedad. 48
1.3 Capitulo III Reglas de Asociacin usadas en Minera de Datos.
Leccin 11. Identificacin de las reglas de asociacin.
Se usar la relacin compras para ilustrar las reglas de asociacin. Mediante el examen del conjunto de transacciones de compras se pueden identificar reglas de la forma: {Pluma} {Tinta}
Esta regla se debe leer de la manera siguiente: si en una transaccin se compra una pluma, es probable que tambin se compre tinta en esa transaccin. Es una afirmacin que describen las transacciones de la base de datos; la extrapolacin a transacciones futuras debe hacerse con cautela, como se analiza en las reglas de asociacin tiene la forma Izq. de elementos. La interpretacin de esta regla es que si se compran en una misma transaccin todos los artculos de Izq., entonces es probable que tambin se compren los artculos de Der. Soporte. El soporte de un conjunto de artculos es el porcentaje de transacciones que contienen todos esos artculos. Der, donde tanto Izq. como Der. Son conjuntos
El soporte de la regla IzqDer es el soporte del conjunto de artculos Izq. U Der. Por ejemplo, considrese la regla {pluma} {tinta}. El soporte de esta regla es el soporte del C lote {pluma, tinta}, que es 75 %.
49
Confianza. Considrense transacciones que contengan todos los artculos de izq. La confianza de la regla Izq. Der es porcentaje de esas transacciones que
contienen tambin todos los artculos de Der. Ms exactamente, de a sea sop (Izq.) el porcentaje de transacciones que contienen Izq. y Sop (Izq. U Der) el porcentaje de transacciones que contienen tanto Izq. como Der. Entonces, la confianza de la regla Izq. Der es Sop (Izq. U Der/sop (Izq.). La confianza de cada regla es una indicacin de su fortaleza. Por ejemplo, considrese nuevamente la regla {Pluma} {Tinta}... La confianza de esta regla es 75%; el 75 % de las transacciones que contienen el lote {pluma} contienen tambin el lote {Tinta}.
Principales funciones del data mining: Reglas de Asociacin (Asociacin rules) Reglas fuertes: As se denomina a aquellas reglas que satisfacen un soporte mnimo (min_sup) y una confianza o confidencia mnima (min_conf).
_ Frecuencia de ocurrencia de un intense (conjunto de tems): es el nmero de transacciones que contienen el intense. _ Un intense satisface un soporte mnimo si y solo si su frecuencia de ocurrencia es superior o igual a min_sup e inferior o igual al nmero de transacciones en D. _ Si el intense satisface el soporte mnimo entonces se lo denomina intense frecuente. _ Principio A priori: Cualquier de sus Principales funciones del data mining: Reglas de asociacin (Asociacin rules). Ejemplos de reglas Basadas en un tipo de valor : Compra (X,CD) y Compra (X,Reproductor de CD) => Compra (X,Reproductor MP3)
50
Basadas en la dimensin del dato asociado : Edad (X,2540) e Ingreso (X,24k48k) => Compra (X,Palm) Basada en niveles de atraccin edad(X,2540) => Compra(X,Notebooks) edad(X,2540) => Compra(X,Computadoras) Se tiene diferentes niveles de granularidad en las reglas. Se dispone de una jerarqua de conceptos (productos para el ejemplo). Los tems de niveles inferiores dispondrn de menos soporte. Principales funciones del data mining: Reglas de asociacin (Asociacin rules). - Si exige que las reglas expuestas posean igual soporte en todos los niveles: Cuanto ms descienda en la jerarqua, menos soporte dispondr. Esto implica que perder algunas reglas pero aquellas que cumplan las condiciones valdran en un contexto general.
- Si accede a menores soportes en los niveles inferiores: Se corre el riesgo de que la regla no sirva para el contexto general.
- Una regla es redundante si su soporte est cercano a un valor esperado Basado en la regla de un ancestro. En otras palabras, si bien desciende en el Nivel de granularidad de la informacin, esta no se traduce en el incremento del conocimiento. E
Principales funciones de la data mining: Concepto de patrones secuenciales (Secuencial patterns)
Una secuencia es una lista ordenada de itemsets; Una secuencia es maximal si no es contenida por otra 51
Cada secuencia maximal es un patrn secuencial Series temporales son un caso particular de los patrones secuenciales. La secuencia est dada por algunos parmetros asociados al tiempo. Aplicaciones especficas: Retencin de clientes Marketing focalizado
Clasificacin y prediccin:
Clasificacin versus Prediccin: Predice etiquetas de clases. Categricas mientras que la prediccin se basa en modelos de Funciones evaluadas-continuas.
Clasificacin: Mtodo supervisado Se compone de 2 etapas: 1. Construccin (Entrenamiento) 2. Poda (Pruning). 1. Overfitting 2. Objetivo del pruning Funcin de splitting Frena la construccin del rbol si: _ No existen ms atributos que analizar o _ No existen ms ejemplos que procesar o
_ Todos los ejemplos para un nodo determinado poseen igual clase Prediccin: _ Predice el valor para una variable continua _ Modelos de funciones evaluadas continuas _ Ejemplos: _ Regresin lineal simple [Y= Bo. + B1*X] _ Regresin lineal mltiple [Y= Bo. + B1*x1+ B2*x2 + + Bn*Xn] 52
_ Entre otros
Agrupamiento (Clustering): Conjunto de datos u objetos reunidos bajo una misma agrupacin en funcin de alguna medida para asimila y evaluar lavarianza entre grupos y la minimizarla dentro del mismo No supervisado Tipo de acercamientos _ Orientados al aprisionamiento: _ K-means: _ Relativamente eficiente _ Necesita que se especifique el k (cantidad de grupos a armar o estudiar) _ No es capaz de manejar ruido y outliers (Efecto similar a la media aritmtica) _ K-medoids Algoritms _ No escalable
Tipo de acercamientos:
Continua Orientados al aprisionamiento: La principal diferencia entre K-means y k-medoids, es que en el primero el centro del clster no necesariamente es un elemento, mientras que el segundo requiere que el centro sea un elemento representativo del grupo. - Jerrquico Tiene la ventaja de no necesitar especificar la cantidad de grupos a generar. Emplea una matriz de distancia entre los registros, para n datos genera una matriz non que contiene dichas distancias y cuya diagonal principal es 0 Existen dos variantes: 53
Aglomrativo: Va reuniendo elementos desde lo ms particular hasta obtener el conjunto de datos completo Divisivo: Va particionado el conjunto de datos completo hasta llegar a la divisin mnima de los mismos. Otros acercamientos: Basados en densidad, basados en grilla (detalles a diferentes niveles de granularidad), etc.
Leccion 12. Algoritmos para la busqueda de reglas asociadas.
Un usuario puede pedir todas las reglas de asociacin que tengan un soporte mnimo determinado (spin) y una confianza mnima (confmin), y sean desarrollado varios algoritmos para hallar esas reglas de manera eficiente. Esos algoritmos trabajan en dos etapas. En la primera etapa se calcula todos los lotes frecuentes con el soporte mnimo especificando por el usuario. En la segunda etapa se generan reglas empleando como datos los lotes frecuentes. Una vez identificados los lotes frecuentes, la generacin de todas las reglas posibles con el soporte mnimo especificado por el usuario es sencilla. Considrese el lote frecuente X con el soporte Sx identificando en la primera etapa del algoritmo. Para generar a una regla a partir de X se divide X en dos lotes, Izq. y Der. La confianza de la regla Izq. Der es Sx/S izq., la relacin entre soporte de X y el de Izq. A partir de la propiedad a priori se sabe que el soporte de Izq. es mayor que spin y, por tanto, se han calculado de soporte de Izq. en la primera etapa del algoritmo. Los valores de confianza de la posible regla se pueden obtener calculando la relacin Sop (X) / Sop (Izq.) y, luego, comparando su relacin. En General, la etapa ms costosa del algoritmo es el clculo de los lotes frecuentes, y se han desarrollado muchos algoritmos diferentes para llevar a cabo de manera eficiente. La generacin de reglas es dada por la capacidadad de 54
porder identificar todos los lotes frecuentes y larelacion que cada una de ellas tiene. Algoritmo de Ordenamiento Quicksort. Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html
Sea x un arreglo y n el nmero de elementos en arreglo que se debe ordenar. Elegir un elemento a de una posicin especifica en el arreglo (por ejemplo, a puede elegirse como el primer elemento del arreglo. Suponer que los elemento de x estn separados de manera que a est colocado en la posicin j y se cumplen las siguientes condiciones.
1.- Cada uno de los elementos en las posiciones de 0 a j-1 es menor o igual que a. 2.- Cada uno de los elementos en las posiciones j+1 a n-1 es mayor o igual que a.
Observe que si se cumplen esas dos condiciones para una a y j particulares, a es el j-simo menor elemento de x, de manera que a se mantiene en su posicin j cuando el arreglo est ordenado en su totalidad. Si se repite este procedimiento con los subarreglos que van de x[0] a x[j-1] y de x[j+1] a x[n-1] y con todos los subarreglos creados mediante este proceso, el resultado final ser un archivo ordenado. Ilustremos el quicksort con un ejemplo. Si un arreglo esta dado por:
x = [25 57 48 37 12 92 86 33]
y el primer elemento se coloca en su posicin correcta, el arreglo resultante es:
55
x = [12 25 57 48 37 92 86 33]
En este punto 25 esta en su posicin correcta por lo cual podemos dividir el arreglo en
x = [12] 25 [57 48 37 92 86 33]
Ahora repetimos el procedimiento con los dos subarreglos
x = 12 25 [48 37 33] 57 [92 86]
x = 12 25 33 [37 48] 57 [86] [92]
x = 12 25 33 [37 48] 57 86 92
x = 12 25 33 37 48 57 86 92
El procedimiento es entonces.
Buscar la particin del arreglo j. Ordenar el subarreglo x[0] a x[j-1] Ordenar el subarreglo x[j+1] a x[n-1]
56
Su implementacin en Java es: /************************************ public void quiksort(int x[],int lo,int ho)
int t, l=lo, h=ho, mid;
if(ho>lo)
mid=x[(lo+ho)/2];
while(l<h)
while((l<ho)&&(x[l]<mid)) ++l;
while((h>lo)&&(x[h]>mid)) --h;
if(l<=h)
{ 57
= x[l];
x[l] = x[h]; x[h] = t; ++l; --h; } } if(lo<h) quiksort(x,lo,h); if(l<ho) quiksort(x,l,ho); } } Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html
Leccion 13.Jerarquias.
En muchos casos
se
imponen una jerarqua, la jerarqua categrica hace
referencia al conjunto de artculos. En presencia de jerarquas cada transaccin contienen implcitamente, para cada uno de sus artculos, todos los ancestros de esos artculos en la jerarqua. Por ejemplo, considrese la jerarqua de categoras, dada esta jerarqua, la relacin compras se incrementan conceptualmente con los ocho registros es decir, la relacin compras tiene todas las Tuplas.. La jerarqua permite detectar las relaciones entre artculos de diferentes niveles de la jerarqua. Por ejemplo, el soporte del lote {tinta, Jugo} es del 50%, pero si se sustituye jugo por la categora ms General bebidas, el soporte del lote resultante {tinta, bebidas} aumenta en 75%. En General, el soporte de cada lote solo puede 58
aumentar y se sustituye un artculo por alguno de sus ancestros de la jerarqua ES. Es de anotar que el artculo en este caso es jugo, pero se debe tener en cuenta que su ancestro es la categora bebidas. Suponiendo que se aaden fsicamente la verdad los ocho registros de la
relacin compras, se puede emplear cualquier algoritmo para el clculo de los lotes frecuentes de la base de datos incrementada... Suponiendo que la jerarqua quepa en memoria principal, tambin se puede llevar a cabo la expresin sobre la marcha mientras examinan las bases de D a datos, a modo de optimizacin.
59
Papelera
Bebidas
Pluma
Tinta
Jugo
Leche
Figura 12. Taxonoma de una categora ES. IDTRANS IDCLI 111 111 112 112 113 113 114 114 201 201 105 105 106 106 201 201 FECHA 5/1/99 5/1/99 6/3/99 6/3/99 5/10/99 5/10/99 6/1/99 6/1/99 PRODUCTO CANTIDAD PAPELERIA BEBIDAS PAPELERIA BEBIDAS PAPELERIA BEBIDAS PAPELERIA BEBIDAS 3 9 2 1 1 1 4 5
FIGURA 13. INSERCIN EN LA RELACIN COMPRAS CON UNA JERARQUA.
60
Leccion 13.Redes Bayesianas.
La bsqueda de relaciones
causales suponen un desafo, si determinamos
sucesos estn relacionados, hay muchas explicaciones posibles. Por ejemplo, Supngase que las plumas, los lpices y la tinta se compran juntos con frecuencia. Pudiera ser que la compra de uno de estos artculos (por ejemplo, la tinta) dependiera casualmente de la compra de otro (por ejemplo, las plumas). O bien pudieran ser que la compra de uno de esos artculos (por ejemplo, las plumas) estuviese fuertemente correlacionado con la compra de otro de ellos (por ejemplo, los lpices) debido a algn fenmeno subyacente (por ejemplo, la tendencia de los usuarios a pensar a los instrumentos de escritura conjuntamente) que influyen casualmente en ambas compras. Cmo se identifican las relaciones casuales que se cumplen realmente entre estos sucesos en el mundo real? Un enfoque que se puede considerar para una posible combinacin de relaciones casuales entre las variables de los sucesos de inters y evaluar la posibilidad de cada combinacin con base en los datos disponibles. S se consideran cada combinacin de relaciones causales como un modelo del mundo real subyacente a los datos recolectados, se pueden asignar una puntuacin a cada modelo considerando su consistencia (frecuencia; en trminos de probabilidades, con algunas suposiciones simplificadoras) con los datos observados. /***Para una
mejor documentacin se debe hacerun repaso de las tematicas como las Redes Bayesianas, Teoria de Grafos, Arboles de decisin, Algoritmos de Quickshortetc; ya que no son el objetivo del curso) sin embargo se hace un resumen con la fuente para que el estudiante realice un repaso all o donde lo requiera***/
Las redes bayesianas son grafos que se pueden utilizar para escribir una clase de estos modelos, con un nodo por variable o suceso y arcos entre los nodos para 61
indicar la casualidad. Por ejemplo, un buen modelo de ejemplo de plumas, lpices y tinta puede verse en lafigura14en General, el nmero de modelos posibles es exponencial en el nmero de variables, y considerar todos los modelos resulta costoso, por lo que se evala algn subconjunto de todos los modelos posibles.
Pensar en instrumentos de escritura
Comprar plumasplplu mas plumas Comprar plumas lpices
Comprar tinta
FIGURA 14. GENERALIDAD DE UNA RED BAYESIANA
Leccion 14. Arboles de Decision. (Repaso)
Fuente: http://www.mitecnologico.com/Main/ArbolesDeDecision
El rbol de decisin es un diagrama que representan en forma secuencial condiciones y acciones; muestra qu condiciones se consideran en primer lugar, en segundo lugar y as sucesivamente. Este mtodo permite mostrar la relacin que existe entre cada condicin y el grupo de acciones permisibles asociado con ella. Un rbol de decisin sirve para modelar funciones discretas, en las que el objetivo es determinar el valor combinado de un conjunto de variables, y basndose en el valor de cada una de ellas, determinar la accin a ser tomada. Los rboles de decisin son normalmente construidos a partir de la descripcin de la narrativa de un problema. Ellos proveen una visin grfica de la toma de decisin necesaria, especifican las variables que son evaluadas, qu acciones deben ser tomadas y el orden en la cual la toma de decisin ser efectuada. Cada 62
vez que se ejecuta un rbol de decisin, solo un camino ser seguido dependiendo del valor actual de la variable evaluada.
Se recomienda el uso del rbol de decisin cuando el nmero de acciones es pequeo y no son posibles todas las combinaciones.
Uso de rboles decisiones. El desarrollo de rboles de decisin beneficia al analista en dos formas. Primero que todo, la necesidad de describir condiciones y acciones llevan a los analistas a identificar de manera formal las decisiones que actualmente deben tomarse. De esta forma, es difcil para ellos pasar por alto cualquier etapa del proceso de decisin, sin importar que este dependa de variables cuantitativas o cualitativas. Los rboles tambin obligan a los analistas a considerar la consecuencia de las decisiones. Se ha demostrado que los rboles de decisin son eficaces cuando es necesario describir problemas con ms de una dimensin o condicin. Tambin son tiles para identificar los requerimientos de datos crticos que rodean al proceso de decisin, es decir, los rboles indican los conjuntos de datos que la gerencia requiere para formular decisiones o tomar acciones. El analista debe identificar y elaborar una lista de todos los datos utilizados en el proceso de decisin, aunque el rbol de decisin no muestra todo los datos.
Si los rboles de decisin se construyen despus de completar el anlisis de flujo de datos, entonces es posible que los datos crticos se encuentren definidos en el diccionario de datos (Tener en cuenta lo aprendido en el curso de Base de Datos respecto a este aspecto), el cual describe los datos utilizados por el sistema y donde se emplean. Si nicamente se usan rboles de decisiones, entonces el analista debe tener la certeza de identificar con precisin cada dato necesario para tomar la decisin. Los rboles de decisin no siempre son la mejor herramienta para el anlisis de decisiones. El rbol de decisiones de un sistema complejo con muchas secuencias de pasos y combinaciones de condiciones puede tener un tamao considerable. El gran nmero de ramas que pertenecen a varias trayectorias constituye ms un problema que una ayuda para el anlisis. En estos casos los analistas corren el riesgo de no determinar qu polticas o estrategias de la empresa son la gua para 63
la toma de decisiones especficas. Cuando aparecen estos problemas, entonces es momento de considerar las tablas de decision.
Leccion 15. AlgoritmoC.45 Fuentes: 1. http://es.scribd.com/doc/57484779/Algoritmo-c45-Arboles-de-Decision 2. https://docs.google.com/a/unad.edu.co/viewer?a=v&q=cache:pr7QuqiJ4VgJ:su bversion.assembla.com/svn/easy7550/material/apuntes/AlgoritmoC4.5%28200 5-IIB%29.pdf+&hl=es&gl=co&pid=bl&srcid=ADGEESh_udX77m_hQeRfpIS7It_OD oZ2LhuaxOEEijoBFgUm5gS5NWlf41aS0zbbrxKqRFn7NziFq6NMSzDOqDbUHeWpfYGw2yW1k7BWI 0cIyC9zf3OwWb2Zc3NFuXxajFfl1U9btp&sig=AHIEtbRQX530TyZ_qKL8fcQxYlARFrbjA&pli=1
Algoritmo C4.5. : J.R. QUINLAN (1994): C4.5 para atributos continuos y discretos. J.R. Quinlan propone una mejora, una extensin del algoritmo ID3, al que denomina C4.5, estealgoritmo genera un rbol de decisin a partir de los datos mediante participaciones realizadasrecursivamente. El rbol se construye mediante la estrategia de profundidad primero (depth first).El algoritmo C4.5 utiliza una tcnica heurstica conocida como proporcin de ganancia (gainratio). Es una medida basada en informacin que considera diferentes nmeros y diferentesprobabilidades de los resultados de las pruebas.El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que le haya generado la mayor ganancia de informacin. Para cada atributodiscreto, se considera una prueba con n resultados, siendo n el nmero de valores posibles quepuede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria (1,0) sobrecada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe decidircual prueba escoge para dividir los datos.Segn Espino (2005) los tres tipos de pruebas posibles propuestas para el C4.5 son:
64
- La prueba estndar para las variables discretas, con un resultado y una rama para cada valor posible de la variable. - Una prueba ms compleja, basada en una variable discreta, en donde los valores posiblesson asignados a un nmero variable de grupos con un resultado posible para cada grupo, en lugar de para cada valor. -Si una variable A tiene valores numricos continuos, se realiza una prueba binaria conresultados A<=Z y A>Z, para lo cual debe determinar el valor limite Z.Todas estas pruebas se evalan observando la ganancia resultante de la divisin de datosqueproducen. Ha sido til agregar una restriccin adicional: para cualquier divisin al menos dos delos subconjuntos C(i) debe contener un nmero razonable de casos. Esta restriccin, que evita lassubdivisiones casi triviales, es tenida en cuenta solamente cuando el conjunto C es pequeo.
CARACTERSTICAS DEL ALGORITMO C4.5: - Permite trabajar con valores continuos para los atributos, separando los posiblesresultados en 2 ramas Ai<=N y Ai>N. -Los arboles son menos frondosos, ya que cada hoja cubre una distribucin de clases nouna clase en particular. -Utiliza el mtodo divide y vencers para generar el rbol de decisin inicial a partir de un conjunto de datos de entrenamiento. -Se basan en la utilizacin del criterio de proporcin de ganancia (gain ratio), definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las variables con mayor nmero de categoras salgan beneficiadas en la seleccin. -Es recursivo.
ATRIBUTOS USADOS POR EL ALGORITMO C4.5.
Los atributos o variables poseen caractersticas propias que las diferencian una de las otras, existen algoritmos que solo se desarrollan para atributos en particular, en el caso del algoritmoC4.5, los atributos para los cuales se desarrollo dicho algoritmo son los siguientes
65
Atributos de valores continuos: El algoritmo C4.5 no solo se desarrolla para atributos de valoresdiscretos como en el caso del algoritmo ID3 tambin se pueden incorporar atributos con valorescontinuos, se transforma estas variables o atributos en variables categricas; es decir, se dividenestos valores en intervalos discretos, de forma que el atributo tendr siempre valorescomprendidos en uno de estos intervalos. Medidas alternativas en la seleccin de atributos: El algoritmo ID3 utiliza la ganancia deinformacin, para la eleccin del atributo, sin embargo estos atributos no son buenos predictoresde la funcin objetivo para nuevos ejemplos, ya que dicha ganancia introduce un sesgo quefavorece a los atributos con muchos valores distintos, debido a que dividen el conjunto deejemplos en muchos subconjuntos, lo que hace que la ganancia de informacin seaalta. Una medida alternativa que propuso Quinlan (1993) fue la gatin ratio (proporcin de ganancia)ganancia que usa el algoritmo C4.5 y que ha resultado un xito.
Atributos con valores perdidos: En ciertos casos existen atributos de los cuales se conoce su valor para algunos ejemplos, y para otros no. En estos casos lo ms comn es estimar el valorbasndose en otros ejemplos de los que si se conoceel valor. Normalmente se fija la atencinen los dems ejemplos de ese mismo nodo. As, al ejemplo de valor desconocido se le da el valorque ms aparezca en los dems ejemplos. Actividad de cierre Capitulo III
Usando las referencias del modulo y algunas de internet, de documentacin y anlisis de corte acadmico, ejemplarizar un caso desde el punto de vista de: 1. El algoritmo de Quicksort. 2. El algoritmo C.45. 3. Redes Bayesianas 4. Arboles de decisin.
66
UNIDAD II PROCESO DE MINERIA DE DATOS.
2.1. CapituloIV: El Modelo de CRISP DM.
Leccion 16. Generalidades
La metodologa crips-dm es un modelo procesos jerrquico. El nivel superior, el proceso se divide en seis fases genricas distintas, que van desde la comprensin del negocio hasta la implementacin de los resultados del proyecto. El siguiente nivel refina cada una de esas fases, que estn compuestas de diversas tareas genricas. En este nivel, la descripcin de lo suficientemente genrica como para abarcar todos los escenarios de minera de datos. El tercer nivel especializa dichas tareas para situaciones especficas. Por ejemplo, la tarea genrica puede ser la limpieza de los datos, y la tarea especializada sera la limpieza de valores numricos o de valores de categoras. El cuarto nivel es la instancia de proceso, es decir, un registro de acciones, decisiones y resultados de una ejecucin real de un proyecto de minera de datos. El modelo tambin analiza las relaciones entre las diferentes tareas de minera de datos. Proporciona una secuencia idealizada de acciones que debe tener lugar durante un proyecto de minera de datos; sin embargo, no trata de dar todas las posibles rutas que puede seguirse para llevar a cabo esas tareas. En la tabla 2. Se muestran las diferentes fases del modelo.
67
Fase comprensin del negocio comprensin de los datos Preparacin de los datos Modelado evaluacin Evaluacin Implantacin
TABLA 2. FASES DE MODELO CRIPS-DM. A continuacin vamos a describir brevemente el objetivo de cada fase del modelo CRISP-DM(Cross- Industry Standard Process for Data Mining) en las tareas asociadas con cada una de ellas, aunque vale mencionar que existe tambin la metodolgia SEMMA (Sample, Explore, Modify, Model, Assess) la cual no se abordara ya que es orientada a los productos SAS los cuales son propietario. Siendo estas dos las mas usadas en el proceso de MD. Fuentes: 1. http://anibalgoicochea.com/2009/08/11/crisp-dm-una-metodologia-paraproyectos-de-mineria-de-datos/ 2. http://www.josebhuerta.com/datamining.htm
68
Leccion 17. Comprensin del Negocio. Objetivos y requerimientos desde una perspectiva no tcnica
Esta fase se centra en comprender los requisitos de objetivos del proyecto desde la perspectiva del negocio, esta fase convierte el problema de negocio en una definicin del problema de minera de datos y prepara el plan preliminar para el proyecto. Las principales tareas implicadas son: determinar los objetivos del negocio, evaluar la situacin, determinar el objetivo de la minera de datos y generar un Plan de proyecto. En esta fase es muy importante ser explicitos en el desarrollo de la Comprension del negocio pero a la vez ser muy acertados para determinar las necesidades de informacin y todo lo referente al objeto de negocio; aqu no hay limites ni menos criterios de actuacin, todo lo determina y lo aduce cada estudiante que hace el anlisis, para ello se basa en diagramas organizacionales, diagramas basados en UML, organigramas por objetivos y funciones, etc, es decir todo aquello que puedan indicar e ilustrar el qu del negocio. La documentacin es muy importante para el buen desarrollo del modelo CRISP- DM. En esta etapa se deben documentar los procesos de:
Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de xito, etc) Evaluacin de la situacin (Inventario de recursos, requerimientos, supuestos, terminologas propias del negocio,) Establecimiento de los objetivos de la minera de datos (objetivos y criterios de xito, lo que se quiere lograr) Generacin del plan del proyecto (plan, herramientas, equipo y tcnicas)
69
Leccion 18. Comprensin de los datos. Aqu se debe familiarizar con los datos teniendo presente los objetivos del negocio, detallados en la etapa anterior, si e la etapa anterior no se fue suficiente para poder documentar no se lograra aqu un buen resultado.
Esta fase incluye las tareas de recopilacin inicial de los datos y preocupa de establecer las principales caractersticas de estos. Dichas caractersticas incluyen la estructura de datos, la calidad de los datos y la identificacin de los posibles conjuntos de inters de los datos. Las tareas incluidas en esta fase que se deben documentar son: Recoleccin de los datos inciales ( Ingenieria de requisitos) Descripcin de los datos. Diagramas de flujo. Exploracin de los datos. Coherencia de los datos, con su funcin y su entorno Verificacin de la calidad de los datos.Integridad de los datos respecto al servicio que prestan y la la utilidad que brindan. Diccionario de datos. Integridad de los datos desde sus antecesores y para sus servidores. Vida til de la informacin y reusabilidad de datos.
Preparacion de los Datos (Obtener la vista minable o dataset).
Esta fase implica todas las actividades para construir el conjunto de datos final al que puedan aplicar ese directamente las herramientas de modelado. Las tareas que componen esta fase son: Seleccin de datos. 70
Limpieza de los datos. Construccin de los datos. Iintegracin de los datos. Formateo los datos.
Esta es una etapa crtica. En esta etapa se acondicionan los datos que luego van a alimentar el modelo o la herramienta de anlisis. La salida de esta etapa es uno o varios conjuntos de datos que sern utilizados por la etapa de modelado y validacin, para ello se recomienda realizar un informe donde describa los conjuntos de datos generados en esta etapa. Las tareas que se deben ejecutar son: Decidir los datos a utilizar para el anlisis. Los criterios deben incluir la relevancia para el objetivo de minera de datos, calidad y restricciones, tcnicas (volumen o tipos dedatos). La seleccin implica la seleccin tanto de los atributos como deregistros.
Las salidas de esta etapa son:
La lista de datos, incluidos/excluidos y lasrazones de ello. La inclusin / exclusin de registros, (pacientes) es devital importancia en protocolos en ciertos casos o que se aplique en areas como la medicina. La inclusin/exclusin de atributos, suele ser en smismo un problema de la mineria de datos.
En la preparacin de los Datos, se debe hacer una seleccin teniendo en cuenta: Cuantos datos son suficientes ? Test de Hiptesis ? Variable continuo o nominal ? Machine Lerning ?
71
Entranamiento/Validacin/Evaluacin ?
Leccion 19. Modelado. Esta fase es la operacin de minera de datos propiamente dicha e implica seleccionar las tcnicas de modelado, seleccionar los parmetros de modelado y evaluar el modelado creado. Las tareas de esta fase son: Seleccionar la tcnica modelado Generar el diseo de prueba Construir al modelado Evaluar el modelo. Es importante establecer una relacin entre las variables explicativas y las variables objeto del estudio, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado. Las tcnicas utilizadas para el modelado de los datos incluyen mtodos estadsticos tradicionales (tales como anlisis discriminante, mtodos de agrupamiento, y anlisis de regresin), as como tcnicas basadas en datos tales como redes neuronales, tcnicas adaptativas, lgica fuzzy, rboles de decisin, reglas de asociacin y computacin evolutiva. Finalmente, la ltima fase del proceso consiste en la valoracin de los resultados mediante el anlisis de bondad del modelo o modelos, contrastado con otros mtodos estadsticos o con nuevas poblaciones muestrales.
72
Leccion 20. Evaluacion e Implantacin.
Esta fase vlida el modelo desde el punto de vista del anlisis de los datos. El model y las etapas seguidas durante el modelado se verifican dentro contexto de la consecucin de los objetivos de negocio. Las tareas incluidas en esta fase son: Evaluacin de los resultados Revisin del proceso Determinacin de los pasos siguientes repetitivos.
Implantacin: el conocimiento obtenido y reflejado en el modelo tiene que organizarse y presentarse de una forma que sea comprensible por parte de los usuarios de la organizacin. La fase de implementacin puede ser tan simple como generar un informe o tan compleja como implementar procesos repetidos de minera de datos por toda la empresa. El usuario de la empresa es quien se encarga normalmente de ejecutar la fase de implementacin. Los pasos correspondientes son dos. Planificacin de la implementacin y produccin del informe final y revisin del mismo.
Actividad de cierre Capitulo IV Usando la explicacin del capitulo IV, buscar un ejemplo en el entorno y aplicarle las etapas del modelo de CRIPS-DM, ayudndose de las herramientas necesarias para crear un informe ejecutivo a la empresa en estudio. 73
74
2.2 Capitulo V. Herramientas de Minera de Datos Las herramientas de la primera etapa ofrecen tpicamente a los usuarios un
simple algoritmo de mineria de datos que opera sobre un conjunto de datos almacenados de manera local. Algunos ejemplos incluyen el uso de algoritmos de clasicacin como el C4.5, algoritmos de agrupamiento como el K-means y otros algoritmos basados en reglas de asociacin. Tales herramientas fueron presentadas como programas independientes, obteniendo sus datos de entrada desde la linea de comandos o va a un archivo de con guracin.
Las herramientas de la segunda etapa combinan una coleccin de diferentes algoritmos de minera de datos sobre un marco de trabajo comn, y permiten a los usuarios proveer datos de entrada de varias fuentes de datos. A continuacin se describen algunas de estas herramientas:
Leccion 21. WEKA
(Waikato Environment for Knowledge Analysis - Entorno para Anlisis del Conocimiento de la Universidad de Waikato), desarrollado por la Universidad de Waikato en Nueva Zelanda.
Es un sistema escrito en Java y distribuido bajo los trminos de la licencia pblica GNU. Contiene una coleccin del estado del arte de los algoritmos de aprendizaje maquina y herramientas de reprocesamientode datos escritos en Java. Provee un soporte extenso para el proceso completo de minera de datos, incluyendo la 75
preparacin de los datos de entrada, la evaluacin de los esquemas de aprendizaje, la visualizacinde los datos de entrada y de los resultados del aprendizaje. Esta herramienta es accedida comnmente a travs de una interfaz comn para que sus usuarios puedan comparar diferentes mtodos e idnticas esos que sean ms apropiados para el problema a tratar. Puede ser ejecutado desde casi cualquier plataforma y ha sido probado sbrelos sistemas operativos Windows, Linux y Macintosh. En Weka, las herramientas de la segunda etapa combinan una coleccin de diferentes algoritmos de mineria de datos sobre un marco de trabajo comn, y permiten a los usuarios proveer datos de entrada de varias fuentes de datos.
Weka contiene una coleccin del estado del arte de los algoritmos de aprendizaje maquina y herramientas de preprocesamientode datos escritos en Java. Provee un soporte extenso para el proceso completo de mineria datos, incluyendo la preparacin de los datos de entrada, la evaluacin de los esquemas reaprendizaje, la visualizacin de los datos de entrada y de los resultados del aprendizaje.
Esta herramienta es accedida comnmente a travs de una interfaz comn (Figura 15) para que sus usuarios puedan comparar diferentes mtodos e idntica esos que sean ms apropiados para el problema a tratar. en Weka, todo el preproceso de mineria de datos se realiza en una sola computadora, dado que los algoritmos pueden ser ejecutados solo localmente, lo que demanda una gran cantidad de memoria principal maxime cuando la base de entrenamiento (datos de entrada) son grandes volmenes de informacin. El objetivo principal de Weka son los algoritmos de clasicacin, los cuales mapean un conjunto de instancias con base en un conjunto finito de clases. Cada instancia de los datos es descrita por los valores de sus atributos. Por ejemplo, predecir si va a llover basado en la observacin de datos se realiza en una sola computadora, dado que los algoritmos pueden ser ejecutado solo localmente. 76
FIGURA 15. EXPLORADOR DE WEKA.
Clasicacin. La meta del proceso de obtencin de un clasicador, es derivar un clasicador de un conjunto etiquetado de datos (un conjunto de instancias de datos que tienen asignada su clase correspondiente). La idea es que un clasicador obtenido del conjunto de datos etiquetados pueda ser usado para predecir las clases de instancias de datos futuras.
Leccion. 22. IlliMine.
Es otra herramienta de minera de datos la cual es un paquete libre, implementado en C++ y desarrollada por el Departamento de Ciencias Computacionales de la Universidadde Illinois en conjunto con el Data Mining Resecar Group y el DAIS (Data And Informacin Sistemas) Resecar Laboratorio. Ilimine incluye algoritmos de data cubing, asociacin, mineria de patrones secuenciales, minera de 77
patrones grcosy clasicacin.
Leccion. 23 Rattle.
Usada para analizar colecciones de datos muy grandes. Rattle presenta resumenes estadsticos y visuales de datos, transforma los datos en formas que pueden ser fcilmente modeladas, construye modelos supervisados y no supervisados a partir de los datos, presenta el rendimiento de los modelos graficamente y da una puntuacin a los conjuntos de datos nuevos.
A travs de una interfaz de usuario simple y lgica basada en Gnome puede ser usado para realizar proyectos de minera de datos. Es posible tambin realizar proyectos de minera de datos ms especializados haciendo uso del lenguaje estadstico de licencia libre.
Rattle puede ser ejecutado sobre plataformas GNU/Linux, Macintosh OS/X y Windows. Su objetivo es proveer una interfaz intuitiva que lleve al usuario a travs de los pasos bsicos de la minera de datos, al igual que ilustrar el cdigo R usado para lograr esto. Tambin provee un punto de apoyo para el procesamiento y modelado ms sofisticado en lenguaje R puro, as como para minera de datos avanzada y sin restricciones.
Leccion 24. Rapid Miner
Rapid Miner (ms formalmente conocido como YALE) es una de las principales herramientas para prototipo y minera de datos a nivel mundial de licencia pblica. Desarrollado puramente en Java, contiene una API para su fcil uso desde programas de terceros. Ofrece una amplia variedad de diferentes algoritmos y mtodos los cuales pueden ser combinados de manera accesible y anidada 78
arbitrariamente. Yale abstrae sus mtodos bajo el concepto de operadores contando con ms de 400, y ofrece un enfoque de combinacin de operadores como un grafo dirigido para representar el proceso de descubrimiento de conocimiento (Knowledge Discover).
En este enfoque cada vrtice del rbol corresponde a un operador sencillo, permitiendo a los usuarios la fcil incorporacin de ciclos dentro de sus experimentos. Los ciclos son esenciales para muchas tareas como optimizacin de parmetros, seleccin de caractersticas o la aplicacin de mtodos de aprendizaje iterativos. Yale provee un sistema interno de administracin de datos, permitiendo vistas arbitrarias de los datos sin la necesidad de duplicarlos. Esto es esencial para construcciones a gran escala o para la simulacin de minera de datos distribuida. Esta administracin de los datos tambin hace posible manejar los datos tan transparente como sea posible ante los usuarios y desarrolladores. Finalmente YALE es fcil de extender dado que muchos plugins que enriquecen su funcionalidad base ya existen. Estos plugins actualmente cubren texto, audio, series de tiempo, procesamiento multimedia, simulacin de lujo de datos, agrupamiento y minera de datos distribuida.
Leccion. 25. Knime.
Knime es una plataforma modular de datos que permite al usuario crear visualmente dibujos de los datos. Permite ejecutar selectivamente algunas o todas los pasos del anlisis para posteriormente consultar los resultados a travs de vistas interactivas sobre datos y modelos. La versin base de Knime incorpora ya ms de 100 nodos de procesamiento para entrada/salida de datos, procesamiento y limpieza, modelado, anlisis y minera de datos entre otras cosas.
Incluye todos los modulos de anlisis de WEKA y los plugings adicionales que 79
premiten de sripts de cdigo R para que sean ejecutados ofreciendo un gran acceso a bibliotecas de rutinas estadsticas. Est basado en la plataforma Eclipse y brinda una fcil extensibilidad con ayuda de su API modular.Subsecuentemente, aparecieron las herramientas de la tercera etapa, que se enfocan en resolver las limitantes para trabajar sobre un modelo cerrado, esto es localmente, como lo hacen las herramientas de la segunda generacin. Algunos ejemplos de herramientas de la tercera generacin son los siguientes:
Actividad de Cierre Capitulo V.
Realizar un paralelo de al menos 5 herramientas para el proceso de Mineria de Datos haciendo nfasis en las ventajas y desventajas de cada una de las que se mencionen.
2.3. Capitulo VI Ambientes de Trabajo en Grid
Leccion 26. Grid WEKA
Grid Weka es una herramienta desarrollada en la Universidad de Dubln que mdifica Weka para permitir el uso de mltiples recursos computacionales mientras se ejecuta el anlisis de datos. En este sistema, un conjunto de tareas de minera de datos pueden ser distribuidas a travs de muchas computadoras en un ambiente ad-hoc o cerrado.
Las tareas que pueden ser ejecutadas usando Grid Weka incluyen: construir un clasicador en una mquina remota, clsifica un conjunto de datos empleando un clasicador previamente construido, probar un clasicador con un conjunto de datos o empleando validacin cruzada, etc. Est constituido de dos componentes 80
principales: Weka Server y Weka Cliente. El servidor est basado en el Weka original.
FIGURA 16. GRID WEKA, ESCENARIO DE USOS.
Cada mquina que participa en un Weka Grid es controlada desde el servidor. El cliente Weka es el responsable de aceptar una tarea de aprendizaje y los datos de entrada de los usuarios para distribuir el trabajo sobre el Grid. A la vez, el cliente implementa la funcionalidad necesaria para el balanceo de carga y el monitoreo de fallas. El servidor traduce las peticiones del cliente en llamadas a las funciones Weka correspondientes. Tambin ofrece funcionalidades adicionales como la recuperacin de fuentes de datos del servidor de almacenamiento local despus de una falla. La figura 16 ilustra un escenario de usos.
An cuando el Grid Weka provee una manera de usar mltiples recursos para ejecutar tareas de minera de datos de manera distribuida, ste fue diseado para trabajar dentro de un ambiente ad-hoc, el cual no constituye un Grid por s mismo.
De manera particular, la invocacin de los recursos remotos en Grid Weka no est orientada a servicios y hace uso de soluciones especc as que no toman en consideracin los aspectos fundamentales del Grid, como la interoperabilidad, 81
seguridad, etc.
Los creadores proponen una arquitectura para construir un sistema colaborativo y distribuido de descubrimiento de conocimiento dentro de un ambiente de cmputo basado en el Grid.
Este es un enfoque genrico originado de la necesidad de procesos de descubrimiento de conocimiento en la industria bio-informtica, donde los
procesos complicados de anlisis de datos son construidos usando un enfoque en pipeline. A su vez ellos proponen la implementacin de su arquitectura.
Leccion 27. Discovery Net
Discovery Net es una herramienta que provee un modelo de cmputo orientado a servicios, permitiendo a los usuarios conectarse y hacer uso del software de anlisis de datos al igual que las fuentes de datos que son hechas para estar disponibles en lnea a los clientes.
FIGURA 17. COMPONENTES DE DISCOVERY NET. Est basado en una visin amplia que se enfoca en soportar el proceso completo, desde la captura hasta la visualizacin. Sin embargo, Discovery Net no est 82
pensado como una herramienta de uso directo, sino que necesita del trabajo conjunto de desarrolladores y clientes para dirigir el proceso del descubrimiento del conocimiento. La Figura 17. Muestra los componentes de la arquitectura.
De igual manera presenta una arquitectura de software basada en servicio para minera de datos distribuida y de alto rendimiento en ambientes Grid y su implementacin llamada Criminar. En este trabajo presentan dos modelos de ejecucin para el servicio de minera de datos. El primero es una adaptacin al Grid de la herramienta Weka al que llamaron Minera de datos centralizada y el segundo es una versin distribuida del mismo que hace uso.
83
Leccion 28. Componentes de un Modelo GridMiner
FIGURA 18. COMPONENTES DE GRIDMINER. Cada vez hay ms herramientas comerciales de minera de datos en el mercado, las caractersticas ms importantes de las herramientas de minera de datos son la preparacin de los datos, la seleccin de las operaciones de minera de datos (algoritmos), la escalabilidad, las presentaciones del producto y las
funcionalidades disponibles para comprender los resultados. Preparacin de los datos: la preparacin de los datos es el aspecto de la minera de datos que ms tiempo requiere. Toda accin que una herramienta pueda proporcionar para facilitar el proceso permitir acelerar en gran medida el desarrollo del modelo entre las opciones que una herramienta pueda proporcionar para dar soporte a la preparacin de los datos, a lo cual se puede mencionar: Limpieza de los datos como. por ejemplo solucionar el problema de la falta de determinados datos Destruccin de los datos, por ejemplo la distribucin de los valores Transformacin de los datos, realizar clculos existentes. 84 partiendo de columnas
Muestreo de los datos, para la creacin de conjuntos de datos para el proceso entrenamiento y validacin.
Seleccin de las operaciones de minera de datos (algoritmo): Es importante comprender las caractersticas de las operaciones (algoritmos) utilizados por una herramienta en minera de datos, con el fin de asegurarse de que cumplan los requisitos del usuario o lo que se persigue para predecir. En particular, es importante establecer cmo tratar los distintos algoritmos los tipos de datos de las variables de respuesta y variables productoras, la rapidez con la que llevan a cabo la fase de entrenamiento y la velocidad con la que operan sobre los nuevos datos (una variable productora es la columna de una base de datos que se puede utilizar para construir un modelo productor, con el fin de predecir los valores de otra columna). Otra caracterstica importante de un algoritmo es su sensibilidad al ruido (el ruido y es la diferencia entre un modelo y sus predicciones. En ocasiones, decimos que los datos son ruidos cuando contienen errores tales como muchos valores incorrectos e inexistentes, o cuando hay columnas irrelevantes). Es importante establecer la sensibilidad a la falta de datos de un algoritmo dado y verlo robusto que son los patrones que dicho algoritmo descubre en presencia de datos irrelevantes o incorrectos. Estabilidad y presentaciones del producto: la estabilidad y las prestaciones son consideraciones de gran importancia a la hora de seleccionar una herramienta que sea capaz de tratar cantidades de datos crecientes, (en trminos el nmero de filas ni el nmero de columnas), posiblemente con sofisticados controles de validacin. La necesidad de proporcionar estabilidad al mismo tiempo que se mantienen unas prestaciones satisfactorias, requiere investigar las herramientas capaces de soportar el procesamiento paralelo utilizando tecnologas tales como SMP o MPP.
85
Funcionalidades para comprender los resultados: una buena herramienta de minera de datos debera ayudar al usuario a comprender resultados, proporcionando medidas que describan la precisin y lo significativo de los datos, en un formatos til es (por ejemplo, matrices de confusin, que ser el usado en los ejemplos de la practica del modulo) y permitiendo al usuario realizar anlisis de sensibilidad sobre el resultado; tambin debe presentarse los resultados en formas alternativas (utilizando, por ejemplo, tcnicas de visualizacin). Una matriz de confusin muestra el nmero real de valores de una clase, comparndolo con el nmero predicho. No slo ilustra la capacidad predictiva del modelo, sino que tambin presentan los detalles necesarios para ver exactamente donde pueden estar fallando las cosas. El anlisis de sensibilidad determina la diferencia de un modelo predictivo con respecto a los resultados del producto. Mediante esta tcnica, los usuarios finales pueden evaluar los efectos que las variables ruido hicieron respecto a los cambios sobre la precisin del modelo. Las tcnicas de visualizacin permiten mostrar los datos grficamente para facilitar una mejor comprensin de su significado. Las capacidades grficas de las herramientas van desde la elaboracin de simples grficas de dispersin hasta representaciones multidimensionales complejas.
Leccin 29. Mineria de Datos y Almacenes de Datos en ODM.
Uno de los desafos para las organizaciones que pretendan aprovechar las tcnicas de minera de datos es identificar los datos ms adecuados para aplicarles estas tcnicas. La minera de datos requiere una fuente de datos unificada, independiente, limpia, integrada y auto-coherente. Un almacn de datos est bien preparado para proporcionar los datos que la minera de datos requiere, por las siguientes razones: 86
La calidad y la coherencia de los datos son prerrequisitos para la minera de datos con el fin de garantizar la precisin de los modelos predictivos, los almacenes de datos albergan datos limpios y coherentes. Resulta conveniente aplicar la minera de datos a datos procedentes de mltiples fuentes, con el fin de descubrir el mximo nmero posible de interrelaciones. Los almacenes de datos contienen datos procedentes de diversas fuentes. La seleccin de los subconjuntos de registros y campos relevantes para la minera de datos requiere disponer de las capacidades de consulta de un almacn de datos. Los resultados de un estudio de minera de datos son tiles si existe alguna manera de continuar investigando los patrones no descubiertos. Los almacenes de datos proporcionan la capacidad de acudir de nuevo al origen de los datos. Dada la naturaleza complementaria de las tcnicas de minera de datos y de los almacenes de datos, muchos fabricantes estn investigando formas de integrar ambos tipos de tecnologas.
Leccin 30. Oracle DataMinig (ODM)
En los grandes entornos de almacenes de datos pueden realizarse muchos tipos diferentes de anlisis, adems de consultas SQL, tambin se pueden aplicar operaciones analticas ms avanzadas a los datos. Los dos tipos principales de anlisis son el procedimiento analtico en la lnea (OLAP, Online Analytical Procesing) y la minera de datos. En lugar disponer de los motores independiente para OLAP y para minera de datos, oracle ha integrado las capacidades OLAP y la minera de datos directamente en el servidor de bases de datos. 87
Oracle OLAP y oracle data mining (ODM) son opciones para las bases de datos montadas en oracle9i Capacidad de la Mineria de Datos.
Oracle permite realizar la minera de datos dentro las bases de datos, por razones de presentaciones y estabilidad. Algunas de las capacidades de sus productos son: Una API que permite el control programtico y la integracin con las aplicaciones. Capacidades analticas que incluye mecanismos OLAP y funciones estadsticas en las bases de datos. Mltiples algoritmos: Teoria de bayes simple, arboles de decisin, agrupamientos y reglas de asociacin. Modos de puntuacin en tiempo real y por lotes. Mltiples tipos de predicciones. Detalles de asociaciones.
Actividad de Cierre Capitulo VI.
Hacer un estado del arte de las herramientas que actualmente se usan y una verificacin de que empresas han aplicado herramientas de Mineria de Datos y cual de ellas ha servido para el apoyo a la toma de decisiones.
88
UNIDAD III. Contexto de la Mienra de Datos Capitulo VII. Causas de aplicacin de la Minera de Datos.
1. Crecimiento del volumen de datos:
2. Problemas en la exposicin de informacin
3. Surgimiento e implementacin del concepto de data warehouse, data mart, (CIF) corporate information factory.
FIGURA 19. CONTEXTO DE BASES DE DATOS FRENTE A DATA MINING.
89
Aplicaciones Actuales 1. Minera de datos aplicado al audio, por ejemplo: Detector de mentiras, patrones secuenciales aplicados a seguridad, etc. 2. Minera de datos aplicado a la calidad de datos (Laboratorios de precision, estadstica cuntica, fsica estadstica, etc. 3. Minera de datos como parte del proceso ETL (Extraction, Trasnformation & Load in Data Warehousing) 4. Minera de datos aplicado a la exploracin de cuencas petroleras, (Apoyo a los podelos topogrficos, etc 5. Minera de datos aplicado al trfico de comunicaciones (Deteccin de fraudes, modelos de comunicacin, etc ) 6. Web mining (Entorno semiestructurado) 7. Web Usage Mining: Anlisis de log de servidores para anlisis del patrn de recorrido y consumo del cibernauta (Ej.: Amazon, ebay, mercadolibre, etc) 8. Web Content Mining: Hace hincapi en el contenido de los documentos 9. Web Estructure Mining: se enfoca la web como grafo dirigido (Page Rank, Comunidades, etc.) tambin se conoce como web structure mining exploring the graph structure of the world-wide web, area de mucho auge y en la cual se puede realizar grandes avances orientados a la nube.
Fuente: http://www.interacciones.com.ar/web-mining-en-el-diseno-de-sitios-web/
Leccion 31. WEB Mining y Text Mining
Una de las extensiones del data mining consiste en aplicar sus tcnicas a documentos y servicios del Web, lo que se llama web mining (minera de web) (Koala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, cokies, etc.) que los servidores 90
automticamente almacenan en una bitcora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir informacin significativa, por ejemplo, cmo es la navegacin de un cliente antes de hacer una compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hipervinculos, investigaciones recientes usan el trmino multimedia data mining (minera de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del web mining.
Normalmente, el web mining puede clasificarse en tres dominios de extraccin de conocimiento de acuerdo con la naturaleza de los datos: Web content mining (minera de contenido web). Es el proceso q ue consiste en la extraccin de conocimiento del contenido de documentos o sus descripciones.
La localizacin de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexacin o la tecnologa basada en agentes tambin pueden formar parte de esta categora. Web structure mining (minera de estructura web). Es el proceso de inferir conocimiento de la organizacin del WWW y la estructura de sus ligas. Web usage mining (minera de uso web). Es el proceso de extr accin de modelos interesantes usando los de los accesos al web.
Algunos de los resultados que pueden obtenerse tras la aplicacin de los diferentes mtodos de web mining son:
91
El ochenta y cinco por ciento de los clientes que acceden a la pgina home d e productos y a la de noticias de la misma pgina acceden tambin a la pgina del historial. Esto podra indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan al historial de sucesos. Igualmente, este resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina principal de la empresa. El sesenta por ciento de los clientes que hicieron una compra en lnea en la pgina del producto 1 tambin compraron en la pgina del producto 4 despus de un mes. Esto indica que se podra recomendar en la pgina del producto 1 comprar el producto 4 y ahorrarse el costo de envo de este producto.
Los anteriores ejemplos ayudan a formar una pequea idea de lo que se puede obtener, sin embargo, en la realidad existen herramientas de mercado muy poderosas con mtodos variados y visualizaciones grficas excelentes.
Text mining
Estudios recientes indican que el ochenta por ciento de la informacin de una compaa est almacenada en forma de documentos. Sin duda, este campo de estudio es muy grande, por lo que tcnicas como la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacino el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto).
En ocasiones se confunde el text mining con la recuperacin de la informacin (Information Retrieval o IR) (Hearst, 1999). sta ltima consiste en la recuperacin automtica de documentos relevantes mediante indexaciones de textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante, en cambio, el text mining se refiere a examinar 92
una coleccin de documentos y descubrir informacin no contenida en ningn documento individual de la coleccin; en otras palabras, trata de obtener informacin sin haber partido de algo (Nasukawa y otros, 2001).
Una aplicacin muy popular del text mining es relatada en Hearst (1999).
Don
Swanson
intenta
extraer
informacin
derivada
de
colecciones
de
texto.Teniendo en cuenta que los expertos slo pueden leer una pequea parte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otros campos. As, Swanson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura mdica pueden conducir a hiptesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental, investigando las causas de la migraa, dicho investigador extrajo varias piezas de evidencia a partir de ttulos de artculos presentes en la literatura biomdica. Algunas de esas claves fueron: El estrs est asociado con la migraa. El estrs puede conducir a la prdida de magnesio. Los bloqueadores de canales de calcio previenen algunas migraas. El magnesio es un bloqueador natural del canal de calcio. La depresin cortical diseminada (DCD) est implicada en algunas migraas. Los niveles altos de magnesio inhiben la DCD. Los pacientes con migraa tienen una alta agregacin plaquetara. El magnesio puede suprimir la agregacin plaquetara.
Estas claves sugieren que la deficiencia de magnesio podra representar un papel en algunos tipos de migraa, una hiptesis que no exista en la literatura y que Swanson encontr mediante esas reglas. De acuerdo con Swanson (Swanson y otros, 1994), estudios posteriores han probado experimentalmente esta hiptesis obtenida por text mining con buenos resultados.
93
Una arquitectura para Data Mining Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el data warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos para extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Informacin histrica sobre potenciales clientes tambin provee una excelente base para una prospectiva. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rpido.
Recopilacin y Almacenes de datos
La proliferacin de sistemas de informacin sustntados en bases de datos ha generalizado el uso de herramientas que permiten obtener resmenes e incluso el uso de herramientas que permiten obtener informes complejos, resmenes e incluso estadsticas globales sobre la informacin almacenada con el objetivo de asistir en la toma de decisiones. La mayora de sistemas comerciales de gestin de bases de datos incluyen herramientas de informes avanzados , inteligencia de negocio sistemas de informacin ejecutivos (EIS, Executive informacin Sistemas) y otras, que pese su nombres variados intentan realizar un 94
procedimiento
analtico de la informacin , ms
que el
procesamiento
transaccional habitual realizado por las aplicaciones del da Leccion 32.OLTP Y OLAP
Con las siglas OLPT Y OLAP se denominan dos tipos de procesamiento muy diferentes: OLTP (ON-Line Tarnsational Processing) El procesamiento de
transaccin en tiempo real constituye el trabajo primario en un sistema de informacin Este trabajo consiste en realizar transacciones, es decir actualizaciones y consultas a la base de datos aplicaciones con un objetivo
operacional: Hacer
funcional las
de la organizacin,
proporcionar informacin sobre el estado del sistema de informacin que permita actualizarlo conforme va variando la realidad del contexto de la organizacin Ejemplo el caso de una empresa, la insercin de un nuevo cliente, el cambio de sueldo de un empleado, el tramite de un pedido, el almacenamiento de una venta, la impresin de una factura, la baja un producto, etc. Es el trabajo diario y para el que inicialmente se ha diseado las bases de datos. OLAP (On-Line analytical processing) El procesamiento analtico en tiempo real engloba un conjunto de operaciones , exclusivamente de consulta, en las que se requieren agregar y cruzar gran cantidad de informacin .El objetivo de estas consultas es realizar informes y resmenes, generalmente para el apoyo en la toma de decisiones. Ejemplos de este tipo de trabajo analtico puede ser resmenes de ventas mensuales, los consumos
electrnicos por das, la espera media de los pacientes en ciruga digestiva de un hospital, el producto cuyas ventas han incrementado en el ltimo trimestre, las llamadas por horas, etc. Este tipo de consultas suelen
95
emanarse de los departamentos de direcciones, logsticas o prospectiva y requieren muchos recursos. Una de las caractersticas de ambos procesamientos es que se pretende que sean on-line es decir, que sean relativamente instantneos y se puedan realizar en cualquier momento (en tiempo real).
Leccion 33. Bases de datos de transacion Un Almacn de datos es un conjunto de datos histricos, internos o externos, y descriptivos de un contexto o rea de estudio, que estn integrados y organizados de tal forma que permite aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratgicas. La ventaja fundamental de un almacn de datos es su diseo especfico y superacin de la base de datos transaccional.Un almacn de datos: Facilita el anlisis de los datos en tiempo real (OLAP). No difiere el OLTP de las bases de datos originales. A partir de ahora, por tanto, diferenciaremos claramente entre bases de datos transaccionales (u operacionales) y almacenes de datos. Dicha diferencia, adems, se ha ido marcando ms profundamente a medida que las tecnologas propias de ambas bases de datos (y en especial la de almacenes de datos) se han ido especializando. De hecho, hoy en da las diferencias son claras. Como lo muestra en la Tabla 3. Las diferencias mostradas en la tabla, distinguen claramente la manera de estructurar y disear almacenes de datos respecto a la forma tradicional de hacerlo con bases de datos transaccionales.
96
BASES
DE
DATOS ALMACEN DE DATOS
TRANSCCIONALES Propsito Operaciones Soporte aplicaciones. a diarias, Recuperacin las informacin, anlisis y datos. Tipo de datos Datos de funcionamiento Datos de la organizacin tiles para el de informes, minera de
anlisis, la solarizacin etc.
Caractersticas datos
de
los Datos de funcionamiento, Datos cambiantes, incompletos.
histricos,
dato
internos, internos y externos, datos descriptivos . Datos copo en estrella, de en
Modelo de datos
Datos normalizados
nieve,
parcialmente desnormalizados multidireccionales Nmero usuarios y tipo de Ciento/miles: operaciones, aplicacin, Decenas: ejecutivos, directores, analistas y
administrador de base de (granjeros, mineros ) datos Acceso SQL, lectura y escritura SQL y herramientas
propias (slice& dice, dril, roll, pivot..)lectura
97
Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos
Aunque ambas fuentes de datos (transaccional y almacn de datos) estn separadas, es importante destacar que gran parte de los datos que se incorporan en un almacn de datos proviene de las bases de datos transaccional Esto supone desarrollar una tecnologa de volcado y mantenimiento de datos desde la base de datos transaccional a almacn de datos. Adems el almacn de datos debe integrar datos externos, con lo que en realidad debe estar actualizndose frecuentemente de diferentes fuentes. El almacn de datos pasa hacer un integrador o recopilador de informacin de diferentes fuentes, como se observa en la figura 20.
FIGURA 20 ALMACN DE DATOS COMO INTEGRACIN DE DIFERENTES FUENTES DE DATOS. La organizacin y el almacenamiento de esta informacin plantean cuestiones tcnicas, fundamentalmente sobre como disear el almacn de datos, como
cargarlo inicialmente, como mantenerlo y preservar su consistencia. No obstante, 98
son muchas ms las ventajas de esta separacin que sus inconvenientes; esta separacin facilita la incorporacin de fuentes externa, que en tal caso, sera muy difcil de encajar en las bases de datos.
Leccion 34. Arquitectura de los Almacenes de Datos
Un almacn de datos recoge, fundamentalmentedatos histricos, es decir, hechos sobre el contexto en el que se desenvuelve la organizacin. Los hechos son, por tanto el aspecto central de los almacenes de datos. Estas caractersticas determinan en gran medida la manera de organizar los almacenes de datos.
Modelo Multidimensional
El modelado conceptual de los datos ms extendido para los almacenes de datos es el modelo multidimensional. Los datos se organizan en torno a los hechos, que tienen unos atributos o medidas que pueden verse en mayor o menor detalle segn ciertas dimensiones por ejemplo, una gran cadena de supermercados puede tener como hechos bsicos las ventas. Cada venta tiene una informacin importante: impuesto, cantidad, nmero delcliente, etc.y se puede ser ms detallada segn los datos que se quieran agregar o se necesiten capturar para estudiarlos . DATAMARTS
En algunos casos puede parecer intuitivo organizar la informacin en dimensiones; el caso de las ventas es el ejemplo ms ilustrativo. En general cierta informacin 99
es ms fcilmente representantiva de esta forma, pero siempre se puede llegar a una estructura de este tipo. Lo que no es posible, en general, es la representacin de todo el almacn de datos como un solo diagrama, ni siquiera jerrquico. Por ejemplo, la informacin del personal de una empresa (empleados, departamento, proyecto. etc.) es difcilmente integrable en el mismo modelo, las ventas incluso en mbitos ms relacionales de una organizacin (por ejemplo ventas y produccin) esto tampoco es posible. La idea general es que para cada proceso de la organizacin se va a construir una estructura en estrella, por tanto el almacn de datos estar formado por muchas estrellas (jerrquicas o no) formando una constelacin, por ejemplo aparte de la estrella jerrquica para el proceso ventas, podramos tener otra estrella para el proceso personal. En este caso, los hechos podran ser que un empleado ha dedicado ciertos recursos en un proyecto durante un periodo determinado en un departamento especfico. Los hechos podran llamarse participaciones, las medidas o atributos podran ser horas de particin, nmero de partici ones, presupuesto, nivel de xito del proyecto, etc. Las dimensiones podran ser tiempo (para representar el periodo en el que ha estado involucrado), departamento datamart (mercado de datos), lgicamente, cada datamart tendr unas medidas y unas dimensiones en tiempo, ya que el almacn de datos representa informacin histrica y, por tanto, siempre es de inters ser capaz de agregar por intervalos de diferente detalle .
Leccion 35. Explotacin de un Almacen de Datos.
Para
completar
el modelo
multidimensional
se debedefiniruna serie de
operadores, sobre la estructura de operadores importantes asociados son: Drill: se trata de disgregar los datos (mayor nivel de detalle o desglose, menos solarizacin) siguiendo los caminos de una o ms dimensiones. 100
Roll: se trata de agregar los datos (menor nivel de detalle o desglose,mas sumisin o Consolidacin) siguiendo los caminos de una o ms dimensiones. Slice Dice: se selecciona y se proyectanlos datos. Pvot: se orienta las dimensiones
Fuente: http://es.scribd.com/doc/48897874/16/drill-down-y-roll-up Drill Down y Roll Up Una jerarqua es un conjunto de miembros de una dimensin, los cuales se definen por su posicin relativa con respecto a los otros miembros de la misma dimensin, y forman en su totalidad una estructura de rbol. Partiendo de la raz del rbol, los miembros son progresivamente ms detallados hasta llegar a las hojas, donde se obtiene el mayor nivel de detalle. Por ejemplo, para la dimensin de Organizacin Telefnica se puede establecer rea como raz, luego, dentro de cada rea existen muchos Internos, los que constituyen las hojas. Puede darse el caso en que una dimensin no necesite jerarquizarse debido a que ninguno de sus miembros posee una posicin relativa con respecto a los otros miembros. Por ejemplo, una dimensin Cliente que tiene como miembros nombre, sexo y fecha de nacimiento, no necesita organizar estos miembros porque todos estn al mismo nivel de detalle, a menos que desee agruparlos por alguno de ellos para visualizar los datos. 101
Existen principalmente dos esquemas para el modelo dimensional: el esquema estrella (star), y el esquema copo de nieve (snowflake).
En el esquema estrella, cada modelo dimensional est compuesto de una tabla central con una clave primaria compuesta, denominada tabla de hechos, y un conjunto de tablas perifricas denominadas tablas de dimensiones. .Cada una de las tablas de dimensiones tiene una clave primaria que corresponde exactamente con uno de los componentes de la clave compuesta de la tabla de hechos. Las tablas de hechos, adems de sus campos clave, contienen una o ms medidas, indicadores o hechos. Las medidas ms tiles en una tabla de hechos son numricas y aditivas . La aditividad es crucial porque las aplicaciones Data Warehouse casi nunca recuperan un solo registro de la tabla de hechos, sino que acceden a cientos, miles o incluso millones de registros a la vez. Las tablas de dimensiones, por el contrario, contienen informacin textual descriptiva. Los atributos de las dimensiones se emplean como fuente de las restricciones en las consultas al Data Warehouse. En el modelo estrella las dimensiones no se normalizan. Con ello se logra minimizar el nmero de uniones y, por consiguiente,
102
incrementar el rendimiento de las consultas (una tabla de hechos est relacionada con numerosas tablas de dimensiones).
103
Una variante del modelo en estrella es el modelo copo de nieve osnowflake.
En este modelado se normalizan las dimensiones reflejando las jerarquas en las mismas y conservando lo esencial del modelo en estrella: las tablas de hechos. La ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos espacio en disco. (En caso que se quiera hacer una
104
profundizacin del tema se recomienda hacerlo en lnea en la fuente donde fue tomado: http://es.scribd.com/doc/48897874/16/Drill-Down-y-Roll-Up)
En realidad un modelo de datos se compone de unas estructuras y unos operadores sobre dichas estructuras. Se revis el modelo multidimensional el cual se basa en una en un conjunto de datamarts, que generalmente, son estructuras de datos en estrella jerrquica. Fuente: http://es.scribd.com/doc/48897874/16/Drill-Down-y-Roll-Up La forma de representar la organizacin de los datos en un modelo dimensional es a travs de un cubo (el cual no necesariamente debe tener tres dimensiones). Por ejemplo, se puede pensar en un cubo que posea como medida la duracin de las llamadas y como dimensiones Tiempo, Tipo de Llamada y Organizacin Telefnica. La representacin de este modelo se muestra en el cubo:
105
Cada porcin del cubo es la medida a la que se hace referencia, y expresa la duracin de las llamadas de un tipo determinado efectuadas en un rea en un mes. Las dimensiones estn representadas por los ejes. Una consulta para el cubo podra ser la duracin de las llamadas salientes del mes de enero de 2004 discriminadas por rea. Los miembros de una dimensin pueden estar organizados en una o ms jerarquas Una de las caractersticas del acceso a la informacin es la posibilidad de representarla a diferentes niveles de agregacin. Esto se logra mediante las caractersticas conocidas como DrillDown y Roll Up. Estas son tcnicas para navegar a travs de distintos niveles de detalle de una jerarqua de datos, desde los de mayor nivel de agregacin (tambin llamados datos sumarizados) hasta los ms detallados. Drill Down explora los hechos hacia los niveles ms detallados de 106
la jerarqua de dimensiones, mientras que Roll Up explora los hechos iterativamente hacia el nivel ms alto de agregacin. En la siguiente figura se puede observar los datos que surgen a partir de aplicar Drill Down sobre elmiembro Comercializacin de la dimensin Organizacin Telefnica del cubo de la Figura anterior teniendo la informacin detallada podemos efectuar la operacin Roll Up para llegar a lainformacin resumida
Normalmente, los operadores se llamados operadores OLAP, operadores de anlisis de datos u operadores de almacn de datos, estos operadores
genricos bsicos son los que permiten realizar consultas, vistas o informes sobre la estructura estrella, generalmente de forma grafica. Estos operadores bsicos permiten realizar las mismas consultas de proyeccin, seleccin y agrupamiento que se puede hacer en SQL.en muchos casos de 107
hechos, se puede editar la consulta SQL correspondiente, aunque esta se haya hecho grficamente. Por tanto, el primer paso para poder utilizar los operadores propios del modelo multidimensional es definir una consulta. En realidad, como se vio en los operadores Drill, roll, solice, dice y pivote, que son modificados o refinadores a
base consultas y solo pueden aplicarse sobre una consulta realizada previamente. No obstante, lo interesante empieza justamente cuando se intenta modificar el informe (una consulta, al fin y al cabo).A veces, se quiere mayor nivel de detalle, otras veces menos, o bien aadir o quitar alguna dimensin, o modificar el informe en cualquier otro sentido. Actividad de cierre Capitulo VII
1) Explique la relacion existente entre los almacenes de datos y las tecnicas de mineria de datos y el soporte que proporcionan las tecnicas de mineria de datos al manejo de la informacin empresarial. 2) Con base en lo expuesto en la leccin 35 analice una empresa del entorno (puede ser la misma de la actividad del capitulo anterior) en la cual le aplique los cirterios de Drill Down y Roll Up, con el respectivo informe de la base de datos y del diccionario de datos.
108
Capitulo VIII. Otros tipos de DataMart
Leccion 36. Rolap- Molap
Una de las razones para crear un almacn de datos separado de las bases de datos operacionales es conseguir que el anlisis se pueda realizar de una manera eficiente. El hecho que la estructura anterior y los operadores vistos permitan trabajar sencillamente y combinar dimensiones, detallar o agregar infrmenos, etc, todo ello de manera grfica, no asegura que esto sea eficiente. Con el objetivo de obtener la eficiencia deseada, los sistemas de almacenes de bases de datos pueden implementarse utilizando dos tipos de esquemas fsicos. ROLAP (relational OLAP): Fsicamente, el almacn de datos se construyen sobre una base de datos relacional. MOLAP(multidimensional OLAP): Fsicamente, el almacn de datos se construye sobre estructuras basadas en matrices multidimensionales. Las ventajas del ROLAP son, en primer lugar, que se puede utilizar directamente en sistemas de gestin de bases de datos genricos y herramientas asociadas: (SQL,restricciones, disparadores, etc).En segundo lugar, la formacin y el costo necesario para su implementacin es generalmente menor.Las ventajas de MOLAP son su especializacion, la correspondencia entre el nivel lgico y fsico. Esto hace que MOLAP sea generalmente ms eficiente, incluso aunque en el caso de ROLAP se utilice ciertas tcnicas de optimizacin. No todos los sistemas, libros y manuales son consistentes en la diferencia ROLAP/MOLAP que se produce a nivel fsico o nivel lgico. En algunos textos se
109
habla que el sistema ROLAP representa los resultados de los informes/consultas como tablas mientras que MOLAP lo representa como matrices. Segun la definicin (la de muchos autores) tanto ROLAP como MOLAP se
refieren a la implementacin y son independientes de las herramientas del sistema de almacenes de datos o el sistema OLAP. Por tanto un sistema puede tener una representacin de consultas relacional y estar basado en MOLAP o puede tener una representacin completamente multidimensional y estar basado en un OLAP. Algunos ejemplos de sistema OLAP son Microstrategy, informe Metacube u oracle Discovery. El primero, por ejemplo, tiene una interfaz completamente
multidimensional mientras que por debajo existe un sistema relacin. Ejemplos de sistemas MOLAP son el Oracle Expres o Hyperion Enterprise. La ventaja de ROLAP es que puede utilizar tecnologa y nomenclatura de los sistemas de bases de datos relacional, esto tiene el riesgo que en algunos casos se pueda mantener parte de las bases de datos transaccional (manteniendo claves foraneas, claves primarias, conservado parte de la normalizacin, etc.). En general, aun que esto puede ser cmodo inicialmente, no es conveniente a largo plazo.De hecho, una de las maneras ms eficientes de implementar un datamart multidimensional, es mediante bases de datos relacionales es ignorar casi completamente la estructura de los datos en las fuentes de origen. Los sistemas OLAP se pueden acompaar de estructuras especiales: ndices de mapa de bits, ndices JOIN optimizadores de consultas, extensiones de SQL (por ejemplo cube, etc), as como tcnicas tan variadas como el pre calculo y el almacenamiento de valores agregados que vayan a utilizarse frecuentemente (totales por ao, por producto, etc). Adems, se puede desactivar los locks delectura/escritura concurrente (ya que solo habr lecturas), muchos ndices dinmicos se pueden sustituir por estticos o por hashing (ya que las tablas no van a crecer frecuentemente).
110
Todas estas extensiones y ajustes hacen que el sistema de gestin de bases de datos se adapte mejor a su nuevo proposito ya que no es una base de datos operacional sino un almacn de datos y asi proporcione la eficiencia necesaria. Por lo contrario los sistemas MOLAP almacenan fsicamente el dato estructurado multidimensional de forma que la presentacin externa e interna coincidan. Las estructuras de datos utilizadas para ello son bastante especficas, lo que permite rendimientos mayores que los ROLAP. En cambio, los sistemas MOLAP tienen algunos inconvenientes. Se necesitan sistemas especficos. Esto supone un costo de Software mayor que generalmente compromete la portabilidad, al no existir estndares sobre MOLAP tan extendidos como los estndares del modelo relacional. Al existir un gran acoplamiento entre la visin externa y la implementacin, los cambios de diseo del almacn de datos obligan a una estructuracin profunda del esquema fsico y viceversa. Existe ms de dos modelos de normalizacin que en las ROLAP. En muchos casos los almacenes de datos MOLAP ocupan ms espacio que su correspondiente ROLAP. Quiz la parte del diseo de almacn de datos es una de las areas mas abiertas y donde existe menosconvergencia, las razones son mltiples pero,
fundamentalmente, se resume en que los almacenes de datos se han originado principalmente desde mbito industrial y no acadmico, el fin inicial del almacn de datos era realizar OLAP eficiente, fundamentalmente en los niveles lgico y fsico. Pasos para disear un almacn de datos:
1) Elegir para modelar un Proceso o Dominio de la organizacin sobre el que se desee realizar informes complejos frecuentemente, anlisis o 111
minera de datos. Por ejemplo, se puede hacer un datamart sobre pedidos, ventas, facturacin, etc. 2) Decidir el hecho central y el granulo(nivel de detalle) mximo que se va a necesitar sobre el, por ejemplo,se necesita informacin horaria para el tiempo?, Se necesita saber las cantidad de cajas registradoras de un supermercado o es dificiente el supermercado como unidad mnima?, etc. En general, siempre hay que considerar grnulos finos por tuplas las que se vayan a necesitar, a no ser que haya restricciones de tamao importantes, precisamente,el almacn de datos se crea entre o tras cosas, para poder agregar datos eficientemente, por lo que un almacn de datos demasiado detallado no compromete, en principio, la eficacia. 3) Identificar las dimensiones que caracterizan el dominio y su jerarqua de agregacin, cuales son los atributos bsicos de cada nivel. No se deben incluir atributos descriptivos informativos, lo importante es ayudar en la visualizacion. 4) Determinar y refinar las medidas y atributos necesarios para los hechos y las dimensiones. Generalmente las medidas de los hechos son valores numricos agregables (totales, cuentas, medidas, etc) y suelen responder a la pregunta cuanto. Revisar si toda la informacin que se requiere sobre los hechos estn representada en el almacn de datos.
Leccion 37. Almacen de Datos y Mineria de Datos Fuente:

http://www.google.com.co/url?sa=t&rct=j&q=almac%C3%A9n%20de%20datos%20naci%C3%B3% 20hace%20m%C3%A1s%20de%20una%20d%C3%A9cada%20&source=web&cd=2&ved=0CFEQ FjAB&url=http%3A%2F%2Facademicae.unavarra.es%2Fbitstream%2Fhandle%2F2454%2F1955%2F577139.pdf%3Fsequence%3D1&ei= Avz9T_zxKejO2AWFv4XFDw&usg=AFQjCNFvuWyZ8zktuAkmTV85s9N4LuLw0w&cad=rja
112
El concepto de almacn de datos naci hace ms de una dcada [Enmona 1992] ligado al concepto de EIS (Executive information System), el sistema de informacin ejecutivo de una organizacin. En realidad, cuando estn cubiertas las necesidades operacionales de las organizaciones se plantean herramientas informticas para asistir las necesidades estratgicas. La definicin original de almacn de datos es una coleccin de datos, orientada un dominio, integrada, no voltil y variante en el tiempo para ayudar en las decisiones de direccin. A raz de esta definicin, parecera que los almacenes de datos son solo tiles en empresas o instituciones donde los altos cargos directivos tengan que tomar decisiones. A partir de ah, y de la difusin cada vez mayor de las herramientas de business intelligence y OLAP, se puede pensar que los almacenes de datos no se aplican en otros mbitos: cientficos, mdicos, ingenieriles, acadmicos, donde no se tratan con las variables y problemticas tpicas de la organizacin de las empresas. Al contrario, en realidad, los almacenes de datos pueden ser usados en diferentes propositos, y pueden agilizar muchos procesos de anlisis. Mas adelante se documentan las aplicaciones y usos datos: herramientas que se puede tener en un almacn de
de consulta e informes, herramientas EIS (Enterprise
Information System), herramientas OLAP y herramientas de minera de datos. La variedad de usos sugiere tambin la existencia de diferentes grupos de usuarios: analistas, ejecutivos, investigadores, ingenieros de informacin, estadistas, etc... Segn el carcter de estos usuarios se les puede catalogar en dos grandes grupos: Picapedreros (o granjeros): Son aquellos que se dedicana realizar informes peridicos, ver la evolucin de los indicadores, controlar algn tipo de valores anmalos, etc... Exploradores: Son los encargados de encontrar nuevos patrones significativos utilizando tcnicas OLAP o de minera de datos, la estructura 113
del almacn da datos y sus operadores facilita la obtencin de diferentes vistas de anlisis o vistas minales. Esta diferencia, y el hecho de que se catalogue como exploradores a aquellos que utilizan tcnicas OLAP o minera de datos, no debe desdibujar las grandes diferencias de un anlisis clsico bsicamente basado en la agregacin, la visualizacin y las tcnica descriptivas o estadsticas con un uso genuino de la minera de datos que transforma losdatos en datos significativos, en realidad, se puede usar minera de datos sobre un simple archivo de datos. Sin embargo, las ventajas de organizar un almacn de datos se amortizan a mediano y largo plazo especialmente cuando el anlisis esta orientado a grandes volmenes de datos, aquellos que aumentan significativamente con el tiempo, los que provienen de fuentes heterogneas, los que se quieren cambiar de maneras arbitrarias y no predefinidas; en gran medida una almacn da datos tambin facilita la limpieza y transformacin de datos (en especial para generar vistas minales en tiempo real). Es importante resaltar como ya se hizo con anterioridad en el modulo, el proceso de minera de datos debe ser realizado con la total claridad de lo que se quiere y sobre datos que en lo posible puedan ser discretas si los proceso van a dar como resultado una prediccin.
MIDDLEWARE: Es un trmino genrico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas. Estos servicios funcionan como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones 114
en que se ejecutarn. De esta manera se ofrece una mejor relacin costo/rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en menos tiempo. La funcin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos. TRANSFORMACION DE ATRIBUTOS
Variedad de tcnicas. Conversiones entre tipos de atributos. Aadir nuevos atributos sintticos que representen la informacin de un modo que sea adecuado para el mtodo de aprendizaje. E.j: datos relacionales, SVM. PCA (Anlisis de Componentes Principales). Proyecciones aleatorias
Decentralizacion Algunos mtodos slo trabajan con atributos nominales.Discretizar valores nmericos en intervalos [DKS95]. Hay mtodos que pueden trabajar con valores numricos, pero de un modo que puede que no sea el ms adecuado. Ej. asumen que siguen una distribucin normal. Clasificador Nave Bayes. Mtodos de clustering estadsticos.Algunos mtodos son mucho ms lentos con atributos numricos que son nominales y de ordenacin.
115
BASADO EN 1R
Mtodo de clasificacin 1R [Hol93]. Ordenar los valores del atributo. Lmites de los intervalos: dnde hay cambio de clase. Excepcin: tiene que haber un nmero mnimo de valores (6)de la clase mayoritaria. Mtodo global, se aplica previamente a todos los atributo continuos
MDLMinimum Descripcin Length. Minimizar el tamao de la teora ms la informacin necesaria para especificarlos datos dados con base en esa teora. La teora es el punto de divisin. Comparacion y no divisin. Conocer los ejemplos pero no las clases. Si no se divide, se debe trasmitir la clase de cada ejemplo. Compresin. Si se divide, se debe codificar el punto de corte.lg[N - 1] bits, N es el nmero de ejemplos, mas las clases por encima y por debajo del punto de divison. -
Leccion 38. Exploracion y seleccion. El contexto de la vista minable.

Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. De aqu te tomara un ejemplo parapoder abordar la visin practica.
116
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD Escuela de Ciencias Bsicas Tecnologa e Ingeniera Curso Minera de Datos Este ejercicio corresponde al libro Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez de Pearson (se documenta respetando los derechos de autor), ya que es muy completo y servir de mucho para el aprendizaje del rea de estudio.
Una vez los datos estn recopilados, integrados y limpios, todava no estamos listos (en muchos casos) para realizar una tarea de minera de datos. Es necesario, adems, realizar un reconocimiento o anlisis exploratorio de datos con el objetivo de reconocerlos mejor de cara a la tarea de minera de datos. Incluso esta fase es imprescindible cuando se realiza minera de datos abierta, ya que tenemos todo el volumen de datos pero hemos de determinar los datos a seleccionar y las tareas a realizar sobre esos datos. Este captulo cubre un conjunto de tcnicas diversas algunas tcnicas simples del anlisis exploratorio de datos, tcnicas de visualizacin previa, agrupamiento exploratorio, tcnicas de seleccin, ya sea horizontalmente, eliminando filas (muestreo), o verticalmente, eliminando atributos, interfaces graficas, tcnicas de consulta, y agregacin (ya sea ms tradicionales al estilo de SQL, herramientas OLAP o incluso lenguajes de consulta para minera de datos). La salida o resultado de las tcnicas presentadas aqui ya es una vista minable con tarea asignada, o dicho de otra manera, una vista minable tapada (entradas, salidas) con instrucciones sobre qu datos trabajar, qu tarea realizar y de qu manera obtener el conocimiento.
El contexto de la vista minable
Imagnese que cae del cielo una base o almacn de datos con una nota: extraiga usted conocimiento de aqu. Aparte de la sorpresa natural de ver llover bases de datos, que justificara al cambio climtico, usted se preguntar, entre otras cosas, lo siguiente: Qu parte de los datos es pertinente analizar? 117
Qu tipo de conocimiento se desea extraer y cmo se debe presentar? Qu conocimiento puede ser vlido, novedoso e interesante? Qu conocimiento previo me hace falta para realizar esta tarea? Lgicamente, usted no ser capaz de extraer conocimientos si no se le responde a dichas preguntas. Del mismo modo, una herramienta de minera de datos, no puede dirigir un conjunto de datos y producir algo razonable, si no se le orienta adecuadamente. La razn fundamental del porqu esto, radica no solamente en la capacidad actual de las herramientas de realizar algunas tareas de una manera completamente automtica, sino fundamentalmente, en que la extraccin del conocimiento viene a cubrir unas necesidades y expectativas, que deben indicarse, en cierto modo de forma interactiva. Usted puede realizar la compra en un supermercadopor internet, o la puede hacer a travs de un tercero, pero en ningn caso podr realizar una compra si no indica lo que quiere comprar. Por tanto, es necesario expresar y proporcionar las respuestas a las cuatro preguntas anteriores, ya sea mediante lenguajes de minera de datos, o interactivamente con herramientas especializadas o seleccionando aquellas herramientas necesarias. Resulta en algunas ocasiones que incluso conociendo los datos y el dominio del que provienen, responder a algunas de ellas no es sencillo. En necesario, en muchos casos, explorar los datos, el contexto y los usuarios de la informacin, de all la importancia que el minero sea muy hbil en detectar estos aspectos Las cuatro preguntas anteriores son, en realidad, una manera de clasificar el conjunto de preguntas que se podran realizar, ya que en el fondo, son preguntas que estn interrelacionadas. Por ejemplo, si no se sabe el conocimiento que puede ser til no se puede decidir que parte de los datos lo pueden proporcionar. Por el contrario, si no se selecciona un subconjunto de datos de manera adecuada, no se puede garantizar la validez de los modelos extrados y si finalmente van a ser tiles o no para lo que se quiere obtener. Otro ejemplo similar es determinar el mtodo de minera de datos; observando los datos se 118
puede seleccionar el mtodo ms acertado. Solo al determinar el mtodo se puede saber si hay ciertos atributos que hacen cambiar o eliminar unos datos. De modos diversos se interrelacionan estas preguntas acerca de qu, del dnde y del cmo. El proceso que lleva desde los datos a obtener el conocimiento del dominio y de los usuarios de los cuatro aspectos anteriores, son necesarios para llevar a cabo la fase propia de minera de datos. No es solo necesario obtener la vista minable (una tabla con los atributos relevantes) si no que debe ir acompaada de la tarea a realizar sobre ella y cmo evaluarla, as como la forma de presentar el resultado final y, en su caso, el conocimiento previo necesario. Ahora se tratar de extender las cuatro preguntas anteriores
Vista minable: Qu parte de los datos es pertinente analizar? Una vista minable [Hg et al. 1998] consiste en una vista en el sentido ms clsico de base de datos; una tabla. La mayora de mtodos de minera de datos, son solo capaces de tratar una tabla en cada tarea. Por tanto, la vista minable debe recoger toda (y solo) la informacin necesaria para realizar la tarea de minera de datos. Tarea, mtodo y presentacin: Qu tipo de conocimiento desea extraer y como se debe presentar? Se trata de decir la tarea (clasificacin, regresin, agrupamiento, reglas de asociacin, etc.), cules son las entradas y salidas (en las tareas predictivas), con qu mtodo, entre las existentes para cada tarea (arboles de decisin, redes neurales, regresin logstica, etc.) y de qu manera se van a presentar o se van a navegar los resultados (grficamente, como un rbol, como un conjunto de reglas, etc.).
119
Criterios de calidad: Qu conocimiento puede ser vlido, novedoso e interesante? En muchos casos hay que establecer algunos criterios de comprensibilidad de los modelos (numero de reglas mximo), criterios de fiabilidad (basados en medidas como la confianza para las reglas de la asociacin, la precisin para la clasificacin, el error cuadrtico medio para la regresin, etc.), criterios de utilidad (basados en medidas de cuanto son aplicables, como el soporte, qu beneficios se obtienen, aportar matrices de costos, etc.), y criterios de novedad o inters (basados en medidas ms o menos subjetivas). Conocimiento previo: Qu conocimiento previo hace falta para realizar esta tarea? Tanto a la hora de construir la vista minable final o para ayudar al propio algoritmo de minera de datos, puede ser necesario establecer e incluso expresar de una manera formal cierto conocimiento previo. Por ejemplo, las jerarquas de conceptos o de dimensiones OLAP permiten trabajar con los datos y generar atributos, existen funciones que pueden realizarse por asociacin, o al expresar los modelos, se pueden aadir otras tablas como conocimiento previo o incluso se pueden aadir otros modelos anteriores como apoyo para revisar o construir un modelo nuevo. Por ejemplo, suponga que se ha recolectado la informacin sobre los diagnsticos y formulas mdicas de atencin primaria de una zona sanitaria. El objetivo es extraer conocimiento de estos datos. En primer lugar, antes incluso de revisar los datos, se establecen una serie de entrevistas con los jefes de servicio de atencin primaria en la zona estudiada. Entre las cosas que salen a la luz en las entrevistas en su preocupacin porque una cantidad de nuevos medicamentos han aparecido recientemente con una serie de dolencias crnicas y la mayora de mdicos prescriben de una manera aleatoria de entre los medicamentos generalmente efectivos, o como mucho, siguiendo patrones globales de xito de cada medicamento (prueba el a antes que el b, etc.). Esto tiene como consecuencia que, en muchos 120
casos, a los pocos das el paciente vuelve a la consulta, y el mdico le receta otro medicamento, hasta que dan con el medicamento realmente efectivo y que no muestre contraindicaciones no previstas. Entre las necesidades que aparecen en las reuniones, por tanto, se encuentra la de realizar modelos que determinen, segn el paciente, qu medicamento prescribir primero, con el objetivo de resolver cuanto antes el problema sanitario del paciente, evitar nuevas visitas de los pacientes (reduccin de visitas) y reduccin de costos farmacuticos.
A partir de este ejemplo, se puede establecer los componentes de la siguiente figura, Como se pueden estudiar varias patologas, si nos centramos en una sola, tendremos que la vista minable va a formarse a partir de los diagnsticos de dicha patologa y los medicamentos prescritos.
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 98.
El medicamento satisfactorio es el ltimo prescrito, ya que, se supone, que si no hay ms registros del mismo paciente y patologa, el ltimo medicamento fue bien medicado. Por tanto habr que realizar un tipo de consulta que nos seleccione el ltimo medicamento prescrito a los pacientes de una patologa (excluyendo los de menos de un mes, para tener ms perspectiva). Los factores que vamos a incluir de los antecedentes son todos aquellos existentes del historial del paciente: parmetros generales: edad, tensin, anlisis de sangre, etc. La tarea a realizar es una tarea de clasificacin, ya sea completa o parcial (por ejemplo se podra realizar un subconjunto de reglas de asociacin que ayudaran en los casos ms claros). Debido a las caractersticas de los usuarios 121
(mdicos) y a la existencia de comprensibilidad de los modelos (para su validacin facultativa), se decide que los patrones extrados estarn expresados en forma de arboles de decisin, ya que los mdicos estn acostumbrados a seguir este tipo de arboles a la hora de hacer diagnsticos o prescribir medicamentos. Los criterios de calidad se establecen a partir de la situacin anterior. En primer lugar, el porcentaje de xito acumulado es el criterio ms importante. Es decir, que el nmero medio de medicamentos recetados (o intentos) sea menor. Esto est muy relacionado con la precisin del modelo, pero existen medidas que ayudan a evaluar este tipo de problemas. Tambin se incluirn matrices de costos, con el objetivo de incluir tambin los costos de las visitas y de los medicamentos. Adicionalmente se buscan modelos con pocas reglas y que se puedan ampliar con parmetros sencillos de los pacientes, sin necesidad de realizar pruebas caras o dolorosas, o pruebas que no se puedan realizar a todos los pacientes, para determinar el mejor medicamento. Finalmente, existe una gran cantidad de conocimiento previo, extrado fundamentalmente del dominio y de las entrevistas de los especialistas. Por ejemplo, del dominio se puede extraer que la zona sanitaria habitual del paciente es fundamental a la hora de hacer la vista minable, ya que los pacientes que vienen de otras zonas pueden realizar segunda visita en su zona de origen (por estar de vacaciones o ir de urgencias) y por tanto el criterio de considerar el no retorno como xito puede ser un error. El conocimiento previo nos puede ayudar tambin en la transformacin y seleccin de atributos relevantes. Los arboles de decisin no aceptan conocimiento previo, pero otros mtodos s que podran beneficiarse. En realidad no debe cundir el desanimo ante la Figura 5.1, el ejemplo y la cantidad de aspectos a establecer. Lo que se intenta ilustrar es que obtener la vista minable, la tarea, el mtodo, el conocimiento previo necesario, etc., es un proceso iterativo, que ir siendo ms sencillo a medida que se conocen los
122
datos, el contexto, los usuarios y lgicamente, las tcnicas de exploracin y de minera de datos. Como del ltimo aspecto, vamos a comentar que se puede hacer para conocer mejor los datos, el contexto de los usuarios.
Englobemos los conocimientos en los aspectos principales: Reconocimiento del dominio de los usuarios: debemos reconocer el conocimiento que podra ser til, adems de intentar obtener las reglas ya existentes, ya sea para utilizarlas como conocimiento previo como para reemplazarlas por reglas y modelos mejores obtenidas por tcnicas de minera de datos. Es importante determinar las decisiones que se toman frecuentemente y a partir de que modelos se toman, si estos tienen una base solida o son simples reglas de negocio en la cabeza de uno o ms directivos. Es importante determinar quien usara el conocimiento obtenido y qu tipo de presentacin puede ser ms aconsejable.
Reconocimiento y exploracin de los datos: de los datos seguidos transformando y seleccionando con el objetivo de obtener una vista minable, lista ya para ser tratada por las herramientas de minera de datos. A diferencia de las herramientas del captulo anterior, las herramientas de exploracin y seleccin requieren saber las
expectativas y necesidades del dominio o, de una forma ms concreta, la tarea y el conocimiento previo pueden incluir ms en estas transformaciones y selecciones. Reconocimiento del dominio y de los usuarios Como hemos visto en el ejemplo anterior, para conocer que no se puede hacer con unos ciertos datos es necesario conocer el dominio de los usuarios. Si 123
usted es el gerente o un directivo de una empresa o departamento que conoce bien, probablemente no necesite realizar este reconocimiento. Pero si usted es (o va a ser) un profesional de las tecnologas de la informacin, un estadstico o un profesional de una asesora que va a dedicarse a minera de datos de varios clientes, usted ser ajeno al dominio. Una de las primeras tareas a realizar ser, por tanto, conocer y reconocer el dominio de los usuarios. El procedimiento ms similar a este reconocimiento para minera de datos es el establecimiento de reconocimientos realizado por un analista de software. A diferencia del caso del software, en las entrevistas (o cuestionarios) no buscaremos aqu casos de uso y escenarios de las operaciones mecnicas clsicas de los sistemas software, sino que buscaremos los casos y usos y escenarios de las tomas de decisin. Para ello, realizamos preguntas del estilo: Qu aspectos son cruciales en su negocio? Qu reglas o modelos de direccin estn utilizando? Se pueden mejorar dichas reglas? Que base tienen dichas reglas? Existen decisiones que se toman de una manera arbitraria o basndose en reflexiones personales no explicitas? Existe documentacin sobre decisiones anteriores? Quines toman las decisiones? Qu decisiones son crticas? Los modelos deben ser comprendidos y validados por expertos? Qu otros requerimientos
exigiramos a los patrones extrados? Qu conocimiento previo suele utilizar para sus decisiones? Y un largo etctera de preguntas de este estilo. Algunas de estas cuestiones tambin son tiles y se pueden realizar a la hora de construir un almacn de datos o en el momento de integracin, este reconocimiento se puede establecer como una fase previa a la minera de datos, en el que se establecen los requerimientos y objetivos de negocio. Con una entrevista o cuestionario de este estilo se dar cuenta de que muchas decisiones se realizan con reglas informales, subjetivas y, en muchos casos, excesivamente simplistas o generalistas. Por ejemplo, la mayora de aseguradoras de vehculos utilizan reglas generales de estilo recargo por
124
menos de dos aos el carn o por menos de veinticinco aos, sin entrar en otros aspectos que, personalizando, podran dar mejores resultados (por ejemplo por ser mujer, estudiante, no fumador, etc.). Muchas campaas de publicidad se enfocan a grupos de poblacin (jvenes, amas de casa, nios, etc.) cuya solidez puede dejar mucho que desear. El resultado de este reconocimiento puede resumirse en una documentacin u organizarse de una manera esquemtica, estableciendo prioridades de anlisis, destacando aquellas reglas de decisin importantes, que pueden mejorarse de manera significativa y para las cuales parece que disponemos de datos. En general, se van descubriendo mayores posibilidades a medida que se va conociendo el dominio, sin este reconocimiento es posible establecer las tareas, los mtodos, los criterios de calidad, explorar los datos y el conocimiento previo. Reconocimiento y exploracin de los datos
Adems del reconocimiento del dominio, debemos reconocer los datos. Para ello, lgicamente debemos conocer lo que significan y esto es posible, si quien lo realiza conoce el dominio o los datos (ya sea porque son sus propios datos y dominio o porque ha hecho el reconocimiento del dominio). El reconocimiento de los datos por tanto viene guiado por el inters de las necesidades establecidas en el reconocimiento de dominio. Sin ste, no se puede saber que datos son relevantes ni que tareas pueden ser tiles. El reconocimiento de datos se suele conocer con distintos nombres en ingles (data survey, exploratory data analysis, data fishing). De modo similar, en castellano, tambin se puede utilizar trminos diversos: exploracin, prospeccin
125
No obstante, hay que distinguir que el trmino anlisis exploratorio de datos (exploratory data analysis, EDA), definido como una serie de tcnicas para investigar los datos para ver tendencias, patrones, errores y caractersticas [Tukey 1977] tiene un enfoque diferente o ms restrictivo al que vamos a ver aqu para la minera de datos. Gran parte de lo que se realiza en EDA existe en herramientas que no son de minera de datos, especialmente los Executive Informacion Sistemas (EIS) y, lgicamente, en herramientas estadsticas generales. En realidad, de nuevo no se puede marcar una lnea de separacin entre EDA y minera de datos, aunque se podra decir que EDA tiene un carcter ms explicativo, de caracterizacin de los datos y no suele incluir modelos complejos ni predictivos. Muchos de los grficos que hemos comentado se utilizan en este tipo de anlisis. Pero, adems, las herramientas informativas de EDA permiten interactuar con los grficos. Por ejemplo, seleccionar un grupo que se ve en un grafico de dispersin, hacer rotar un grafico tridimensional (en su proyeccin en dos dimensiones) El objetivo de la exploracin para la minera de datos es obtener una vista minable, con una tarea asignada. Para ello, se pueden utilizar distintas tcnicas para obtener y retirar dicha vista: visualizacin, descripcin, generalizacin, agregacin y seleccin. En los puntos siguientes veremos estas tcnicas. Todas ellas requieren, como hemos dicho anteriormente, conocer el dominio y el significado de los datos.
Leccion 39. Exploracin mediante visualizacin.
A lo largo del modulo se han documentado algunos tipos de tablas, como la tabla de resumen de caractersticas, y algunas graficas, como los histogramas y las graficas de distribucin. Estas graficas, en general se centran en uno o 126
dos atributos, a lo sumo, y el objetivo principal era, como vimos, la limpieza de datos. En este apartado veremos algunas graficas mas con un objetivo diferente, intentar sugerir tareas de minera de datos o patrones que pueden extraerse. Las graficas que vamos a ver en este apartado se pueden caracterizar por dos aspectos: o bien son interactivas y permiten una exploracin activa, o bien son multidimensionales, con lo que permiten observar muchos atributos a la vez.
Recientemente, ha aparecido el trmino minera de datos visual (visual data mining) [Wong 1999] con el significado de de una minera de datos que se realizan manejando e interactuando con grficos (otra interpretacin es la del uso de interfaces visuales para la minera de datos, en nuestra opinin el concepto de minera de datos visual es interesante como hibrido entre la minera de datos y la visualizacin de datos ms tradicional [Cleveland 1993], pero, en general, no se puede hacer minera de datos solo con graficas. Precisamente lo que caracteriza la minera de datos de tcnicas anteriores o de la perspectiva ms clsica del anlisis de datos es que los modelos son extrados por algoritmos y, por tanto, no son vistos o descubiertos visualmente por el usuario (y posteriormente simplemente validados estadsticamente).Son herramientas que son tiles en distintas fases y de distintas maneras y que se vern a lo largo de la tematica. Las tcnicas de visualizacin de datos se utilizan fundamentalmente con dos objetivos: Aprovechar la gran capacidad humana de ver patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos. Ayudar al usuario a comprender ms rpidamente patrones
descubiertos automticamente por un sistema de KDD.
127
Estos dos objetivos marcan dos momentos diferentes del uso de la visualizacin de dos dados (no excluyentes): Visualizacin previa (esta es la que normalmente recibe el nombre de minera de datos visual): se utiliza para entender mejor los datos y sugerir posibles patrones o qu tipo de herramientas de KDD utilizar. La visualizacin previa se utiliza frecuentemente por picapedreros, para ver tendencias y resmenes de los datos, y por exploradores, para ver filones que investigar. Visualizacin posterior al proceso de minera de datos: se utiliza para mostrar los patrones y entendernos mejor. La visualizacin posterior se utiliza frecuentemente para validar y mostrar a los expertos los resultados de la extraccin de conocimiento. El primer tipo de visualizacin previa se trata de la visin multidimensional de las herramientas OLAP. Aunque realmente no se muestran graficas, los datos s que se muestran de manera visual (al menos parcialmente) y se puede interactuar con ellos, navegando por las dimensiones.
Existen otros tipos de visualizaciones ms graficas donde podemos apoyarnos para la preparacin de datos. En general, las herramientas de minera de datos o estadsticas no nos van a sugerir que grafica utilizar, con lo que en general se requerir de cierta experiencia y conocimiento de la herramienta para seleccionar que grafico nos interesa utilizar entre las decenas de graficas que proporcionan los sistemas actuales. Por ejemplo, incluso las hojas de clculo permiten representar grficos tridimensionales como los de la parte izquierda de la siguiente figura,lo que no podemos hacer en muchos casos es interactuar con la grafica y obtener datos derivados a partir de ella. Por ejemplo, algunas herramientas estadsticas o de minera de datos, nos permiten desplazar un plano de corte sobre un eje de ir 128
viendo los cortes instantneamente, como se ve en la parte derecha de la figura. En este caso podra ser til para discretizar un atributo (entre un valor menor o mayor que el plano) para facilitar el agrupamiento. Por ejemplo, en la parte derecha de la figura se ven dos grupos de una manera mucho ms clara que en la parte izquierda. Si esos dos grupos son los que realmente nos interesan podemos pasar el corte (convirtiendo en un nuevo problema bidimensional, utilizando el atributo discretizado como filtro) a un mtodo de agrupamiento (en este caso bastara con un mtodo lineal simple).
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 104. simplificada. Interactuando con un grafico para obtener una vista mas
Diferentes sistemas de estadstica o minera de datos, tales como Statistica o Statistica Data Miner de StatSoft, SAS System o SAS Enterprise Miner, IBM Intelligent Miner, disponen de tipos de graficas adecuadas para diferentes propsitos, que se pueden navegar, rotar, modificar o combinar.
129
Leccion 40. Visualizacin Multidimensional
La representacin grafica debe limitarse a las pantallas o al papel, que son bidimensionales. La grafica de la izquierda de la figura anterior no es ms que una proyeccin de tres dimensiones en dos dimensiones, que se ayuda de la tonalidad o del color (este s que se puede considerar una tercera dimensin real) para que sea ms inteligible. Sin embargo, en muchas situaciones tenemos ms de tres dimensiones, lo que plantea grandes problemas de cara a la visualizacin. La tcnica de visualizacin de datos multidimensionales ms conocida es la de visualizacin de cordenadas paralelas [Inselberg &Dimsdale 1990]. Se mapea el espacio k-dimensional en dos dimensiones mediante el uso de de k ejes de ordenadas (escalados linealmente) por uno de abscisas. Cada punto en el espacio k-dimensional se hace corresponder a un lnea poligonal (polgono abierto) dond cada vrtice de la lnea poligonal intersecta los k ejes en el valor para la dimensin. La siguiente figura muestra un espacio 6-dimensional representado a asi.
130
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 105. Grafica de seis coordenadas paralelas con muchos ejemplos.
Aunque un gran numero de ejemplos convierte la grafica en una maraa, aun asi, se pueden detectar patrones. Por ejemplo se puede verificar que los atributos 1 y 2 no estn correlacionados, mientras que el 2 y 3 estan positivamente correlacionados, el 3 y 4 estan inversamente correlacionados, asi como existe una relacin entre la magnitud de 4 y las categoras del atributo nominal 5. Los atributos 5 y 6 tienen una correspondencia clara entre categoras (en realidad el atributo 6 es dependiente del atributo 5). Un grafico similar es el grafico (survey plot), donde se muestran todos los ejemplos ordenados y la amplitud de cada lnea se muestra se muestra el valor de cada atributo, este ultimo es mas apropiado para valores numricos. En general si los datos no correlacionan (que suele ocurrir para la mayora de atributos) se ve una maraa de lneas. Otra cosa que suele suceder es que el orden de las dimensiones (atributos) es muy significativo para saber si hay relaciones. Por ejemplo en la grafica anterior no vemos si el atributo 6 y el 1 tiene relacin o no. 131
Incluso en el caso en que existan relaciones, un numero excesivo de ejemplos puede hacer que los puntos se apien o se tape n. Por ejemplo en la parte derecha de la figura los valores nominales se montan unos sobre otros y se ven solo cuatro lneas (aunque en realidad, hay decenas de ejemplos). Este problema se conoce como overplotting. Esto se puede solucionar parcialmente con colores o haciendo un muestreo (mostrando solo un subconjunto aleatorio de los ejemplos). En los casos que existan muchos ejemplos con los mismos valores, podemos incluir un grado de aleatoriedad en las magnitudes (esto se conoce como jitter) para que unos puntos no aprezcan exacaament encima de otros. Este truco permite ver la cardinalidad de ejemplos en cada sitio. El grafico anterior se puede utilizar cuando hay pocos ejemplos. En la siguiente figura se muestran las caracterisitcas de 12 pacientes con enfermedades cardiovasculares: el nivel de tabaquismo, colesterol, tensin, obesidad,
alcoholismo, precedentes, estrs y riesgo estimado de enfermedades coronarias, noirmalizaado de 0 a 10.
132
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 106. Grafica de ocho coordenadas paralelas con pocos ejemplos..
En este caso se puede realizar un seguimiento de cada ejemplo. Una variante de este caso cuando hay pocos ejemplos es la representacin radial o circular comos emuestra a continuacin.
133
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 106. Grafica radial de cinco dimensiones y cuatro ejemplos.
En realidad es similar al de coordenadas paralelas, con lo que no aporta mucho si se usa de esta manera. Frecuentemente en lugar de mostrar todos los valores en la radial, se muestran uno a uno, conlo que tenemos diferentes figuras para comparar los ejemplos. Este es un uso mas ilustrativo como se muestra a continuacin:
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 106.Tres pacientes diferentes vistos mediante grafica radial.
134
Este tipo de representaciones con distintas formas que se da a diferentes objetos puede llevarse ms all mediante el uso de representaciones inicas, en las cuales se utilizan figuras fciles de reconocer con seres humanos (animales, caras, casas, etc.) y cada dimensin representa una caracterstica de la figura. Por ejemplo, en el caso de los animales, un atributo puede representar el tamao de la cabeza, el otro el de las piernas, el del rabo, etc. Segn sus partidarios, con este tipo de representaciones inicas uno puede, de un solo vistazo, darse cuenta del tipo de individuo o grupo con el que estamos tratando. Lgicamente, cada representacin inica requiere una cierta familiarizacin previa para ser efectiva. Otra de las ventajas de las representaciones inicas frente a las radiales es que se pueden combinar mas convenientemente valores discretos y continuos. Por ejemplo tener o no tener bigote puede utilizarse para un atributo binario, podemos representar un atributo con cuatro valores con cuatro tipos de nariz, etc.
Sumarizacin, descripcin, generalizacin y positivismo
La construccin de la vista minable es un proceso iterativo que pasa por conocer y visualizar los datos, combinados de diferentes manera. Para esta combinacin podemos utilizar operadores de consultas de bases de datos y operadores OLAP. Los datos con los se trabaja en minera de datos son, muy frecuentemente, datos histricos que, por tanto, pueden agregarse a diferentes niveles de detalle temporal. Si adems, la estructura de los datos es multidimensional (por ejemplo un datamart) existen campos de agregacin, podemos obtener diferentes vistas concatenando (juntando o enlazando) diferentes tablas y agregando al nivel que deseemos. Una pregunta que aparece generalmente en el entorno de la minera de datos es la siguiente:si ya he decidido que tablas y atributos son relevantes, Por qu 135
debo construir una nica tabla derivada, denominada vista minable? no es suficiente con marcar dichos atributos y dejar que la herramienta de minera de datos trabaje sobre las bases de datos?. Existen dos razones fundamentales para contestar a esta pregunta. La primera es que dadas varias tablas, incluso aunque tenga claves foraneas definidas, existen muchas maneras de concatenarlas, es decir, de combinar la informacin que contienen. Por tanto, es ms difcil definir tareas concretas si no se clarifica exactamente la informacin sobre la que se van a definir. La segunda razn es quizs ms importante: la mayora de mtodos de minera de datos solo tratan con una nica tabla. Si bien es cierto que hay herramientas de programacin lgica inductiva y la minera de datos relacional, si empiezan a ser capaces de trabajar con varias tablas, la mayora de tcnicas solo son capaces de trabajar con representaciones del estilo atributo-valor, es decir, una tabla. Por tanto, debemos definir una consulta o vista minable. Para ello, las operaciones necesarias son aquellas de un lenguaje relacional (como por ejemplo el SQL). Concatenaciones (joins), selecciones, proyecciones, agrupamientos/agregaciones, etc. La siguiente figura muestra precisamente la construccin de una vista minable a partir de un conjunto de tablas. Aunque las tablas tiene una estructura multidimensional y podamos apoyarnos en herramientas OLAP, en realidad las operaciones necesarias son las tpicas de una consulta SQL: concatenacin, seleccin, proyeccin y agrupamiento.
136
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 108. Seleccin de tablas, atributos, condiciones, y niveles de agregacin para obtener una vista minable.
Es quiz, la concatenacin de tablas aquella que permite juntar en una tabla la informacin proveniente de varias. Este proceso generalmente obtiene vistas desnormalizadas, en las que por ejemplo, la tabla ciudad y pas se funden en una sola, donde aparece el nombre de la ciudad y del pas. Este tipo de desnormalizaciones contiene redundancia y por tanto patrones. Hay que ser concientes de ellos, por que si excluyramos todos los atributos para reglas de asociacin, por ejemplo, tendremospetrones redescubiertos del estilo de dependencias funcionales como ciudad pas o en el ejemplo anterior dia.nombre laborable.
137
Pivotamiento
Una operacin muy usual a las hora de preparar la vista minable se conoce como pivotamiento y, forma parte de los operadores OLAP. La operacin de pivotamiento cambia filas por columnas y, por tanto, realiza un cambio verdaderamente valor. El ejemplo ms clsico de pivotamiento es de la cesta de la compra. Supongamos que los grandes almacenes guardan una gran tabla de cestas de la compra, donde cada atributo indica si el producto se ha comprado o no. Existen unos 10000 productos en los atributos en los grandes almacenes y millones de cestas semanales. El objetivo del anlisis es ver que productos se compran conjuntamente. Lgicamente, los datos no caben en memoria, con lo que hay que ir trabajando en disco. Para tener algo de fiabilidad en las reglas hay que mirar al menos la raz cuadrada de todas las cestas, eso obliga a seleccionar unas 1000 filas radical para una representacin basada en pares atrib uto-
(aleatoriamente) de la tabla para cada dos atributos que queramos evaluar. Si este tipo de anlisis se van a realizar frecuentemente, puede merecer la pena cambiar filas columnas, como se muestra en la figura
#Cesta
Prod1
Prod 2
Prod 3
..
Prod 10000
1 2
SI NO
NO NO
NO NO
. .
NO SI
138
3 4 5 .. 10.000. 000
SI SI NO .. NO
SI NO SI . NO
NO NO SI . SI
. . . . .
NO NO SI . SI
pivotaje #Produ cto Cesta 1 Cesta 2 Cesta 3 .. Cesta 10.000.00 0 1 2 3 4 5 .. 10.000. 000 SI NO NO NO SI .. NO NO NO NO SI SI . SI SI SI NO NO NO . NO . . . . . . . NO NO SI SI NO . SI
Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. Pearson. Pag. 111.Pivotamiento. Cambio de filas por columnas./* Este proceso se puede hacer facilmente con una hoja de calculo y la funcin transponer*/
139
Ahora, para observar si dos productos estn asociados es solo necesario dos filas de la tabla y realizar, por ejemplo, un o exclusivo entre las filas ,para ver si estn asociadas o no.
Seleccin de datos.
La seleccin de datos es algo ms que decir qu tablas (o archivos) se van a necesitar para la minera de datos y de qu manera concatenarlas. Esto podra estar ya decidido, pero todava no sabemos qu atributos/variables necesitamos y cuantas instancias (ejemplos) van a ser necesarias. Dicho de otra manera, puede ser que no todas las columnas, ni todas las filas sean necesarias. Dicho de otra manera, puede ser que no todas las columnas, ni todas las filas sean necesarias. El problema existente es precisamente que si seleccionamos como vista minable todo aquello que pueda ser relevante podemos acabar con una vista minable de cientos de columnas/atributos y millones de filas/registros. El tamao de una tabla como sta, desborda la capacidad de muchas de las tcnicas de minera de datos. Hemos de ser capaces de ver si podemos obtener primeros modelos (o incluso mejores modelos) con un subconjunto de las instancias y de las variables. La seleccin de datos no tiene nicamente como objetivo la reduccin del tamao para obtener una minera de datos ms rpida si no que, en muchos casos, puede permitir mejorar el resultado (tanto en precisin o en costo, por ejemplo utilizando muestreo estratificado o en comprensibilidad, por ejemplo utilizando reduccin de dimensionalidad). El proceso de seleccin de datos muchas veces se engloba dentro de un concepto ms amplio, denominando reduccin de datos (data reduction), aunque este trmino tambin puede incluir la agregacin (por ejemplo si pasamos de instancias 140
de cada da a instancias agregadas mensualmente), la generalizacin (por ejemplo si reemplazamos el atributo ciudad por regin, siguiendo por ejemplo la jerarqua de alguna dimensin), o incluso la comprensin de datos (por ejemplo eliminando datos redundantes). En general, cuando tratamos con datos del estilo atributo-valor (es decir, una tabla), hay dos tipos de seleccin aplicables: seleccin horizontal (muestreo), donde se eliminan algunas filas (individuos) y seleccin vertical (reduccin de dimensionalidad), donde se eliminan caractersticas de todos los individuos.
Actividad de cierre Capitulo VIII
1) Cules son los objetivos o tareas que pretende realizar la minera de datos. 2) Que son las reglas de asociacin como tipo de conocimiento, de una definicin de soporte y confianza y utilcelas para definir una regla de asociacin. 3) Describa un ejemplo de una regla de asociacin entre jerarquas. 4) Que es la entropa y como se usa en la construccin de arboles de decisin. 5) Describa las redes neuronales y los algoritmos genticos como tcnicas para la minera de datos Cules son las mayores dificultades al usar estas tcnicas. 6) Aplique el algoritmo A priori al siguiente conjunto de datos : Id_trans 101 102 103 104 Articulos_Compras leche,pan ,huevos leche, zumo zumo, mantequilla leche,pan, huevos 141
105 106 107 108 109 110
caf, huevos caf caf, zumo leche, pan, galletas, huevos galletas, mantequillas leche, pan
El conjunto de artculos es {Leche, pan, galletas, huevos, matequilla, caf, zumo,}. Utilice 2 como valor mnimo de soporte. 7) Cules son los cinco tipos de conocimientos obtenidos a partir de la minera de datos. 8) Cules son las dificultades de obtener las reglas de asociacin en bases de datos de gran tamao. 9) En que se diferencia el agrupamiento de la clasificacin. 10)Cules son las reglas de clasificacin y como se relacionan con los arboles de decisin.
142
Capitulo 9: Tcnicas de Minera de Datos. Leccion. 41. Redes Neuronales

Una red neural es una tcnica derivada de la investigacin en inteligencia artificial que utiliza la regresin generalizada y proporciona un mtodo interactivo para llevarla a cabo. Las redes neuronales usan un modelo de ajuste de curvas para deducir una funcin a partir de un conjunto de muestras. Esta tcnica proporciona un modelo de aprendizaje; funciona mediante una muestra de prueba que utiliza para la inferencia inicial y el aprendizaje. Con este tipo de mtodo de aprendizaje, es posible interpolar las respuestas a nuevas entradas a partir de las muestras conocidas. Esta interpolacin depende, sin embargo, del modelo de conocimiento (representacin interna del dominio del problema) desarrollado por el mtodo de aprendizaje. Se puede hacer una clasificacin ampla de las redes neurales en dos categoras: redes supervisadas y redes no supervisadas. Los mtodos adaptativos en los que se intentan reducir el error de salida son mtodos de aprendizaje supervisado, mientras que los que desarrollan representaciones internas de generar muestras en salida se denominan mtodos de aprendizaje no supervisado. Las redes neuronales realizan auto adaptaciones; es
decir,aprenden a partir de la informacin existente sobre un problema determinado. Se ejecutan con efectividad en tareas de clasificacin y se usan, por tanto, en la minera de datos. Sin embargo, no estn exentas de problemas. An que aprenden, no proporcionan una buena representacin de lo que han aprendido.
143
Sus salidas son muy cuantitativas y difciles de interpretar. Otra de sus limitaciones es que las representaciones internas desarrolladas por las redes neuronales no son nicas. Adems, por lo General, las redes neuronales tienen problemas con el modelado de datos de series temporales. A pesar de estos inconvenientes, son muy populares y varios proveedores comerciales las utilizan con frecuencia.
El Aprendizaje en las Redes Neuronales
Hemos afirmado que las RNA no necesitan volver a ser programadas al cambiar de entorno.Esto no quiere decir que sucomportamientos no cambien con la finalidad de adaptar al nuevo entorno. Estos cambios son debido a variaciones en los pesos de la red. Los cambios en los pesos de una red neural dan lugar al aprendizaje.Estos se producen para modelar los cambios en el rendimiento de la sinapsis de las redes neuronales reales. Se cree que nuestro aprendizaje se debe a cambios en el rendimiento o eficiencia de la sinapsis, a travs de las cuales se transmiten la informacin entre las neuronas. Hay dos tipos principales de aprendizaje en RNA: Aprendizaje supervisado. Con este tipo de aprendizaje, proporcionamos a la red un conjunto de datos de entrada y la respuesta correcta. El conjunto de datos de entrada es propagado hacia adelante hasta que la activacin alcanza las neuronas de la capa de salida. Entonces podemos comparar la repuesta calculada por la red con aquella que se desea obtener, el valor real, objetivo o blanco (de target, en ingles). Entonces se ajustan los pesos para asegurar que la red produzca de una manera ms probable una respuesta en el caso de que se vuelva a presentar el mismo o similar
144
patrn de entrada. Este tipo de aprendizaje ser til especialmente para las tareas de regresin y clasificacin. Aprendizaje no supervisado. Slo se proporciona a la red un conjunto de datos de entrada. La red debe auto-organizarse (es decir, auto ensearse) dependiendo de algn tipo de estructura existente en el conjunto de datos de entrada. Tpicamente est estructurada suele deberse a redundancia o agrupamiento y reduccin de dimensiones. Al igual que otros paradigmas de la inteligencia artificial, la faceta ms interesante del aprendizaje no es solo la posibilidad de que patrones de entrada pueda ser aprendidos, clasificados e identificados sino la capacidad de generalizacin que posee. Es decir, mientras el aprendizaje tiene lugar en un conjunto de patrones de entrenamiento, una propiedad importante de este, es que la red pueda generalizar sus resultados en un conjunto de patrones de prueba los cuales no han sido vistos durante el aprendizaje. Uno de los problemas a Tener en cuenta es el peligro de sobre aprendizaje, denomina ms tcnicamente sobreajuste.
Apredizaje Supervisado En RNA
Para introducir este tipo de aprendizaje primero presentamos dos de las primeras redes neurales que lo emplearon en su diseo y posteriormente mostraremos dos de las redes neurales ms usadas basadas en la utilizacin de ste.
145
Perceptron simple y Adaline
El perceptor simple fue inicialmente investigado por Rosenblatt en 1962 (Rosenblatt, 1962). El perceptor simple tiene una estructura de varios nodos o neuronas de entrada y uno o ms de salida. Un perceptor simple, por tanto, no tiene capa oculta y as su estructura es como la red neural artificial de la Figura anterior, pero sin ninguna capa oculta o intermedia. Asociado a un patrn de entrada particular, x, tenemos una salida y un blanco o salida correcta t. El algoritmo tiene la siguiente forma: 1. La red comienza en un estado aleatorio. Los pesos entre neuronas poseen valores pequeos y aleatorios (entre -1 y 1). 2. Seleccionar un vector de entrada, X, a partir del conjunto de ejemplos de entrenamiento. 3. Se propaga la activacin hacia delante a travs de los pesos en la red para calcular la salida = W.X. 4. Si =t (es decir, si la salida de la red es correcta) volver al paso 2.
146
5. En caso contrario el cambio de los pesos se realiza atendiendo a la siguiente expresin: W=X(t - ) donde es un numero pequeo positivo conocido como coeficiente de aprendizaje. Volver al paso 2.
Lo que se hace, por tanto, es ajustar los pesos de una manera en la que las salidas de la red, , se vayan haciendo cada vez mas semejantes al valor de los blancos, t, a medida que cada entrada, X, se va presentando a la red. Otra red neuronal importante fue la Adaline (AD Aptative LINear Element), concebida por Widrow y sus colaboradores en 1960 (Windows & Hoff 1960). Su topologa es idntica al perceptor simple, es decir, no tiene capa oculta, pero la red Adaline calcula sus salidas empleando la siguiente expresin: =W X+ Con la misma notacin de antes. La diferencia entre esta red y el Perceptor es la presencia o no de un umbral, . El inters en esta red se debi parcialmente al hecho de que se puede implementar fcilmente empleando un conjunto de resistores e interruptores. La suma del error cuadrtico a partir del uso de esta red en todos los patrones de entrenamiento viene dada por la siguiente expresin: E = E = (t - o) Y el incremento de los pesos viene dado por su gradiente: = - Donde representa el coeficiente de aprendizaje. Esta regla se denomina Error Cuadrtico Medio (Least Mean Square error, LMS) o regla Delta o de Widrow Hoff.
Ahora, en el caso del modelo Adaline con una sola salida, o, tenemos: 147
E E W W y debido a la linealidad de las unidades Adaline,
Por tanto, W = (t- )x Ntese la similitud entre esta regla de aprendizaje y la del perceptor. Sin embargo, esta regla tiene mayor aplicacin ya que se puede usar tanto para neuronas binarias como continuas, es decir, tanto para neuronas cuyas salidas son solamente ceros y unos o aquellos cuya salida son nmeros reales. Es una de las reglas ms potentes y se emplea como base de muchos mtodos que utilizan aprendizaje supervisado. El perceptor simple y el modelo Adaline son reales sin capa intermedia y, por tanto, si ignoramos las funciones de activacin, son equivalentes a una funcin discriminante lineal. Todo lo anterior no es sino un repaso de lo visto en el curso de IA.
Perceptor Multicapa
Tanto el perceptor y el modelo Adaline son mtodos potentes de aprendizaje aunque hay algunas situaciones en las que no dan lugar a buenos resultados. Estos casos se caracterizan por ser no linealmente separables. Hoy en da es posible mostrar que muchos conjuntos de datos que no son linealmente separables pueden ser modelos mediante el empleo del Perceptor Multicapa
148
(Multilayer Perceptor, MLP), es decir una red neural en forma de cascada, que tiene una o ms capas ocultas, como la vista en la Figura anterior. Aunque esta potencialidad del MLP se descubri pronto, se tardo bastante tiempo en encontrar un mtodo o regla de aprendizaje apropiada para construirlas a partir de ejemplos. Esta regla parece que fue descubierta de manera independiente varias veces, y no existe acuerdo de la fecha exacta ni de su descubridor, pero fue popularizada principalmente por el Grupo PDP (Paralel Distributed Procesing) [McClelland et al. 1986], bajo el nombre de Retro propagacin o Programacin hacia atrs. Respecto al uso de la red o de la activacin, la activacin se propaga en la red a travs desde los pesos desde la capa de entrada hacia la capa intermedia donde se aplica alguna funcin de activacin a las entradas que le llegan. Entonces la activacin se propaga a travs de los pesos hacia la capa de salida. Por tanto, si pensamos en el aprendizaje, hay que actualizar dos conjuntos de pesos: aquellos entre la capa oculta o intermedia y la de salida, y aquellos entre la capa de entrada y la capa intermedia. El error debido al primer conjunto de pesos se calcula empleando el mtodo de error cuadrtico medio anteriormente descrito. Entonces se propaga hacia atrs la parte del error debido a los errores que tienen lugar en el segundo conjunto de pesos y se asigna el error proporcional a los pesos que lo causan. Podemos utilizar cualquier numero de capas ocultas que queramos ya que el mtodo es bastante general. Sin embargo, un factor a tener en cuenta es normalmente el tiempo de entrenamiento, en cual puede ser excesivo para arquitecturas con muchas capas. Adems se ha demostrado que redes con una nica capa oculta son capaces de aproximar cualquier funcin continua (o incluso cualquier funcin con solo un numero finito de discontinuidades), en el caso de utilizar funciones de activacin diferenciables (no lineales) en la capa oculta.
149
Sistemas, Aplicabilidad Y Recomendaciones De Uso
Hemos sugerido que el principal rasgo diferenciador en el campo de las redes neuronales artificiales se encuentra entre aquellas redes que emplean aprendizaje supervisado, aplicables, por tanto, a las tareas de clasificacin y regresin, y aquellas dedicadas al aprendizaje no supervisado, utilizables, fundamentalmente, para el agrupamiento, la reduccin de dimensional dad o la transformacin de atributos. Para ponerse mano a la obra, existe infinidad de paquetes y herramientas (muchas ellas gratuitas) para utilizar redes neuronales. Por ejemplo, un simulador de redes neuronales muy conocido en el denominado SNNS (Simulador de Redes Neuronales de Stuttgart) (http://www-ra.informatik.uni-tuebingen.de/SNNS/). Su objetivo es la creacin de un entorno eficiente y flexible que permita simular la actuacin de diferentes redes neuronales. Tambin recomendamos la Toolbox de redes neuronales de Matlab (http://www.mathworks.com/products/neuralnet/), para el estudio, implementacin y aplicacin de diferentes arquitecturas neuronales. Otras herramientas especificas de redes neuronales son
NeuralPlanner, NeuronalDiet o Easy NN (http://www.easynn.com/)
Respecto a las herramientas generales que incorporan tcnicas de redes neuronales, hemos comentado anteriormente, WEKA y Clementine. En realidad, la mayora de paquetes genricos de minera de datos (suites), incorporan al menos retropropagacin y, muchos de ellos, como por ejemplo Clementine, tambin los mapas de Kohonen (SOM) o los RBF. Estos paquetes genricos son recomendables para los principiantes en redes neuronales, ya que permiten utilizar parmetros y topologas por defecto, con resultados aceptables. Las herramientas especficas son ms recomendables cuando ya se tiene un mayor conocimiento y experiencia sobre redes neuronales y
150
se desea obtener todo su potencial, mediante una eleccin precisa de los algoritmos, las topologas y los parmetros. Para finalizar, se debe aclarar que lo presentado aqui es una introduccin a toda una disciplina, la de las redes neuronales, en la que se pueden encontrar muchas ms tcnicas y variantes de las que se han presentado, que son, a nuestro parecer, las ms usuales y tiles en minera de datos. Para ampliar informacin sobre redes neuronales artificiales, tanto como sacar el mximo partido de las tcnicas vistas aqu, como iniciarse en otras tcnicas, se recomiendan los libros: [Isasi & Galvn 2003] y [Haykin 1998].
Leccion 42. Procesamiento analtico en linea El anlisis estadstico suele necesitar el agrupamiento de varios atributos. Considrese una aplicacin en que una tienda desea averiguar las prendas que son ms populares. Supngase que las prendas estn caracterizadas por su nombre de artculo, color y su talla y que se tienen la relacin de ventas asi: Ventas (nombre_ artculo, color, talla, nmeros). Supngase que nombre_ artculo pueda adoptar los valores (falda, vestido, camisa, pantaln) color puede adoptar los valores (pequea, mediana, grande). Dar una relacin utilizada para el anlisis de datos; se puede identificar algunos atributos de medida, ya que miden algun valor y pueden agregarse. Por ejemplo, el atributo nmero de la relacin ventas es un atributo de medida, ya que mide la cantidad de unidades vendidas. A algunos de los dems atributos (o todos ellos) de la relacin se identifican cmo atributos de dimensin ya que definen las dimensiones en las que se ven los atributos de medida y lo resmenes de los atributos de medida. En la relacin ventas, nombre_ Articulo, color y talla son atributos de dimension. (Una versin ms realista de la relacin ventas tendra ms dimensiones, como tiempo o lugar de venta, y ms medidas como el valor monetario de la venta). 151
Los datos que pueden modelarse como atributos de dimensin y como atributos de medida se denominan datos multidimensionales. Para analizar los datos multidimensionales que el administrador desee ver, estn dispuestos como se encuentran en la siguiente tabla ya que muestra las cifras de diferentes combinaciones de nombre articulo y color. El valor de talla se especifica en todas, lo que indica que los valores mostrados son un resumen para todos los valores de talla. La tabla es un ejemplo de tabulacin cruzada, tambin se denomina tabla dinmica. En General, las tabulaciones cruzadas son aquellas en las que los valores de los atributos (por ejemplo, A) forman las cabeceras de las filas, los valores que otra atributo (por ejemplo B ) formar las cabeceras de las columnas y los valores de Celda se obtiene como sigue: cada celda puede identificarse como (Ai,Bj), el Valor de la celda debe obtener por agregacin de las tuplas con ese Valor. En este ejemplo la agregacin utilizada en la suma de los valores del atributo numero, para todos los valores de talla, como se indica por talla: All en la tabla cruzada, en este ejemplo la tabulacin cruzada tambin tiene una columna y una fila adicionales que guardan los totales de las celdas que cada fila o columna. La mayor parte de las tabulaciones tienen esa filas y columnas de resumen. Las tabulaciones cruzadas son diferentes en la tabla relacionales que se puede guardar en las bases de datos, ya que el nmero de columnas de la tabulacin cruzada depende de los datos. Una modificacin en los valores de los datos puede dar lugar a que se aadan mas columnas, lo que noresulta deseable para el almacenamiento de los datos. Nombre_articulo Falda Falda Falda Color Oscuro Pastel Blanco Talla All All All Numero 8 35 10
152
Falda Vestido Vestido Vestido Vestido Camisa Camisa Camisa Camisa Pantaln Pantaln Pantaln Pantaln All All All All
All Oscuro Pastel Blanco ALL Oscuro Pastel Blanco All Oscuro Pastel Blanco All Oscuro Pastel Blanco All
Alla All All All All All All All All All All All All All All All All
53 20 10 5 35 14 7 28 49 20 2 5 27 62 54 48 164
Tabla.Representacin relacional de los datos. Deseable para el almacenamiento de los datos. No obstante, la vista de tabulacin cruzada y deseable para mostrrsela a los usuarios. La presentacin de las tabulaciones cruzadas y valores resumen un formulario relacional con el nmero 153
fijo de columnas. La tabulacin cruzada con columnas o filas resumen, puede representar el valor especial de todos para presentar los subtotales. La norma SQL: en 1999 utiliza realmente el Valor Null (nulo) en lugar de all pero, para evitar confusin con los valores nulos habituales, en el libros se seguira utilizando all. Considrese las Tuplas (falda, all, all, 53) y (vestido, all, all, 35). Se han obtenido heredando las Tuplas individuales con diferentes valores de color y talla, y sustituyendo el valor de nmero por un agregadoes decir, una suma. El valor all puede considerarse representante del conjunto de los valores del atributo. Las Tuplas con el valor all para las dimensiones color y talla pueden obtenerse mediante una agregacin de las relaciones ventas, con una agrupacin en la columna nombre articulo. De manera parecida, se puede utilizar una agrupacin en el color y talla para conseguir las Tuplas con el valor all para nombre artculo, y se puede utilizar una agrupacin sin atributo alguno (que en SQL puede omitirse simplemente) para obtener la tupla con el valor al para nombre artculo, color y talla.
Leccion 43. WEB Mining

En este apartado se describir la minera web, es decir, el problema de extraer informacin a partir de documentos de la web. Las tcnicas de minera web difieren significativamente de las tcnicas vistas hasta ahora ya que la web es un repositorio de gran tamao donde los documentos contienen datos de muy diverso tipo (texto, imgenes, audio, etc.) que son, por tanto, no estructurados o semiestructurados, a diferencia de las bases de datos. Adems, los documentos son hipertexto o hipermedia, al hacer referencias a otros documentos a travs de 154
hipervnculos. Estos hipervnculos pueden ser recorridos o no por distintos usuarios, segn las secuencias de navegacin por la web. Esta diversidad permite minar la web basndose en tres conceptos: el contenido, la estructura y el uso. Como veremos, la minera del contenido web reutiliza todas las tcnicas de la minera de textos y mucha de la recuperacin de informacin. De hecho, la minera de textos y de documentos de marcas englobada dentro de la minera de contenido web. Se debe tener en cuenta las nociones bsicas de las tres modalidades (contenido, estructura y uso) e incluiremos descripciones y referencias de algunas de las tcnicas empleadas en cada una de ellas.
La World Wide Web es el repositorio ms grande y ampliamente conocido de hipertexto. Un documento hipertexto es una coleccin de caracteres (texto) que puede contener, a travs de los hipervnculos, referencias a otros documentos distribuidos en la web. Estos documentos o pginas web estn escritos en una gran diversidad de idiomas y abarcan todos los tpicos del conocimiento humano. La web ha experimentado un crecimiento exponencial desde su aparicin en 1990. El cdigo inicial fue escrito por Berners-Lee en el Laboratorio de Fsica de Altas Energas (CERN) en Suiza. Como l mismo afirm: "el principal objetivo de la web fue tener un espacio de informacin compartido a travs del cual mquinas y personas pudieran comunicarse". El inters era que se pudieran comunicar mquinas y software de diferentes tipos. Para ello, desarroll un identificador de recursos universal (Uniform Resource Locator, URL) para poder referirse a cualquier documento (u otro tipo de recurso) en el universo de informacin. Asimismo, en lugar del protocolo de transferencia de archivos utilizado en ese momento para el intercambio de informacin, cre a partir de l un protocolo de transferencia de hipertexto (Hipertexto Transfer Protocolo, HTTP) ms rpido que el primero y un lenguaje de marcas para hipertexto (HyperText Markup Language, HTML).
155
Actualmente, Internet (incluyendo dentro de este trmino tambin el correo electrnico) es el medio ms popular e interactivo de difundir informacin. Pero esta situacin hace que a menudo los usuarios tengamos una sobrecarga de informacin. Segn [Kosala & Blockeel 2000] algunos de los problemas con los que nos encontramos cuando interactuamos con la web son: Encontrar informacin relevante: cuando un usuario utiliza servicios de bsqueda para encontrar una informacin especfica en la web, normalmente introduce una pregunta con las palabras clave y obtiene como respuesta una lista de pginas coordenadas segn su similitud con la pregunta. Sin embargo, estas herramientas de bsqueda tienen, por lo general, una precisin bastante baja debido a la irrelevancia de muchos de los resultados de la bsqueda. A esto se une su limitada memoria que las hace incapaces de indexar toda la informacin disponible en la web, por lo que se hace incluso ms necesario encontrar la informacin relevante a la pregunta. Crear nuevo conocimiento: la relevancia de la informacin obtenida en las consultas a la web es un problema estrechamente relacionado con el de crear nuevo conocimiento a partir de la informacin disponible en la web, es decir, una vez obtenidos los datos tras el proceso de bsqueda probablemente queramos extraer coincidencias, resmenes, patrones, regularidades y, al fin y al cabo, conocimiento a partir de estos datos. Podemos decir, que si encontrar informacin en la web es un proceso orientado a la recuperacin, la obtencin de conocimiento til es un proceso orientado a la minera de datos. Personalizacin de la informacin: a menudo se asocia este problema con la presentacin y el tipo de la informacin, ya que los diferentes usuarios suelen tener gustos distintos a la hora de preferir ciertos contenidos y presentaciones cuando interactan con la web. Muy relacionado con este problema est el de aprender de los usuarios, es decir, saber qu es lo que los usuarios hacen y quieren. Esto permite personalizar la informacin 156
incluso para un usuario individual (diseo de portales web, de herramientas software, filtros de correo, etc.). La enorme cantidad de informacin disponible hace de la web un rea frtil para la minera de datos cuyas tcnicas pueden resolver los problemas que acabamos de mencionar. Para ello, la minera web se nutre de tcnicas de otras reas de investigacin como las bases de datos, la recuperacin de informacin (Informacin Retrieval, IR) [Salton & McGill 1983; Baeza-Yates & Ribeiro-Neto 1999], el procesamiento del lenguaje natural (Natural Language Procesan, NLP) [Manning & Schtze 1999] y la inteligencia artificial [RusseU & Norvig 2002], especialmente el aprendizaje automtico. Sin embargo, a diferencia de las bases de datos relacionales que poseen una estructura bien definida, la web es poco estructurada por naturaleza. Esto significa que muchas de las tcnicas de minera de datos vistas hasta ahora no pueden aplicarse directamente, deben modificarse o, incluso, deben definirse nuevas tcnicas. De hecho, tradicionalmente, la minera de datos se ha aplicado a las bases de datos, ya que era un formato de fcil procesamiento por los computadores, mientras que la informacin en la web reside en documentos enfocados al consumo humano tales como pginas personales, publicitarias, informacin general o catlogos de productos. Ms an, mucha de esta informacin se presenta como un texto en lenguaje natural, o bien como anotaciones HTML que estructuran la representacin visual de las pginas web pero que proporcionan una escasa idea acerca de su contenido. Otras formas de estructurar la web incluyen ciertas convecciones lingsticas y tipogrficas, clases de documentos semi-estructurados como XML (eXtensible Markup Language) cada da de ms uso para representar datos con cierta estructura, como los catlogos o los ndices y directorios web. Otros datos de inters residen en los archivos .log, en los que los servidores registran informacin sobre las visitas que se efectan a la web, y en las bases de datos que se generan a partir de otra informacin como, por ejemplo, la
157
proporcionada por las cookies. Existen algunas herramientas de anlisis de la web que pueden ser de utilidad al proporcionar respuestas a preguntas como cul es el orden ms habitual al visitar los enlaces de nuestras pginas?, cuntos nuevos visitantes tuvimos el mes pasado? cul es la media de visitas de un cliente?, cunto tiempo est un cliente en nuestras pginas? Estas herramientas analizan y monitorizan el trfico de la web y analizan los archivos log (normalmente transformando los datos a un formato inteligible como resmenes agregados o grafos). En [Mena 1999] se incluye una comparacin entre algunas de estas herramientas. Las herramientas de anlisis y estadsticas de sitios web que se proporcionan junto a los servidores web (frecuentemente mal etiquetadas bajo el trmino "minera web") proporcionan vistas y resmenes de los datos de un modo similar a las herramientas clsicas de representacin y solarizacin estadsticas y las herramientas OLAP. Al igual que stas, son buenas para generar informes agregados o grficas, lo cual puede ser de gran inters para disear, administrar y manipular webs, pero no permiten realizar otras actividades, como la extraccin de patrones sobre el comportamiento de los usuarios, o bien estudiar la relevancia y clasificacin de pginas y documentos. Las verdaderas herramientas de minera de datos pueden proporcionar al administrador de la web informacin adicional para responder a cuestiones mucho ms sofisticadas, como, por ejemplo, cules seran los visitantes ms adecuados para una nueva lnea de productos?, cul es el perfil de mis visitantes?, qu organizacin del portal favorece las compras?, qu pginas web fomentan el abandono del sitio web? Si bien es cierto que estas cuestiones podran responderse con herramientas de anlisis a base de tratar de definir criterios y perfiles y ver cundo se cumplen y cundo no (siguiendo un mtodo de prueba y error), en un entorno tan dinmico como la web sera un proceso temporalmente muy costoso (cuando no imposible) y susceptible de cometer errores. Sin embargo, con herramientas de minera de datos, encontrar, por ejemplo, grupos de clientes a partir de archivos log es casi inmediato usando tcnicas de 158
agrupamiento, o categorizar documentos sobre ciertos temas utilizando tcnicas de clasificacin, o determinar qu pginas llevan a comprar que producto mediante reglas de asociacin secuenciales, etc. A continuacin, definiremos el concepto de minera web, estudiaremos su relacin con otros conceptos relacionados y presentaremos una clasificacin de la minera web atendiendo al tipo de datos que se minan (el contenido, la estructura o el uso).
Atizona [Atizona 1996] defini la minera web como el uso de tcnicas de minera de datos para descubrir y extraer informacin automticamente desde el World Wide Web.
El Proceso de Minera Web
La minera web puede descomponerse en las siguientes subreas: 1. Descubrimiento de las fuentes: localizar los documentos y servicios en la web. 2. Seleccin y pre-procesado de la informacin: extraer automticamente informacin especfica desde las fuentes web descubiertas. 3. Generalizacin: descubrir patrones generales desde los sitios web individuales as como desde mltiples sitios. 4. Anlisis: validacin y/o interpretacin de los patrones minados. La primera tarea hace referencia al proceso de recuperar los datos desde las fuentes textuales de la web, tales como los correos y los boletines electrnicos, los grupos de noticias, el texto en los documentos HTML (una vez procesadas las etiquetas) o cualquier otro tipo de documento hipertexto (pdfs, Xml, etc.). El trabajo de descubrir las fuentes se centra principalmente en el uso de ndices de documentos web. Esto ha dado lugar al desarrollo de una serie de herramientas 159
(los llamados buscadores) que recuperan documentos relevantes, usando normalmente tcnicas de recuperacin basadas en palabras claves (una tcnica clsica de la IR). La lista de documentos recuperados suele priorizarse de acuerdo a diferentes criterios de relevancia. Algunos de los ndices ms populares han sido creados por robots web como Google (http://www.google.com/), Alta vista (http://www.altavista.com/), http://www.webcrawler.com/), Excite Lycos (que comercializa WebCrawler, y Yahoo!
(http://.www.lycos.co/),
(http://www.yahoo.com/). Aunque en si estos buscadores no hacen actividades de minera de datos, su funcionalidad puede extenderse para incluir otras actividades del tipo minera. La segunda tarea incluye cualquier proceso de seleccin y/o transformacin de los datos originales obtenidos en la etapa anterior. Para lo primero, existen algunos sistemas de extraccin de informacin, como por ejemplo Harvest [Brown et al. 1994], que es entre otras cosas capaz de encontrar el titulo y el autor de documentos Latex, o FAQ-Finders [Hammond et al. 1995], que extrae las repuestas a las preguntas ms frecuentes (Frequently Asked Questions) a partir de archivos FAQ disponibles en la web. La transformacin de los datos seleccionados comprende cualquier pre-procesamiento tanto los orientados a eliminar las palabras de fin, las etiquetas, etc., como los destinados a obtener la presentacin deseada, por ejemplo en forma de frases, en lgica de primero orden, etc. La tercera etapa, la de generalizacin, es la etapa central de la minera web y es en la que se realiza el proceso de minera en s. Para ello, la minera web ha adaptado tcnicas de la minera de datos (corno las reglas de asociacin, el agrupamiento, etc.), de la IR (corno algunas tcnicas para la categorizacin y la clasificacin de textos) y ha desarrollado algunas tcnicas propias, corno por ejemplo el anlisis de caminos (web paths) usado para extraer secuencias de patrones de navegacin desde archivos log.
160
La ltima etapa se ocupa de desarrollar tcnicas y herramientas que permitan el consumo humano del conocimiento minado (a menudo ste no es directamente utilizable por los analistas). Estas herramientas deben incorporar mtodos estadsticos (para manipular los patrones), de visualizacin (para facilitar su anlisis) as corno el conocimiento explcito que sobre el dominio del problema posee el analista (para contrastar el conocimiento minado con el que se posea anteriormente sobre el problema). La tecnologa de los agentes inteligentes podra ser un buen medio para construir herramientas automticas de este estilo. Todas estas tareas recuerdan a las tareas que componen el proceso general de extraccin de conocimiento KDD ya visto con anterioridad. De hecho, la definicin de minera web es idntica a la del proceso KDD salvo que aqu la fuente de los datos es la web.
Leccin 44. Disciplinas relacionadas
Adems de el proceso de KDD, la minera web se asocia a los procesos de recuperacin de la informacin (IR, del ingls Informacin Retrieval) y de extraccin de la informacin (IE, del ingls Informacin Extraction), aunque no son exactamente lo mismo. Algunas de las diferencias apuntadas en [Kosala & Blockeel 2000] son: Minera web e IR: La IR tiene como objetivo principal el indexado de texto y la bsqueda de documentos tiles en una coleccin, aunque actualmente la investigacin en IR incluye la modelizacin, la clasificacin y categorizacin de documentos, interfaces de usuario, visualizacin de datos filtrados, etc. Es decir, la IR ([Saltan & McGill 1983; Baeza-Yates & Ribeiro-Neto 1999]) est interesada en seleccionar documentos relevantes. La tarea de la minera web ms relacionada es la de la clasificacin y categorizacin de documentos web, los cuales pueden usarse para la indexacin. 161
Minera web e IE: La lE tiene como objetivo principal la transformacin de una coleccin de documentos en informacin para que sea ms fcilmente comprendida y analizada. En otras palabras, la IE se centra en extraer hechos relevantes desde documentos. Bsicamente, existen dos tipos de IE: desde textos no estructurados y desde datos semi-estructurados. Los mtodos clsicos de IE (por ejemplo, [Cardie 1997; Wilks 1997]) tratan con textos (no estructurados) escritos en lenguaje natural y tienen su raz en la comunidad del procesamiento de lenguaje natural. Estos mtodos se basan en algn tipo de pre-procesado lingstico, corno el anlisis sintctico, el anlisis semntica y el anlisis del discurso. Con la creciente popularidad de la web, se ha puesto de manifiesto que los sistemas clsicos de IE no son apropiados para medios tan dinmicos y diversos como la web y que es necesario sistemas estructurales que extraigan informacin desde
documentos semi-estructurados. Estos sistemas estructurales (por ejemplo, [Muslea 1999; Kushmerick et al. 1997; Hsu & Dung 1998]) utilizan metainformacin, como las etiquetas HTML o los delimitadores. Para su construccin se usan tcnicas de minera de datos y de aprendizaje automtico, ya que construir los sistemas manualmente no es apropiado para este medio.
Clasificacin de la Minera Web
Generalmente, en la literatura clasifica la minera web en tres reas de inters en funcin de la parte de la web que se mina: minera del contenido, minera de la estructura y minera del uso. La minera del contenido de la web describe el descubrimiento de informacin til desde los contenidos textuales y grficos de los documentos web, y tiene sus orgenes en el procesamiento del lenguaje natural y en la recuperacin de la informacin, (tal y como hemos comentado en la seccin anterior). Analiza, por 162
tanto, documentos, ms que los enlaces entre ellos. Los contenidos de la web han cambiado sustancialmente desde su origen. Al principio, Internet consista en diferentes tipos de servicios y fuentes de datos, casi todos textuales y estticos. Ahora, podemos encontrar una gran variedad de datos: libreras digitales accesibles desde la web, las bases de datos de muchas empresas que ofrecen electrnicamente sus negocios y servicios, aplicaciones y sistemas que estn siendo migrados a la web o emergen en este entorno. De hecho, algunos de los datos en la web son ocultos ya que se generan dinmicamente o se obtienen como respuesta a preguntas cuyos datos residen en bases de datos privadas. Resumiendo, los contenidos en la web pueden ser de varios tipos: textual, imgenes, audio, video, meta-datos e hipervnculos, y constan de datos no estructurados (texto), datos muy poco estructurados (como en los documentos HTML), datos semi-estructurados (como los documentos XML) y datos ms estructurados (como los contenidos en bases de datos generadas desde paginas HTML). Sin embargo, como la mayora del contenido corresponde a texto no estructurado, esta es el rea ms investigada. La minera de la estructura de la web trata de descubrir el modelo subyacente a la estructura de enlaces de la web y analiza, fundamentalmente, la topologa de los hipervnculos (con o sin descripcin de los enlaces). Este modelo puede usarse para categorizar pginas web y es til para generar informacin como la similitud y relacin entre diferentes sitios web, as como para detectar pginas autoridades y pginas concentradores (que apuntan a pginas autoridades), estudiar topologas, etc. La minera de uso de la web es el proceso de analizar la informacin sobre los accesos web disponibles en los servidores web. A diferencia de las mineras de contenido y de estructura que usan datos reales sobre la web, la minera de uso mina datos secundarios derivados de la interaccin de los usuarios mientras interactan con la web. Estos datos incluyen los archivos de log de acceso al servidor, log del navegador, log de los servidores proxy, perfiles de usuario, datos de registros, sesiones o transacciones del usuario, cookies, preguntas del usuario, 163
pulsos del ratn y desplazamientos por las pginas, y en general cualquier otro dato fruto de la interaccin. Dada la enorme cantidad de informacin disponible en la web y la gran diversidad de la misma, uno de sus principales usos es el de buscar informacin. La principal diferencia entre las tcnicas de recuperacin de informacin y las tcnicas de minera del contenido de la web es que las primeras ayudan a los usuarios a encontrar documentos que satisfacen sus necesidades de informacin, mientras que las segundas permiten descubrir, reconocer o derivar informacin nueva a partir de uno o, generalmente, varios documentos. La minera del contenido de la web ha sido principalmente aplicada para dos objetivos que corresponden a dos puntos de vista diferentes: visin desde IR: para asistir, mejorar o filtrar la informacin que los buscadores proporcionan a los usuarios a partir de los perfiles de los mismos (los cuales a su vez pueden haber sido inferidos o bien solicitados). Este objetivo tambin incluye los documentos que se reciben por correo, por grupos de noticias u otros medios diferentes de la navegacin. visin desde Bases de Datos: modelar e integrar los datos encontrados en la web para permitir preguntas ms sofisticadas que las bsquedas basadas en palabras clave. Muchas de las aplicaciones tienen por tarea la extraccin de esquemas o la construccin de DataGuides ([Nestorov et al. 1998; Goldman & Widom 1999]), de las que hablaremos en la seccin de minera de marcado (21.3.4). Los diferentes tipos de datos contenidos en la web han dado lugar a diferentes tcnicas de minera de datos para los diferentes formatos en los que stos se presentan. As, la aplicacin de tcnicas de minera a textos no estructurados se conoce como minera de textos (Text Mining), cuando se trata de texto semiestructurado (XML, HTML, etc.) recibe el nombre de minera del marcado (Markup Mining), si se trata de datos multimedia hablamos de minera multimedia (Multimedia Mining), finalmente, si slo nos referimos a los enlaces entre 164
documentos o en el propio documento, pero sin tener en cuenta la estructura, recibe el nombre de minera de hipertexto (Hipertexto Mining). De hecho, a los documentos HTML, al ser sus marcas fundamentalmente de formato y no de contenido, se les suele eliminar las marcas y se les trata como textos. Mineria de la Estructura de la Web
Uno de los principales problemas cuando interactuamos con la web es encontrar informacin interesante. Los buscadores basados en ndices (como Google, AltaVista, Yahoo!, Excite o InfoSeek) han sido unas de las primeras herramientas con las que han contado los usuarios para buscar informacin en la web. Si bien son tiles para usuarios experimentados o cuando se buscan pginas sobre un tpico muy concreto, pueden no ser tan adecuadas para un concepto muy general contenido en miles o millones de pginas, lo que obligara al usuario a revisar un excesivo nmero de pginas. Por lo tanto, a la hora de buscar tpicos en la web cuyo resultado sea de un tamao razonable para el ser humano, necesitamos identificar las pginas web ms significativas o definitivas (autoridades) en el tpico. Esta nocin de autoridad aade una segunda dimensin crucial a la nocin de relevancia: deseamos no solo localizar un conjunto de pginas relevantes sino que adems sean de una alta calidad. En segundo lugar, la web consta no solo de pginas sino tambin de hipervnculos que conectan una pgina a otra. Estos hipervnculos representan la intencin por parte del autor de "incluir" la pgina referenciada, lo cual puede ser de inters para inferir automticamente la nocin de autoridad y hacernos una buena idea de la relevancia y calidad de los contenidos de la web. En el modelo ms simple, el hipertexto se representa como un grafo (D, L) donde D es el conjunto de pginas o documentos y L el conjunto de enlaces. Dado que la teora de las redes sociales estudia las propiedades relacionadas con la conectividad y las distancias en grafos, recientemente se ha aplicado este tipo de anlisis y el anlisis de citaciones al grafo de la web con el propsito de identificar
165
las paginas mas acertadas con relacin a la pregunta del usuario ([Chakrabarti 2003]) recogiendo la idea intuitiva de que el documento mas citado o mas referenciado es el ms importante.
Leccion 45. Mineria de Textos

El objetivo de la minera de textos es el descubrimiento de nueva informacin a partir de colecciones de documentos de texto no estructurado. Por no estructurado nos referimos a texto libre, generalmente en lenguaje natural aunque tambin podra ser cdigo fuente u otro tipo de informacin textual. La tarea de minera ms habitual sobre estos datos es la categorizacin, la clasificacin y el agrupamiento de los textos. Podemos decir que la categorizacin es la tarea que identifica las categoras, temas, materias o conceptos presentes en los textos, mientras que la clasificacin es la tarea de asignar una clase o categora a cada documento. Existen en la literatura otras definiciones diferentes para la categorizacin de textos, como la de [Dumais et al. 1998]: la asignacin de textos en lenguaje natural a una o ms categoras predefinidas basadas en sus contenidos. Otros autores tienden a ver la categorizacin como una parte de la clasificacin, por lo que categorizacin y clasificacin se usan como sinnimos. Nosotros aqu usaremos la siguiente taxonoma: Agrupamiento de documentos: para organizar los documentos entorno a una jerarqua basndose en alguna medida de similitud.
166
Identificacin de categoras: extraccin de trminos significativos (es muy parecido al anlisis de relevancia de atributos y est relacionado con el agrupamiento). Categorizacin: asignar una o ms categoras a un documento (esta es la que se usa en el resto del libro). Clasificacin: asignar una (y solo una) clase a un documento. Asociaciones: generalmente entre conceptos ms que entre palabras. Una aproximacin muy usual a la categorizacin, si se tienen pocas categoras, digamos n, es convertir el problema en n problemas de clasificacin binaria, en el que cada clasificador (i) se limita a decir si el documento es de la clase (i) o no. La minera automtica de textos juega un papel importante en una amplia variedad de tareas de manipulacin de la informacin ms dinmicas y personalizadas, como en el orden en tiempo real del correo electrnico o archivos en jerarquas de carpetas, en el filtro del correo electrnico, bsqueda estructurada y/o en los navegadores web, identificacin de tpicos para soportar operaciones de procesamiento especificas a un tpico, catalogacin de nuevos artculos y pginas web y en los agentes de informacin personal.
En la minera de textos lo primero en realizar es representar el texto en algn formato concreto que pueda ser adecuado para los algoritmos de aprendizaje. Esto se realiza en dos pasos. El primero consiste en usar una representacin ms abstracta, siendo las ms habituales en IR las siguientes: Bolsas de palabras (bag of Word [Sahami et a1. 1996; Lagus et al. 1999]): llamada tambin representacin basada en vectores, ya que cada documento se representa como un vector de dimensin J, siendo J el numero de palabras y en donde cada palabra constituye una componente del vector y representa una caractersticas, la cual puede ser booleana (aparece o no en el documento) o basada en frecuencias (el nmero de 167
veces que ha aparecido en el documento). Esta representacin ignora el orden de aparicin de las palabras en el texto y es una de las ms empleadas en el rea de la IR. Frases ([Frank et al. 1999]): esta representacin consiste simplemente en considerar el documento como un conjunto de frases sintcticas, tal y como se hace en el anlisis del procesamiento de lenguaje natural. Esta representacin permite mantener el contexto en el que ocurre una palabra, hecho que se pierde en la representacin anterior. N-gramas ([Kargupta et al. 1997a]): permiten usar la informacin sobre la posicin de la palabra en el texto, ya que este se representa mediante secuencias de palabras de longitud mxima n, llamadas n-gramas. Permiten un mejor tratamiento de las frases negativas como excepto... o pero no... que de otra forma tomaran como relevantes las palabras que les siguen. Representacin relacional ([Cohen 1995b]): la representacin usando lgica de primer orden permite detectar patrones ms complejos. Por ejemplo, cada palabra se puede representar mediante un tomo de la forma wi(d,p), el cual es cierto cundo la palabra wi ocurre en el documento d en la posicin p. Categoras de conceptos ([Deerwester et al. 1990]): tambin llamado Indexacion Semntica Latente (Latent Semantic Indexing) ya que tiene como objetivo la reduccin de la dimensin del vector de palabras inicial reduciendo las palabras a su raz morfolgica, es decir, las palabras informando, informacin, informado" e "informador" se representaran por su raz informe" y solo esta palabra se usara como componente del vector. Esta reduccin tiene que ser cuidadosa, ya que otras palabras aparentemente con la misma raz pueden no tener relacin con el trmino. En el ejemplo anterior, "informal" e informtica" tienen poca relacin. Casi todas estas representaciones se enfrentan al problema del vocabulario ([Furnias et al. 1987]), es decir, tienen errores semnticos debido a la sinonimia 168
(diferentes palabras con el mismo significado), la quas-sinonimia (palabras relacionadas con la misma materia, como declaracin y comunicado), la polisemia (palabras iguales con diferente significado), los lemas (palabras con el mismo radical como descubrir y descubrimiento), etc. Aunque se han realizado algunos estudios comparando las distintas representaciones (como por ejemplo [Scott & Matwin 1999]), en general no se han encontrado diferencias sustanciales en cuanto a las prestaciones de los algoritmos usando una u otra, aunque en un problema especifico s que pueden aparecer diferencias. El segundo paso consiste en reducir el conjunto de caractersticas original (reduccin de la dimensionalidad en el rea del reconocimiento de patrones), ya que el conjunto de caractersticas que resultan de las representaciones descritas puede ser de cientos de miles, algo inabordable para muchos de los algoritmos de aprendizaje inductivos. La primera aproximacin consiste en eliminar palabras con poca semntica, como son los artculos, preposiciones y conjunciones. En [Moulinier 1996] se describen dos maneras ms elaboradas para reducir la dimensionalidad del vector basadas en el mbito y en la naturaleza del problema. La reduccin por mbito tiene que ver con la universalidad del conjunto de caractersticas, mientras que la reduccin por naturaleza describe como se seleccionan los atributos (por filtrado o por transformacin. Se han empleado un gran nmero de tcnicas del aprendizaje automtico y estadsticas a la categorizacin de textos, incluyendo modelos de regresin multivariante ([Yang & Chute 1994]), clasificadores del vecino ms prximo ([Yang 1994]), modelos bayesianos ([Jochis 1996; Lewis & Ringuette 1994]), arboles de decisin ([Lewis & Ringuette 1994]), redes neuronales ([Schiitze et al. 1995]), aprendizaje de reglas simblicas ([Cohen 1995b]) Y maquinas de vectores soporte ([Jochis 1998]).
Las tematicas de los ltimos captulos pueden ser profundizadas a criterio del estudiante en la referencia citada del libro: Introduccion a la Mineria de Datos. 169
Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. De Pearson, el cual ha sido una excelente fuente para la creacin de este modulo, ya que ilustra de manera adecuada cada uno de los ejemplos; a la vez se citan las paginas para mayor entendimiento de aquellos estudiantes que quieran profundizar ms, respetando por completo los derechos de autor como se mencion en la introduccin de este modulo.
170
ANEXOS
Oracle SQL Developer Submitted by carlos on 30 April, 2008 - 23:55

Bases de datos Bases de datos Oracle SQLServer MySQL gratuito herramientas IDE oracle SQL developer
Versin para impresin Oracle SQL Developer es la herramienta grfica gratuita que proporciona Oracle para que no sea necesario utilizar herramientas de terceros (como el conocido TOAD, o el PL/SQL Developer) para desarrollar, o simplemente para ejecutar consultas o scripts SQL, tanto DML como DDL, sobre bases de datos Oracle. La apariencia y funcionalidad es similar a la de otras herramientas de este tipo, por lo que es una buena opcin si no tenemos especial predileccin por otras herramientas. Adems en las ltimas versiones ha incorporado mejoras como permitir conectar con bases de datos no Oracle, como SQLServer, MySQL o Access. La conexin con MySQL o SQLServer se realiza a travs de JDBC, y de manera bastante sencilla. Una vez establecida la conexin se pueden explorar los objetos de las bases de datos como si se tratara de una de Oracle, y ejecutar sobre ellas sentencias SQL, aunque en cuanto a funcionalidades ms avanzadas como la creacin de estructuras este tipo de conexin estar mucho ms limitada. Se puede consultar ms informacin o descargar la www.oracle.com/technology/software/products/sql/index.html herramienta en
171
Conectar Oracle SQL Developer con MySQL A modo de ejemplo comentar los sencillos pasos que se pueden seguir para poder utilizar SQL Developer con una BD MySQL:

Descargar y descomprimir el driver JDBC para MySQL, que se puede obtener en la zona de descargas de conectores de la web de MySQL. En el directorio generado localizar el archivo .jar, que es el binario que contiene el conector. El nombre ha de ser algo as como ' mysql-connectorjava-...-bin.jar'. Para que lo tengis an ms fcil adjunto la versin 5.1.7, que es la que yo he utilizado ahora. En la opcin de men Herramientas, entrar en Preferencias.. y abrir las opciones de Base de datos y seleccionar Controladores JDBC de Terceros. Hacer click sobre el botn Agregar Entrada, y con el explorador de archivos seleccionar el archivo .jar que hemos descargado.
172
Despus de esto, en la ventana que se abre al agregar conexiones os debera aparecer una nueva pestaa MySQL que permite definir una conexin con MySQL.
173
Conectar Oracle SQL Developer con SQL Server y Sybase Comento tambin los pasos que se pueden seguir para poder utilizar SQL Developer con una BD SQL Server o Sybase, aunque lo nico que cambia es el driver que se utiliza:
Descargar y descomprimir el driver JDBC para SQL Server/ Sybase. El proyecto open source jTDS proporciona un driver que sirve para ambas bases de datos. Slo hay que seleccionarlo de la seccin de Download En el directorio generado localizar el archivo .jar, que es el binario que contiene el conector. El nombre ha de ser algo as como ' jtds-... .jar'. Para que lo tengis an ms fcil adjunto la versin 1.2.3, que es la que yo he utilizado ahora. En la opcin de men Herramientas, entrar en Preferencias.. y abrir las opciones de Base de datos y seleccionar Controladores JDBC de Terceros. Hacer click sobre el botn Agregar Entrada, y con el explorador de archivos seleccionar el archivo .jar que hemos descargado. Despus de esto, en la ventana que se abre al agregar conexiones os debera aparecer una nueva pestaa MySQL que permite definir una conexin con MySQL. 174
Servidor virtual con Pentaho configurado Submitted by carlos on 7 October, 2008 - 14:18

Business Intelligence Data warehouse OLAP Cuadro de mando Pentaho Tendencias tecnolgicas Software libre centos Data warehouse Minera de datos centos imagen virtual instalacion Pentaho virtualbox vmware
Versin para impresin 175
Hemos preparado servidores virtuales con una instalacin preconfigurada de Pentaho, la conocida plataforma open source de Business Intelligence (Pentaho BI PCI). Podis descargar libremente una mquina virtual preparada con el software de virtualizacin Sun VirtualBox 2.0, y otra con VM ware server 2.0: Descarga de maquina virtual para Virtual para Box VMware
Descarga de maquina virtual (Paciencia con la descarga, los archivos son muy grandes)
La instalacin de Pentaho Se ha hecho una instalacin de Pentaho BI Suite PCI, que es la instalacin de Pentaho que viene preconfigurada con la versin 1.7 GA (estable) de la suite, y con una base de datos Hypersonic (HSQLDB) operativa, con datos de prueba para que puedan ejecutarse los informes y 'aplicaciones' que podemos encontrar en el portal de ejemplo que tenemos accesible al levantar el servidor. Se puede utilizar esta instalacin para probar la plataforma en tu propia mquina/servidor explorando las opciones del portal, o incluso se puede usar como base para construir un sistema propio de BI con Pentaho. Slo hay que crear una nueva mquina virtual con el software de virtualizacin y hacer que arranque desde los archivos que hemos descargado. Se entra al sistema con el usuario dataprix, contrasea dataprix. Al arrancar la mquina ya levantamos el servidor de BI automticamente, por lo que lo nico que hay que hacer para utilizar Pentaho es abrir el explorador Firefox, que tiene como pgina de inicio la del portal. Los usuarios del portal ya tienen la contrasea introducida, por lo que con dos clicks ya podremos comenzar a explorar los informes.
176
De todas maneras, indico cmo se puede detener y levantar el servidor por si alguien quiere hacerlo manualmente: Para levantarlo: 1. Hacer doble click en el Icono Terminal del escritorio 2. En la ventana del terminal ejecutar los siguientes comandos: $ cd pentaho-demo (directorio de la demo) $ ./start-pentaho.sh (shell de arranque de la plataforma) 3. Esperar a que en el terminal aparezca el mensaje Pentaho BI server listo 4. Abrir el navegador Firefox (icono al lado de la opcin de men Sistema) La url de acceso al portal es http://localhost:8080/pentaho Para detener el servidor Pentaho, abriendo otro terminal: $ $ ./stop-pentaho.sh cd pentaho-demo
177
Las herramientas de Virtualizacin VirtualBox Virtual Box est disponible para Linux, OS X (Mac) y Windows, y dispone de una edicin gratuita de evaluacin y uso personal, y otra Open Source sujeta a las condiciones de la licencia GPL. De esta manera nuestra imagen podr utilizarse libremente en cualquier entorno, siempre que se respeten las condiciones de las licencias. Se instala con facilidad en cualquier entorno, y su funcionamiento es muy intuitivo, pero adjunto el manual de usuario para quien no conozca la herramienta, o quiera utilizar opciones avanzadas.
Para utilizar nuestro servidor virtual se pueden seguir estos sencillos pasos: 1. Instalar VirtualBox 2. Descargar el disco virtual desde Imagen virtual Pentaho VirtualBox 3. Descomprimirlo en el directorio de discos virtuales de VirtualBox, normalmente se llama VDI 4. Ejecutar VirtualBox y crear una nueva mquina con el asistente de la aplicacin, escogiendo el tipo de Sistema Operativo Red Hat, 512 Mb de memoria (esto es una sugerencia), y el disco virtual descargado como disco de inicio. 5. Arrancar la mquina haciendo doble click sobre ella. Agradecemos a Oscar Osta la preparacin de la imagen virtual con la instalacin de CentOS que nos ha servido como base. VMware Seguramente es el software de virtualizacin ms utilizado, y tambin dispone de versiones que se pueden utilizar libremente, aunque no para todos los sistemas operativos. Como hay varios productos de VMWare que permiten trabajar con la mquina virtual que hemos preparado (VMware Player, VMware Server, VMware Infrastructure..), os remitimos a la propia web de WMware para descargar cualquiera de ellos o consultar la documentacin. De todas maneras, con la mayora de estos productos la manera de proceder sera muy similar: 1. Instalar un producto de VMWare que permita arrancar la mquina virtual 178
2. Descargar la maquina virtual desde Imagen virtual Pentaho VMware 3. Descomprimirla en el directorio de discos virtuales de VMware.., normalmente My virtual machines, en la carpeta de documentos del usuario. 4. Ejecutar VMware.. y agregar una nueva mquina al inventario seleccionando de los archivos descargados el de extensin .vmx. 5. Arrancar la mquina haciendo doble click sobre ella.
El Sistema Operativo Como Sistema Operativo base para la instalacin de Pentaho se ha escogido CentOS 5. Las razones tambin tienen que ver con el uso que se le pueda dar a esta imagen. Este SO Linux est basado en el cdigo fuente libre que utiliza Red Hat Enterprise Linux y, a efectos prcticos, funciona de la misma manera que esta conocida versin empresarial de Linux, y est orientado tambin a un uso empresarial, pero es totalmente de libre distribucin. Se puede utilizar hasta en un entorno de produccin, y la mayora de la documentacin y prcticas de RedHat son aplicables a CentOS. Se ha creado el usuario dataprix. El password tanto de este usuario como del usuario root es tambin dataprix.
179
Esta es la instalacin de Pentaho ms bsica, que est configurada para funcionar en local y sobre Hypersonic, perfecta para evaluar las posibilidades de este software Open Source de Business Intelligence, o para una primera toma de contacto sin muchas complicaciones. Tambin sirve como base para preparar cosas ms complejas, y espero en un futuro poder ir ampliando esta mquina virtual con nuevas funcionalidades, configuraciones, pruebas o demos interesantes. Si alguien utiliza esta imagen como base para hacer algo interesante agradeceremos que nos lo cuente, o que se ponga en contacto con nosotros si quiere que alojemos su 'versin'. Igualmente cualquier comentario, duda, idea o sugerencia ser bienvenido en nuestro foro, en el tema Imagen Virtual con Pentaho. Oracle SQL Developer Submitted by carlos on 30 April, 2008 - 23:55 180
Bases de datos Bases de datos Oracle SQLServer MySQL gratuito herramientas IDE oracle SQL developer
Versin para impresin Oracle SQL Developer es la herramienta grfica gratuita que proporciona Oracle para que no sea necesario utilizar herramientas de terceros (como el conocido TOAD, o el PL/SQL Developer) para desarrollar, o simplemente para ejecutar consultas o scripts SQL, tanto DML como DDL, sobre bases de datos Oracle. La apariencia y funcionalidad es similar a la de otras herramientas de este tipo, por lo que es una buena opcin si no tenemos especial predileccin por otras herramientas. Adems en las ltimas versiones ha incorporado mejoras como permitir conectar con bases de datos no Oracle, como SQLServer, MySQL o Access. La conexin con MySQL o SQLServer se realiza a travs de JDBC, y de manera bastante sencilla. Una vez establecida la conexin se pueden explorar los objetos de las bases de datos como si se tratara de una de Oracle, y ejecutar sobre ellas sentencias SQL, aunque en cuanto a funcionalidades ms avanzadas como la creacin de estructuras este tipo de conexin estar mucho ms limitada. Se puede consultar ms informacin o descargar la www.oracle.com/technology/software/products/sql/index.html herramienta en
181
Conectar Oracle SQL Developer con MySQL A modo de ejemplo comentar los sencillos pasos que se pueden seguir para poder utilizar SQL Developer con una BD MySQL:

Descargar y descomprimir el driver JDBC para MySQL, que se puede obtener en la zona de descargas de conectores de la web de MySQL. En el directorio generado localizar el archivo .jar, que es el binario que contiene el conector. El nombre ha de ser algo as como ' mysql-connectorjava-...-bin.jar'. Para que lo tengis an ms fcil adjunto la versin 5.1.7, que es la que yo he utilizado ahora. En la opcin de men Herramientas, entrar en Preferencias.. y abrir las opciones de Base de datos y seleccionar Controladores JDBC de Terceros. Hacer click sobre el botn Agregar Entrada, y con el explorador de archivos seleccionar el archivo .jar que hemos descargado.
182
Despus de esto, en la ventana que se abre al agregar conexiones os debera aparecer una nueva pestaa MySQL que permite definir una conexin con MySQL.
183
Conectar Oracle SQL Developer con SQL Server y Sybase Comento tambin los pasos que se pueden seguir para poder utilizar SQL Developer con una BD SQL Server o Sybase, aunque lo nico que cambia es el driver que se utiliza:
Descargar y descomprimir el driver JDBC para SQL Server/ Sybase. El proyecto open source jTDS proporciona un driver que sirve para ambas bases de datos. Slo hay que seleccionarlo de la seccin de Download En el directorio generado localizar el archivo .jar, que es el binario que contiene el conector. El nombre ha de ser algo as como ' jtds-... .jar'. Para que lo tengis an ms fcil adjunto la versin 1.2.3, que es la que yo he utilizado ahora. En la opcin de men Herramientas, entrar en Preferencias.. y abrir las opciones de Base de datos y seleccionar Controladores JDBC de Terceros. Hacer click sobre el botn Agregar Entrada, y con el explorador de archivos seleccionar el archivo .jar que hemos descargado. Despus de esto, en la ventana que se abre al agregar conexiones os debera aparecer una nueva pestaa MySQL que permite definir una conexin con MySQL. 184
185
Conclusiones La minera de datos es un proceso que permite a un usuario extraer conocimiento de sus datos y que pueden ser tiles para la toma de decisiones. Debido a que en muchos casos los datos de entrada contienen diferentes tipos de problemas, se ha creado el proceso KDD, el cual organiza de forma esquemtica cada una de las etapas necesarias para extraer patrones de calidad. Este esquema incluye desde la seleccin y limpieza de los datos hasta tcnicas para la evaluacin de patrones, donde la minera de datos se ubica en el centro del proceso. La minera de datos es una herramienta muy poderosa, sin embargo, es necesario tener un conocimiento sobre los datos, de tal forma que permita seleccionar los mejores mtodos para el proceso de minera.
186
BIBLIOGRAFIA
Jose Hernandez Orralle-Jose Ramirez Quintana-Cesar Ferri Ramirez. Pearson. Prentice Hall,Introduccion a la minera de datos Cesar Perez. Daniel Santn,Data Mining Soluciones con Enterprise Miner.. Alfaomega- Rama. Jorge Enrique Rodriguez Rodriguez., Fundamentos de Mineria de Datos. Jorge Enrique Rodriguez Rodriguez. Universidad Distrital Francisco Jos de Caldas. Fundamentos de Sistemas de bases de datos (quinta edicin)RAMEZ ELMARS departamento de loscomputadores. Jose Manuel Diaz(Person Eddision Wesley) Ramez Elmars. Fundamentos de sistemas de bases de datos (quinta edicin) Departamento de Computadoras y aplicaciones. Jos Manuel Daz. Introduccin a la Minera de Datos(Pearson Eddison Wesley). Jos Hernndez Orralle- Jos Ramrez Quintana-Cesar Ferri Ramrez. Introduccin a la minera de datos.( Pearson. Prentice Hall). Pablo Valderrey Sanz. Extraccin del conocimiento a partir del anlisis de datos. Ra-ma. Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and OLAP. USA, 1997. Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining and OLAP. USA, 1997. Mc Graw Hill. Mara Jos Ramrez Quintana Jos Hernndez Orallo. Extraccin Automtica del Conocimiento en Bases de Datos e Ingeniera del Software. Espaa, 2003. UOC.
187
IBM Press. IBM DB2 IntelligentMinerfor Data: Utilizacin del Visualizador de Asociaciones. IBM Press, USA, 1999. Otras referenciadas relacionadas a los largo del Modulo. Colin J. White. IBM Enterprise Analytics for the Intelligent e-Business. IBM Press, USA, 2001.
188

Modulo Mineria de Datos II 2012u

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modulo Mineria de Datos II 2012u

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD Escuela de Ciencias Bsicas Tecnologa e Ingeniera Curso Minera de Datos

MODULO MINERIA DE DATOS COD 201170

JOSE MIGUEL HERRAN SUAREZ

UNIDAD 1: MINERIA DE DATOS

Capitulo I:Conceptos Fundamentales

La MD slo tiene sentido cuando se dispone de grandes volmenes de datos?

Para una documentacin e ilustracin ms acorde, se acude a la URL

Generalmente, dos ideas bsicas:

ESTRUCTURA DEL SISTEMA

FIGURA 2. DISTINTO ENFOQUE

Leccion 2. Disponibilidad de Software

Algoritmos y tcnicas usadas:

Investigacin > software comercial > aceptacin

FIGURA 4. DISPONIBILIDAD DE SOFTWARE COMERCIAL

SOFTWARE LIBRE WEKA

Leccion 3. Ejemplos de aplicaciones de la Minera de Datos.

Comercio al por menor/marketing

Banca Deteccin de patrones de uso fraudulento de tarjetas de crdito. 21

Objetivos Especficos de la Minera de Datos

El entorno de la minera de datos suele tener una arquitectura cliente servidor.

complementndose con otra herramienta.

Las bases de datos comerciales estn creciendo a un ritmo sin precedentes.

investigar inteligentemente hasta encontrar exactamente donde residen los valores.

Grandes bases de datos, a su vez, producen mejores predicciones.

Primer acercamiento a una aplicacin con MD en una empresa

Objeto de la empresa Actividades desarrollar a

Producto Responsable entregar

Leccin 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos

6.1 Proceso de Descubrimiento del Conocimiento (KDD)

FIGURA 5: JERARQUA DEL CONOCIMIENTO.

Leccin 7. Diagrama del Proceso de KDD

Figura 6: Proceso de KDD

Seleccionar y aplicar el mtodo de minera de datos apropiado, esto incluye:

Leccion. 8. Etapas de abordaje.

Evaluacin, interpretacin, transformacin y representacin de los patrones extrados:

Evaluacion de los datos.

Interpretar los resultados y posiblemente regresar a los pasos anteriores.

Difusin y uso del nuevo conocimiento.

FIGURA 7.ETAPAS EN EL PROCESO DE KDD. 36

A continuacin se describen a mayor detalle cada una de las etapas.

FIG. 8 EJEMPLOS DE IMAGENES DE CLULAS CON LEUCEMIA.

FIG. 10. LA MINERA DE DATOS Y SU RELACIN CON OTRAS REAS DE CONOCIMIENTO.

Leccion 10. Evaluacin de Patrones

Actividad cierre Capitulo II Caso de Estudio. Tomado Fuente: http://es.scribd.com/doc/31587475/Ejemplos-de-Mineria-de-Datos

clulas sanguneas inmaduras. Esta proliferacin se origina a nivel de la mdula sea.

FIG. 11 CLASIFICACIN DE LEUCEMIAS AGUDAS.

1.3 Capitulo III Reglas de Asociacin usadas en Minera de Datos.

Leccin 11. Identificacin de las reglas de asociacin.

Principales funciones de la data mining: Concepto de patrones secuenciales (Secuencial patterns)

Leccion 12. Algoritmos para la busqueda de reglas asociadas.

y el primer elemento se coloca en su posicin correcta, el arreglo resultante es:

x = [12] 25 [57 48 37 92 86 33]

Ahora repetimos el procedimiento con los dos subarreglos

x = 12 25 [48 37 33] 57 [92 86]

x = 12 25 33 [37 48] 57 [86] [92]

int t, l=lo, h=ho, mid;

imponen una jerarqua, la jerarqua categrica hace

FIGURA 13. INSERCIN EN LA RELACIN COMPRAS CON UNA JERARQUA.

Leccion 13.Redes Bayesianas.

causales suponen un desafo, si determinamos

Pensar en instrumentos de escritura

Comprar plumasplplu mas plumas Comprar plumas lpices

FIGURA 14. GENERALIDAD DE UNA RED BAYESIANA

Leccion 14. Arboles de Decision. (Repaso)