You are on page 1of 20

2.

2 MINERAO DE DADOS

A minerao de dados pode ser considerada como uma parte do processo de Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in Databases). Segundo Goebel e Gruenwald (1999), o termo KDD usado para representar o processo de tornar dados de baixo nvel em conhecimento de alto nvel, enquanto minerao de dados pode ser definida como a extrao de padres ou modelos de dados observados. A minerao de dados combina mtodos e ferramentas das seguintes reas: aprendizagem de mquina, estatstica, banco de dados, sistemas especialistas e visualizao de dados, conforme Figura 2.1 (Cratochvil, 1999).

Sistemas Especialistas

Aprendizagem de Mquina

KDD Banco de Dados Visualizao Estatstica

Figura 2.1: A Minerao de Dados como um Campo Multidisciplinar

2.2.1 Conceito de Minerao de dados

Minerao de dados a explorao e a anlise, por meio automtico ou semiautomtico, de grandes quantidades de dados, a fim de descobrir padres e regras significativos (Berry e Linoff, 1997, p.5). Os principais objetivos da minerao de dados so descobrir relacionamentos entre dados e fornecer subsdios para que possa ser feita uma previso de tendncias futuras baseada no passado.

Fundamentao Terica

Os resultados obtidos com a minerao de dados podem ser usados no gerenciamento de informao, processamento de pedidos de informao, tomada de deciso, controle de processo e muitas outras aplicaes. A minerao de dados pode ser aplicada de duas formas: como um processo de verificao e como um processo de descoberta (Groth, 1998). No processo de verificao, o usurio sugere uma hiptese acerca da relao entre os dados e tenta prov- la aplicando tcnicas como anlises estatstica e multidimensional sobre um banco de dados contendo informaes passadas. No processo de descoberta no feita nenhuma suposio antecipada. Esse processo usa tcnicas, tais como descoberta de regras de associao, rvores de deciso, algoritmos genticos e redes neurais.

2.2.2 Origem dos Dados

As tcnicas de minerao de dados podem ser aplicadas sobre bancos de dados operacionais ou sobre Data Warehouse (DW) ou Data Mart, nos quais geralmente resulta uma informao melhor, pois os dados normalmente so preparados antes de serem armazenados no DW ou data mart (Dias et al, 1998). Podem ser aplicadas, tambm, sobre um data set, que pode ser definido como um banco de dados (em um sentido fraco do termo) contendo apenas o conjunto de dados especfico para um tipo de investigao a ser realizada. Um DW um conjunto de dados baseado em assuntos, integrado, no-voltil e variante em relao ao tempo, de apoio s decises gerenciais (Inmon, 1997, p.33). No princpio, a expresso representava simplesmente um armazm de dados, como a traduo de DW; porm, ao longo do tempo, vem recebendo diversos incrementos em sua estrutura. Um DW tem por objetivo oferecer organizao, gerenciamento e integrao de bancos de dados, assim como ferramentas de explorao dos mesmos, para se obter vantagens competitivas no mercado. construdo tendo como base outros bancos de dados operacionais que podem estar implementados em diferentes plataformas na organizao. usado, geralmente, em aplicaes de suporte tomada de deciso. Um data mart um DW departamental, ou seja, um DW construdo para uma rea especfica da organizao (Inmon, 1997). A tcnica de data mart facilita a tomada de decises em nvel departamental e permite dados relacionais ou multidimensionais no volteis (Dias et al, 1998).

Fundamentao Terica

2.2.3 Tarefas Desempenhadas por Tcnicas de Minerao de dados As tcnicas de minerao de dados podem ser aplicadas a tarefas1 como classificao, estimativa, associao, segmentao e sumarizao. Essas tarefas so descritas a seguir. a) Classificao A tarefa de classificao consiste em construir um modelo de algum tipo que possa ser aplicado a dados no classificados visando categoriz- los em classes. Um objeto examinado e classificado de acordo com uma classe definida (Harrison, 1998). A tarefa de classificao pode ser considerada uma tarefa mal definida, indeterminstica, que inevitvel pelo fato de envolver predio (Freitas, 2000, p. 65). So exemplos de tarefas de classificao (Goebel e Gruenwald, 1999), (Mehta et al, 1996): classificar pedidos de crditos como de baixo, mdio e alto risco; esclarecer pedidos de seguros fraudulentos; identificar a forma de tratamento na qual um paciente est mais propcio a responder, baseando-se em classes de pacientes que respondem bem a determinado tipo de tratamento mdico. b) Estimativa (ou Regresso) A estimativa usada para definir um valor para alguma varivel contnua desconhecida como, por exemplo, receita, altura ou saldo de carto de crdito (Harrison, 1998). Ela lida com resultados contnuos, enquanto que a classificao lida com resultados discretos. Ela pode ser usada para executar uma tarefa de classificao, convencionando-se que diferentes faixas (intervalos) de valores contnuos

correspondem a diferentes classes. Regresso aprender uma funo que mapea um item de dado para uma varivel de predio real estimada (Fayyad, 1996, p. 13). Como exemplos de tarefas de estimativa tem-se (Fayyad, 1996), (Harrison, 1998): estimar o nmero de filhos em uma famlia; estimar a renda total de uma famlia; estimar o valor em tempo de vida de um cliente; estimar a probabilidade de que um paciente morrer baseando-se nos resultados de um conjunto de diagnsticos mdicos; prever a demanda de um consumidor para um novo produto.

Neste contexto, tarefa um tipo de problema de descoberta de conhecimento a ser solucionado.

Fundamentao Terica

c) Associao A tarefa de associao consiste em determinar quais itens tendem a coocorrerem (serem adquiridos juntos) em uma mesma transao. O exemplo clssico determinar quais produtos costumam ser colocados juntos em um carrinho de supermercado, da o termo anlise de market basket . As cadeias de varejo usam associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos prximos entre si (Harrison, 1998). A tarefa de associao pode ser considerada uma tarefa bem definida, determinstica e relativamente simples, que no envolve predio da mesma forma que a tarefa de classificao (Freitas, 2000, p. 65). d) Segmentao (ou Clustering) A segmentao um processo de partio de uma populao heterognea em vrios subgrupos ou clusters mais homogneos (Harrison, 1998). Na segmentao, no h classes predefinidas, os registros so agrupados de acordo com a semelhana, o que a diferencia da tarefa de classificao. Exemplos de segmentao: agrupar os clientes por regio do pas, agrupar clientes com comportamento de compra similar (Goebel e Gruenwald, 1999); agrupar sees de usurios Web para prever comportamento futuro de usurio (Mobasher et al, 2000). e) Sumarizao Segundo Fayyad (1996), a tarefa de sumarizao envolve mtodos para encontrar uma descrio compacta para um subconjunto de dados. Um simples exemplo desta tarefa poderia ser tabular o significado e desvios padro para todos os itens de dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao. As tarefas de minerao de dados, descritas acima, so apresentadas de forma resumida na Tabela 2.1.

Fundamentao Terica

Tabela 2.1: Tarefas Realizadas por Tcnicas de Minerao de Dados


TAREFA Classificao DESCRIO Constri um modelo de algum tipo que possa ser aplicado a dados no classificados a fim de categoriz -los em classes Usada para definir um valor para alguma varivel contnua desconhecida EXEMPLOS ?? Classificar pedidos de crdito ?? Esclarecer pedidos de seguros fraudulentos ?? Identificar a melhor forma de tratamento de um paciente ?? Estimar o nmero de filhos ou a renda total de uma famlia ?? Estimar o valor em tempo de vida de um cliente ?? Estimar a probabilidade de que um paciente morrer baseando-se nos resultados de diagnsticos mdicos ?? Prever a demanda de um consumidor para um novo produto ?? Determinar quais os produtos costumam ser colocados juntos em um carrinho de supermercado ?? Agrupar clientes por regio do pas ?? Agrupar clientes com comportamento de compra similar ?? Agrupar sees de usurios Web para prever comportamento futuro de usurio ?? Tabular o significado e desvios padro para todos os itens de dados ?? Derivar regras de sntese

Estimativa (ou Regresso)

Associao

Segmentao (ou Clustering)

Usada para determinar quais itens tendem a co-ocorrerem (serem adquiridos juntos) em uma mesma transao Processo de partio de uma populao heterognea em vrios subgrupos ou grupos mais homogneos Envolve mtodos para encontrar uma descrio compacta para um subconjunto de dados

Sumarizao

2.2.4 Tcnicas de Minerao de dados

Harrison (1998) afirma que no h uma tcnica que resolva todos os problemas de minerao de dados. Diferentes mtodos servem para diferentes propsitos, cada mtodo oferece suas vantagens e suas desvantagens. A familiaridade com as tcnicas necessria para facilitar a escolha de uma delas de acordo com os problemas apresentados. A seguir so descritas as tcnicas de minerao de dados normalmente usadas. a) Descoberta de Regras de Associao A tcnica de descoberta de regras de associao estabelece uma correlao estatstica entre certos itens de dados em um conjunto de dados (Goebel e Gruenwald, 1999).

Fundamentao Terica

Uma regra de associao tem a forma geral X1 ^ ... ^ Xn => Y [C,S], onde X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com um suporte mnimo de S e ^ denota um operador de conjuno (AND). Um exemplo desta regra pode ser que 90% dos clientes que compram leite, tambm compram po; o percentual de 90% chamado a confiana da regra. O suporte da regra leite => po o nmero de ocorrncias deste conjunto de itens na mesma transao. A tcnica de descoberta de regras de associao apropriada tarefa de associao. Como exemplos de algoritmos que implementam regras de associao tem- se: Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP (Chen et al, 1996). b) rvores de Deciso Uma rvore de deciso uma rvore onde cada n no terminal representa um teste ou deciso sobre o item de dado considerado (Goebel e Gruenwald, 1999). O objetivo principal separar as classes; tuplas de classes diferentes tendem a ser alocadas em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das vantagens principais das rvores de deciso o fato de que o modelo bem explicvel, uma vez que tem a forma de regras explcitas (Harrison, 1998). A tcnica de rvore de deciso, em geral, apropriada s seguintes tarefas: classificao e regresso. Alguns exemplos de algoritmos de rvore de deciso so: CART, CHAID, C5.0, Quest (Two Crows, 1999), ID-3 (Chen et al, 1996), SLIQ (Metha et al, 1996) e SPRINT (Shafer et al, 1996). c) Raciocnio Baseado em Casos Tambm conhecido como MBR (Memory-Based Reasoning raciocnio baseado em memria), o raciocnio baseado em casos tem base no mtodo do vizinho mais prximo. O MBR procura os vizinhos mais prximos nos exemplos conhecidos e combina seus valores para atribuir valores de classificao ou de previso (Harrison, 1998, p. 195). Tenta solucionar um dado problema fazendo uso direto de experincias e solues passadas. A distncia dos vizinhos d uma medida da exatido dos resultados.

Fundamentao Terica

Na aplicao do MBR, segundo Berry e Linoff (1997), existem quatro passos importantes: 1) escolher o conjunto de dados de treinamento; 2) determinar a funo de distncia; 3) escolher o nmero de vizinhos mais prximos; e 4) determinar a funo de combinao. A tcnica de raciocnio baseado em casos apropriada s seguintes tarefas: classificao e segmentao. Os seguintes algoritmos implementam a tcnica de raciocnio baseado em casos: BIRCH (Zhang et al, 1996), CLARANS (Chen et al, 1996) e CLIQUE (Agrawal et al, 1998). d) Algoritmos Genticos Os algoritmos genticos so mtodos generalizados de busca e otimizao que simulam os processos naturais de evoluo. Um algoritmo gentico um procedimento iterativo para evoluir uma populao de organismos e usado em minerao de dados para formular hipteses sobre dependncias entre variveis, na forma de algum formalismo interno (Goebel e Gruenwald, 1999). Os algoritmos genticos usam os operadores de seleo, cruzamento e mutao para desenvolver sucessivas geraes de solues. Com a evoluo do algoritmo, somente as solues com maior poder de previso sobrevivem, at os organismos convergirem em uma soluo ideal (Harrison, 1998). A tcnica de algoritmos genticos apropriada s tarefas de classificao e segmentao. Exemplos de algoritmos genticos: Algoritmo Gentico Simples (Goldberg, 1989), Genitor e CHC (Whitley, 1993), Algoritmo de Hillis (Hillis, 1997), GA-Nuggets (Freitas, 1999), GA-PVMINER (Arajo et al, 1999). e) Redes Neurais Artificiais As redes neurais so uma classe especial de sistemas modelados seguindo analogia com o funcionamento do crebro humano e so formadas de neurnios artificiais conectados de maneira similar aos neurnios do crebro humano (Goebel e Gruenwald, 1999). Como no crebro humano, a intensidade de interconexes dos neurnios pode alterar (ou ser alterada por algoritmo de aprendizagem) em resposta a um estmulo ou uma sada obtida que permite a rede aprender (Goebel e Gruenwald, 1999, p. 23).

Fundamentao Terica

Uma das principais vantagens das redes neurais sua variedade de aplicao, mas os seus dados de entrada so difceis de serem formados e os modelos produzidos por elas so difceis de entender (Harrison, 1998). A tcnica de redes neurais apropriada s seguintes tarefas: classificao, estimativa e segmentao. Exemplos de redes neurais: Perceptron, Rede MLP, Redes de Kohonen, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000), (Braga, 2000), (Haykin, 2001). A Tabela 2.2 apresenta um resumo das tcnicas de minerao de dados aqui descritas. Tabela 2.2: Tcnicas de Minerao de Dados
TCNICA Descoberta de Regras de Associao rvores de Deciso DESCRIO TAREFAS Estabelece uma correlao ?? Associao estatstica entre atributos de dados e conjuntos de dados ?? Classificao ?? Regresso EXEMPLOS Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP (Chen et al, 1996). CART, CHAID, C5.0, Quest (Two Crows, 1999); ID-3 (Chen et al, 1996); SLIQ (Metha et al, 1996); SPRINT (Shafer et al, 1996). BIRCH (Zhang et al, 1996); CLARANS (Chen et al, 1996); CLIQUE (Agrawal et al, 1998). Algoritmo Gentico Simples (Goldberg, 1989); Genitor, CHC (Whitley, 1993); Algoritmo de Hillis (Hillis, 1997); GA -Nuggets (Freitas, 1999); GA -PVMINER (Arajo et al, 1999). Perceptron, Rede MLP, Redes de Kohonen, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000), (Braga, 2000), (Haykin, 2001)

Hierarquizao dos dados, baseada em estgios de deciso (ns) e na separao de classes e subconjuntos Raciocnio Baseado no mtodo do Baseado em Casos vizinho mais prximo, ou MBR combina e compara atributos para estabelecer hierarquia de semelhana Algoritmos Mtodos gerais de busca e Genticos otimizao, inspirados na Teoria da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de ter descendentes Redes Neurais Artificiais Modelos inspirados na fisiologia do crebro, onde o conhecimento fruto do mapa das conexes neuronais e dos pesos dessas conexes

?? Classificao ?? Segmentao

?? Classificao ?? Segmentao

?? Classificao ?? Segmentao

Fundamentao Terica

2.2.5 Como Escolher a Tcnica de Minerao de dados mais Adequada

A escolha de uma tcnica de minerao de dados a ser aplicada no uma tarefa fcil. Segundo Harrison (1998), a escolha das tcnicas de minerao de dados depender da tarefa especfica a ser executada e dos dados disponveis para anlise. Harrison (1998) sugere que a seleo das tcnicas de minerao de dados deve ser dividida em dois passos: 1) traduzir o problema de negcio a ser resolvido em sries de tarefas de minerao de dados; 2) compreender a natureza dos dados disponveis em termos de contedo e tipos de campos de dados e estrutura das relaes entre os registros. Essa escolha pode ser baseada, tambm, em critrios para classificao das tcnicas. Uma relao desses tipos de critrios dada por Harrison (1998). Diferentes esquemas de classificao podem ser usados para categorizar mtodos de minerao de dados sobre os tipos de bancos de dados a serem estudados, os tipos de conhecimento a serem descobertos e os tipos de tcnicas a serem utilizadas (Chen et al,1996, p.4), como pode ser visto a seguir: ?? Com que tipos de bancos de dados trabalhar: Um sistema de descoberta de conhecimento pode ser classificado de acordo com os tipos de bancos de dados sobre os quais tcnicas de minerao de dados so aplicadas, tais como: bancos de dados relacionais, bancos de dados de transao, orientados a objetos, dedutivos, espaciais, temporais, de multimdia, heterogneos, ativos, de herana, banco de informao de Internet e bases textuais. ?? Qual o tipo de conhecimento a ser explorado: Vrios tipos de conhecimento podem ser descobertos por extrao de dados, incluindo regras de associao, regras caractersticas, regras de classificao, regras discriminantes, grupamento, evoluo e anlise de desvio. ?? Qual tipo de tcnica a ser utilizada: A extrao de dados pode ser categorizada de acordo com as tcnicas de minerao de dados subordinadas. Por exemplo, extrao dirigida a dados, extrao dirigida a questionamento e extrao de dados interativa. Pode ser categorizada, tambm, de acordo com a abordagem de minerao de dados subordinada, tal como: extrao de dados baseada em generalizao, baseada em padres, baseada em teorias estatsticas ou matemticas, abordagens integradas, etc.

Fundamentao Terica

10

Atualmente, a descoberta de regras de associao parece ser uma das tcnicas de minerao de dados mais utilizada, sendo encontrada em diversas pesquisas (Agrawal e Srikant, 1994), (Chen et al, 1996), (Hipp et al, 2000), (Holsheimer et al, 1996), (Mannila, 1997), (Viveros et al, 1996).

2.2.6 reas de Aplicao de Tcnicas de Minerao de dados

A seguir, so relacionadas as principais reas de interesse na utilizao de minerao de dados, de acordo com Cratochvil (1999), (Mannila, 1996), (Viveros et al, 1996): ?? Marketing. Tcnicas de minerao de dados so aplicadas para descobrir preferncias do consumidor e padres de compra, com o objetivo de realizar marketing direto de produtos e ofertas promocionais, de acordo com o perfil do consumidor. ?? Deteco de fraudes. Muitas fraudes bvias (tais como, a compensao de cheque por pessoas falecidas) podem ser encontradas sem minerao de dados, mas padres mais sutis de fraude podem ser difceis de serem detectados, por exemplo, o desenvolvimento de modelos que predizem quem ser um bom cliente ou aquele que poder se tornar inadimplente em seus pagamentos. ?? Medicina : caracterizar comportamento de paciente para prever visitas, identificar terapias mdicas de sucesso para diferentes doenas, buscar por padres de novas doenas. ?? Instituies governamentais : descoberta de padres para melhorar as coletas de taxas ou descobrir fraudes. ?? Cincia: tcnicas de minerao de dados podem ajudar cientistas em suas pesquisas, por exemplo, encontrar padres em estruturas moleculares, dados genticos, mudanas globais de clima, oferecendo concluses valiosas rapidamente. ?? Controle de processos e controle de qualidade : auxiliar no planejamento estratgico de linhas de produo e buscar por padres de condies fsicas na embalagem e armaze namento de produtos.

Fundamentao Terica

11

?? Banco: detectar padres de uso de carto de crdito fraudulento, identificar clientes leais, determinar gastos com carto de crdito por grupos de clientes, encontrar correlaes escondidas entre diferentes indicadores financeiros. ?? Aplice de seguro : anlise de reivindicaes determinar quais procedimentos mdicos so reivindicados juntos, prever quais clientes compraro novas aplices, identificar padres de comportamento de clientes perigosos, identificar

comportamento fraudulento. ?? Transporte : determinar as escalas de distribuio entre distribuidores, analisar padres de carga. ?? C & T (Cincia e Tecnologia): avaliar grupos de pesquisa do pas (Gonalves, 2000), (Romo, 1999). ?? Web: existem muitas pesquisas direcionadas aplicao de minerao de dados na Web, tais como: (Loh et al, 2000), (Kosala e Blockeel, 2000), (Ma et al, 2000), (Mobasher et al, 2000), (Sarawagi e Nagaralu, 2000), (Spiliopoulou, 2000).

2.2.7 O Processo de Descoberta de Conhecimento

O processo de descoberta de conhecimento um mtodo semi-automtico complexo e iterativo (Mannila, 1996). De acordo com Groth (1998), ele pode ser dividido em cinco passos bsicos: preparao de dados, definio de um estudo, construo de um modelo, entendimento do modelo e predio. Para Lans (1997), existe um passo que antecede a preparao de dados, trata-se da definio de objetivos. A Figura 2.2 representa o processo de descoberta de conhecimento. A seguir, os passos bsicos do processo de descoberta de conhecimento so descritos. 1) Definio de Objetivos Neste passo, deve-se definir os objetivos de negcio que devero ser alcanados com a minerao de dados e o que dever ser feito com os seus resultados, como por exemplo: mudana de plano de marketing.

Fundamentao Terica

12

Definio de Objetivos

? Planejamento de ao ? Planejamento de avaliao de resultados

Acesso e Preparao de Dados

? Seleo e transformao dos dados ? Registro no Metadados ? Registro do DW, DM ou DS

Definio de um Estudo

? Articular um alvo ? Escolher uma varivel dependente ? Especificar os campos de dados usados no estudo

Construo de um Modelo

? Aplicao de uma tcnica de minerao de dados

Anlise do Modelo

? Anlise baseada no tipo de tcnica de minerao de dados aplicada

Predio

? Escolha do melhor resultado possvel

Figura 2.2: Processo de Descoberta de Conhecimento

2) Preparao de dados A preparao de dados envolve as tarefas de seleo e transformao dos dados. Os tipos de dados selecionados podem estar organizados ao longo de mltiplas tabelas. Durante a seleo de dados, o usurio pode necessitar executar junes de tabelas ou eliminar linhas e/ou colunas de tabelas. Os mtodos de transformao incluem organizar dados na forma desejada e converter um tipo de dado em outro tipo. A definio de

Fundamentao Terica

13

novos atributos outro tipo de transformao que pode envolver aplicar operadores matemticos ou lgicos sobre os valores de um ou mais atributos. Os dados selecionados e transformados so armazenados em um DW, data mart ou data set. Para facilitar a realizao desta fase, deve ser mantido um catlogo sobre as fontes de dados e sobre o que est no DW, data mart e data set no metadados. Os metadados so dados sobre as estruturas contidas em banco de dados. O metadados facilita o entendimento sobre o contedo e a estrutura de um DW, bem como a histria das modificaes realizadas. A realizao das tarefas deste passo exige conhecimento dos dados operacionais e de seus relacionamentos, disponibilidade de tempo do analista e/ou usurio e alguns cuidados na escolha de subconjuntos de atributos e de dados. Becher et al (2000) apresentam uma abordagem para a automatizao desse passo e Hsu et al (2000) propem o uso de um sistema semi-automtico de limpeza de dados. Pyle (1999) descreve uma metodologia de preparao de dados. 3) Definio de um estudo Definir um estudo pode envolver articular um alvo, escolher uma varivel dependente ou uma sada que caracterize um aspecto do alvo e especificar os campos de dados que so usados no estudo. Bons estudos so unidos para caracterizar aquilo que pode ser descrito com seus dados. Por outro lado, o alvo pode ser usado para agrupar tipos similares de dados ou para identificar excees em um conjunto de dados. A identificao de excees geralmente usada na descoberta de fraude ou de dados incorretos. As atividades realizadas neste passo complementam os objetivos de negcio, definidos anteriormente, aps a obteno de um conhecimento mais detalhado sobre os dados operacionais existentes. 4) Construo de um modelo A construo de um modelo feita atravs de uma tcnica de minerao de dados, tendo como base os dados transformados e o estudo definido no passo anterior. Um modelo resume grandes quantidades de dados por acumular indicadores. Alguns dos indicadores que vrios modelos acumulam so: a) freqncias: mostram em qual freqncia que um certo valor ocorre; b) pesos ou impactos: indicam a influncia exercida por algumas entradas na ocorrncia de uma sada; c) conjunes: algumas

Fundamentao Terica

14

vezes certas entradas tm mais peso juntas do que separadas; d) diferenciao: indica a importncia de uma entrada para uma determinada sada do que para uma outra sada. 5) Entendimento do modelo Dependendo do tipo de modelo usado para representar os dados, existem diferentes formas de entend- lo. Os indicadores que muitos modelos podem acumular, conforme descritos no passo anterior, podem influenciar no entendimento do modelo, alm do tipo de tcnica de minerao de dados aplicada na construo do modelo. 6) Predio A predio o processo de escolher o melhor resultado possvel baseado na anlise de dados histricos. O usu rio deve analisar a informao descoberta de acordo com sua tarefa de suporte deciso e objetivos. Portanto, ele precisa ter um bom entendimento sobre o negcio da empresa e sobre o conhecimento descoberto.

2.2.8 Metodologias para Sistemas de Descoberta de Conhecimento

O desenvolvimento de um sistema de descoberta de conhecimento em banco de dados uma tarefa muito complexa, principalmente pela caracterstica de indeterminismo deste tipo de sistema. Portanto, imprescindvel o uso de uma metodologia completa e sistemtica.

Uma metodologia de engenharia de software um processo para a produo organizada de software, com utilizao de uma coleo de tcnicas predefinidas e convenes notacionais. Uma metodologia costuma ser apresentada como uma srie de etapas, com tcnicas e notao associadas a cada etapa. (Rumbaugh et al, 1994, p. 191).

Os

trabalhos

que

se

propem

apresentar

uma

metodologia

para

desenvolvimento de sistemas de descoberta de conhecimento no incluem formalismo na especificao desses sistemas. Normalmente, as metodologias propostas procuram solucionar questes relativas a determinadas etapas do processo de desenvolvimento desses sistemas e no apresentam notao para representar as caractersticas do sistema como um todo.

Fundamentao Terica

15

A seguir, so relacionados trs trabalhos que propem uma metodologia para sistemas de descoberta de conhecimento em banco de dados. a) Metodologia de Klemettinen Klemettinen et al (1997) apresentam uma metodologia que pode ser usada para automatizar aquisio de c onhecimento. As fases dessa metodologia so aquelas j definidas por outros autores (Fayyad, 1996), (Mannila, 1996): pr-processamento, transformao, descoberta, apresentao e utilizao (ver Figura 2.3). No entanto, maior nfase dada nas duas fases centrais dessa metodologia: ?? Fase de descoberta de padres: onde so encontrados todos os padres potencialmente relevantes para algum critrio bastante livre; ?? Fase de apresentao: onde so fornecidos mtodos flexveis para iterativa e interativamente criar diferentes vises para os padres descobertos.

Figura 2.3: O Modelo do Processo KDD (Klemettinen et al, 1997)

Nas duas primeiras fases do processo, os dados so coletados e preparados de forma adequada para descoberta de padres. Uma viso geral sobre os dados pode ser produzida nesta fase. Os atributos ident ificados como irrelevantes so removidos e novos atributos podem ser derivados. Na fase de descoberta de padres, todos os padres potencialmente interessantes so gerados do conjunto do data set. A apresentao do conhecimento descoberto uma parte princ ipal dessa metodologia. Nesta fase, os padres relevantes podem ser localizados de grandes colees de padres potencialmente relevantes.

Fundamentao Terica

16

b) Metodologia de Feldens Feldens et al (1998) propem uma metodologia integrada, na qual as tecnologias de minerao de dados e data warehouse, bem como questes de visualizao tm papis muito importantes no processo. Tambm supe uma forte interao entre mineradores de dados e pessoas da organizao para questes de modelagem e preparao de dados. As fases definidas para esta metodologia so: pr-processamento, minerao de dados e ps-processamento, conforme Figura 2.4.

Figura 2.4: Processo KDD (Feldens et al, 1998)

A fase de pr-processamento inclui tudo o que feito antes da minerao de dados, o que significa a anlise que feita na organizao a fim de enfocar o projeto de minerao de dados, a anlise dos dados existentes, integrao de fontes de dados, transformaes de dados, etc. A fase de minerao de dados inclui a aplicao de algoritmos, possivelmente a aplicao repetida. A escolha dos algoritmos pode ser realizada baseando-se na anlise que feita na fase de pr-processamento. A fase de ps-processamento pode ser definida por operaes de filtragem, estruturao e classificao. Somente aps esta fase, o conhecimento descoberto

Fundamentao Terica

17

apresentado ao usurio. O conhecimento descoberto pode ser filtrado por alguma medida estatstica, por exemplo, suporte, confiana ou outro critrio definido pelo usurio. Estruturao significa que o conhecimento pode ser organizado de forma hierrquica. c) Modelo de Processo CRISP-DM O Modelo de Processo CRISP-DM (CRoss-Industry Standard Process for Data Mining) define um processo de minerao de dados no linear (CRIP-DM, 2001), conforme pode ser visto na Figura 2.5.

Entendimento do Negcio

Entendimento dos Dados

Preparao de Dados Utilizao


Dados

Modelagem

Avaliao

Figura 2.5: Fases do Modelo de Processo CRISP-DM (CRISP-DM, 2001)

Neste modelo, o ciclo de vida do projeto de minerao de dados consiste de seis fases. A seqncia dessas fases no rigorosa, depende do resultado de cada fase ou de qual tarefa particular de uma fase precisa ser executada na prxima fase. As flechas indicam as dependncias mais importantes e freqentes entre as fases. O crculo externo na figura simboliza a natureza cclica da minerao de dados. Um processo de minerao de dados continua aps uma soluo ter sido descoberta. Os processos de minerao de dados subseqentes se beneficiaro das exp erincias anteriores.

Fundamentao Terica

18

A seguir, cada fase do modelo definida sucintamente. A fase inicial do processo, Entendimento do Negcio (Business Understanding), visa o entendimento dos objetivos do projeto e dos requisitos sob o ponto de vista do negcio. Baseado no conhecimento adquirido, o problema de minerao de dados definido e um plano preliminar projetado para ativar os objetivos. A fase Entendimento dos Dados (Data Understanding) inicia com uma coleo de dados e procede com atividades que visam: buscar familiaridade com os dados, identificar problemas de qualidade de dados, descobrir os primeiros discernimentos nos dados ou detectar subconjuntos interessantes para formar hipteses da informao escondida. A fase Preparao de Dados (Data Preparation) cobre todas as atividades de construo do dataset final. As tarefas de preparao de dados so, provavelmente, desempenhadas vrias vezes e no em qualquer ordem prescrita. Estas tarefas incluem seleo de tabelas, registros e atributos, bem como transformao e limpeza dos dados para as ferramentas de modelagem. Na fase Modelagem (Modelling), vrias tcnicas de modelagem so selecionadas e aplicadas e seus parmetros so ajustados para valores timos. Geralmente, existem vrias tcnicas para o mesmo tipo de problema de minerao de dados. Algumas tcnicas tm requisitos especficos na formao de dados. Portanto, retornar fase de preparao de dados freqentemente necessrio. Na fase Avaliao (Evaluation), o modelo (ou modelos) construdo na fase anterior avaliado e so revistos os passos executados na sua construo para se ter certeza de que o modelo representa os objetivos do negcio. O principal objetivo determinar se existe alguma questo de negcio importante que no foi suficientemente considerada. Nesta fase, uma deciso sobre o uso dos resultados de minerao de dados dever ser alcanada. Aps o modelo (ou modelos) ser construdo e avaliado, na fase Utilizao, ou Aplicao, ( eployment) ele pode ser usado de duas formas. Na primeira forma, o D analista pode recomendar aes a serem tomadas baseando-se simplesmente na viso do modelo e de seus resultados. Na segunda forma, o modelo pode ser aplicado a diferentes conjuntos de dados.

Fundamentao Terica

19

2.2.9 Ferramentas de Minerao de dados

De acordo com Goebel e Gruenwald (1999), muitas ferramentas atualmente disponveis so ferramentas genricas da Inteligncia Artificial ou da comunidade de estatstica. Tais ferramentas geralmente operam separadamente da fonte de dados, requerendo uma quantidade significativa de tempo gasto com exportao e importao de dados, pr- e ps-processamento e transformao de dados. Entretanto, segundo os autores, a conexo rgida entre a ferramenta de descoberta de conhecimento e a base de dados analisada, utilizando o suporte do SGBD (Sistema de Gerenciamento de Banco de Dados) existente, claramente desejvel. Para Goebel e Gruenwald (1999), as caractersticas a serem consideradas na escolha de uma ferramenta de descoberta de conhecimento devem ser as seguintes: ?? A habilidade de acesso a uma variedade de fontes de dados, de forma on-line e offline; ?? A capacidade de incluir modelos de dados orientados a objetos ou modelos no padronizados (tal como multimdia, espacial ou temporal); ?? A capacidade de processamento com relao tabelas/tuplas/atributos; ?? A capacidade de processamento com relao ao tamanho do banco de dados; ?? Variedade de tipos de atributos que a ferramenta pode manipular; e ?? Tipo de linguagem de consulta. ao nmero mximo de

Existem ferramentas que implementam uma ou mais tcnicas de minerao de dados. A Tabela 2.3 relaciona algumas dessas ferramentas, fornecendo informaes tais como: a empresa fornecedora, as tcnicas implementadas de minerao de dados e exemplos de aplicaes. Collier et al (1999) propem uma metodologia para seleo de ferramentas de software de minerao de dados disponveis no mercado.

Fundamentao Terica

20

Tabela 2.3: Ferramentas de Minerao de Dados

FERRAMENTA/ EMPRESA FORNECEDORA AIRA/ Hycones IT (1998) Alice 5.1/ Isoft AS. (1998) Clementine/ Integral Solutions Limited (ISL, 1996)

TCNICAS DE MINERAO DE DADOS Regras de associao

APLICAES Gerenciamento de relacionamento de cliente, marketing, deteco de fraude, controle de processo e controle de qualidade. Poltica de crdito, marketing, sade, controle de qualidade, recursos humanos. Marketing direto, identificao de oportunidades de venda cruzada, reteno de cliente, previso de lucro do cliente, deteco de fraude, segmentao e lucro do cliente. No identificadas.

rvore de deciso Raciocnio baseado em casos Induo de regras rvores de deciso Redes neurais

DataMind / DataMind Technology Center (1998), (Groth, 1998) Decision Series/ Neovista Solutions Inc. (1998) Intelligent Miner/ IBM (1997) KnowledgeSEEKER/ Angoss IL (Groth, 1998) MineSet/ Silicon Graphics Computer Systems (2000) NeuralWorks Predict/ NeuralWare (Groth, 1998) PolyAnalyst/ Megaputer Intelligence Ltd. (1998)

(abordagem prpria)

rvore de deciso Mtodos estatsticos Induo de regras Redes neurais rvores de deciso Redes neurais rvores de deciso Induo de regras Mtodos estatsticos rvores de deciso Induo de regras Rede neural Algoritmo gentico Mtodos estatsticos Induo de regras

Marketing direcionado, deteco de fraude, reteno de cliente, anlise de risco, segmentao de cliente, anlise de promoo. Segmentao de cliente, anlise de conjunto de itens, deteco de fraude. Lucro e segmentao de cliente para deteco de fraude e anlise de risco, controle de processo, marketing direto. reas da sade, farmacutica, biotecnologia e qumica. Indstria. Marketing direto, pesquisa mdica, anlise de conjunto de itens.

You might also like