You are on page 1of 12

TECNOLGICO DE ESTUDIOS SUPERIORES

DE JOCOTITLN

INGENIERA EN SISTEMAS

COMPUTACIONALES

ARBOL DE DECISIN MEDIANTE WEKA


P R E S E N T A:
Cesar Segundo Snchez
Felipe Erik de la Cruz de Jess
Rolando Suarez Odiln
Jorge Antonio Snchez Lorenzo
Jos Manuel Balderas Rodrguez
Grupo: ISC-701
DOCENTE:
Ing. Juan Alberto Antonio Velzquez
ASIGNATURA:
Bases de Datos Distribuidas

Jocotitln, Estado de Mxico

ndice
1.

Introduccin............................................................................................. 3

2.

Marco Terico........................................................................................... 3

3.

DESARROLLO........................................................................................... 4

4.

CONCLUSIN.......................................................................................... 11

1. Introduccin
En este trabajo se realiz una prctica con respecto al tema minera de datos,
la cual se implement mediante un software llamado weka diseado para el
anlisis y la toma de decisiones a nivel empresarial. El anlisis se hace
mediante arboles de decisin los cuales nos dan un panorama general acerca
de una coleccin de datos obtenidos apartir de una base de datos.
El resultado del rbol de decisiones nos ayuda a tomar medidas necesarias
para saber q tan viable es el poder realizar una accin por ejemplo en el caso
de un monitoreo de ventas de una empresa podemos saber que producto tiene
ms ventas y en qu lugares as como cules son los principales clientes , tal
vez esto podra ser relativamente fcil saberlo con una pequea empresa y q
tiene una base de datos con poca informacin, pero si se tratara de una
empresa de grandes magnitudes de ventas entonces se torna algo complicado
es entonces que se utilizan tcnicas como la mimera de datos con
herramientas de software que agilizan este proceso que para una persona seria
bastante complejo.

2. Marco Terico.
El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que
permiten explorar grandes bases de datos, de manera automtica o
semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos en un determinado
contexto. (Perez, 2007)
La minera de datos utiliza el anlisis matemtico para deducir los patrones y
tendencias que existen en los datos. Normalmente, estos patrones no se
pueden detectar mediante la exploracin tradicional de los datos porque las
relaciones son demasiado complejas o porque hay demasiado datos.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de
minera de datos. Los modelos de minera de datos se pueden aplicar en
escenarios como los siguientes:
Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del
tiempo de inactividad del servidor.
Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de
correo directo, determinacin del punto de equilibrio probable para los
escenarios de riesgo, y asignacin de probabilidades a diagnsticos y otros
resultados.
Recomendaciones: determinacin de los productos que se pueden vender
juntos y generacin de recomendaciones.
Bsqueda de secuencias: anlisis de los artculos que los clientes han
introducido en el carrito de la compra y prediccin de posibles eventos.
Agrupacin: distribucin de clientes o eventos en grupos de elementos
relacionados, y anlisis y prediccin de afinidades. (Microsoft)

3. DESARROLLO
Para Ejecutar WEKA necesitamos ejecutar el comando como se muestra en la
Imagen 1Imagen 1, para poder ejecutar WEKA primero necesitamos tener
instalado lo que es JAVA ya que como este programa est desarrollado
mediante cdigo java en necesario tener la mquina virtual de JAVA,
utilizaremos java 7, y WEKA 3.7.12, despus de haber ejecutado el comando
nos mostrara la ventana como se muestra en la Imagen 2, donde tendremos
tres mens que son aplicaciones de WEKA que son el Explorer, Experimental,
Knowledge flow y Simple Cli en este caso solo utilizaremos Explore para
generar nuestro rbol de decisiones.

Imagen 1 Comando para ejecutar WEKA.

Imagen 2 Men Principal de WEKA.

Damos doble clic en Explorer y nos mostrara la ventana del Explorer como se
muestra en la Imagen 3 tenemos un men en la cual nos indica en cual
estamos como son Pre procesos, clasificacin, Cluster, etc. Utilizaremos solo
dos que serial los dos primeros, para cargar nuestro archivo le damos clic en
Open filed y buscamos nuestro archivo en el equipo en este caso cargamos el
archivo Vote.arff que son las extenciones que utiliza WEKA, como se muestra
en la Imagen 4.

Imagen 3 Ventana del Explorer.

Imagen 4 Abrir archivo con extensin .arff.

Una vez que cargamos el archivo nos mostrara los datos que contiene junto
con unas graficas como se muestra en la Imagen 5, una vez que nos muestra
la informacin podemos utilizar un algoritmo de rbol para ello nos dirigimos a
classify y nos mostrara la Ventana de Clasificacin. En esta ventana tenemos
un botn en la que nosotros cargamos el cdigo que nos generara el rbol de
decisin, damos doble clic en Chose y nos mostrara una ventana en donde
desplegaremos Trees que son los algoritmos de rboles y seleccionamos J-48
que es un algoritmo de clasificacin como en la Imagen 7.

Imagen 5 Datos mostrados en Explorer.

Imagen 6 Ventana de Clasificacin.

Imagen 7 J- 48

Lo nico que tendremos que hacer es darle clic en Start en inicializara la


ejecucin del algoritmo en el archivo con los datos clasificndolos mediante
varios procesos como se muestra en la

Imagen 8 Ejecucin de J - 48

Nos generara una lista de resultados en donde tendremos la ejecucin que


hicimos mostrndonos la hora en que se realiz la ejecucin y el nombre Y
para visualizar el rbol de decisiones damos clic derecho en el nombre de la
ejecucin y seleccionamos Visualize Trees como se muestra en la Imagen 9 y
finalmente nos mostrara el rbol de Decisin.

Imagen 9 Abrir rbol. De Decisiones

Imagen 10 rbol de Decisin.

El desarrollo al momento de dar clic en start nos arroj una serie de datos
clasificados en el apartado classifier output en la cual visualizamos los datos
que tenamos en el archivo que cargamos como se muestran en la Imagen 11
en donde se muestra el Esquema que es el mtodo de ordenamiento en este
caso es J-48, el nombre del archivo, numero de Instancias que fueron 435, y
los atributos que tenemos en este caso tenemos un total de 17 atributos que
estn en el archivo y nos muestra el nombre de cada uno de ellos.Informacin
Generada.

Imagen 11 Informacin Generada.

Seguidamente nos muestra el rbol podado en la cual solo se tomaron 6


atributos o mejor llamadas hojas para el rbol de decisin como se muestra en
la Imagen 12 que en este caso seran las hojas de la Imagen 9.

Imagen 12 rbol Podado.

En el Resumen de la validacin. Nos muestra varios nmeros importante que


ayudaron a elegir las hojas del rbol de decisiones el error absoluto medio, el
error absoluto relativo, entre otros tambin nos da el nmero total de instancias.
Como se muestra en la Imagen 13.

Imagen 13 Resumen de la validacin.

Como ya observamos el rbol de decisin contiene un total de 6 niveles


mostrado en la Imagen 10 rbol de Decisin.Imagen 10 en la cual tenemos
como nodo principal es gastos en mdicos de costos de congelacin
(physician-fee-freezer) en la cual si es (= n) significa que los votos es
demcrata y pero en el caso de que sea (= y) se desglosara a la hoja de
recorte de corporacin de combustible (synfuels-corporation-cutback) como se
muestra en la Imagen 14.

l
Imagen 14 Nodo physican-fee-frezer.

En la hoja de recorte de corporacin de combustible (synfuels-corporationcutback) de igual forma se compara con los dos tipos de respuesta que se tiene
que son (= n/= y), en este caso si se selecciona la primer respuesta se tomara
la decisin de que fue republicano en el caso de que se tome (= y) se
desglosara a la siguiente hoja del rbol teniendo en cuenta que ya hemos
recorrido 2 hojas anteriores como se muestra en la Imagen 15.

Imagen 15 Nodo synfuels-corporation-cutback.

Seguimos con el nodo mx- missile en la que tambin tenemos en la que se


desglosa en este caso si es igual a =n nos desglosa a adaptacin de resolucin
de presupuestos (adoption-of-the-budget-resolution), y en caso de que sea =y
se dice que los votos fueron demoraticos .como se muestra en la Imagen 16.

Imagen 16 Nodo mx-missible.

En el nodo adoptacion de resolucin de presupuestos tenemos que si es =n


tenemos como democrtico en caso de que sea prohibicin de ensayos en
satelite(anti-satellite-test-ban) como se muestra en la Imagen 17.

Imagen 17 Nodo adoption-of-the-budget-resolution.

Y por ltimo nodo tenemos prohibicin de ensayos en satelite(anti-satellitetest-ban) ya que como se fue clasificando este nodo quedo en ultimo ya que
pasando x todos los dems tenemos por ltima opcin esta ya que si es =n
tenemos que es democrtico en caso de que se tenga =y lo tenemos como
republicano como se muestra en la Imagen 18.

Imagen 18 Nodo anti-satellite-test-ban.

4. CONCLUSIN

You might also like