WEKA - Tomas Sanchez

Toms Jos Snchez Daz _ 23280091-C
Practica Weka: Explicar el funcionamiento de la aplicacin WEKA:
Weka es una aplicacin de software libre,

desarrollada por la universidad de Waikato. Esta
aplicacin se usa para la minera de datos,
permitiendo estudiar conjuntos de informacin
compleja mostrando grficas y resultados agrupados
por parmetros de inters.
Para ver el funcionamiento de la aplicacin Weka,

vamos a utilizar la base de datos de estudio del
cncer de mana, aunque tambin podramos cargar
nuestros propios datos cumpliendo las normas
establecidas para el formato de WEKA (archivos
con extensin .arff).
Veamos un ejemplo de la estructura que deben tener estos archivos, para ello editaremos con un
editor de textos, el archivo breast-cancer.arff.
1
Las lineas que comienzan con el smbolo %, indican comentarios, con el carcter @ al principio de
linea, indicamos la definicin de la informacin til para cuando realizamos agrupaciones con
Clusteres, los atributos con el tipo de informacin que podrn contener (datos numricos, o datos
relativos) y los datos que va a utilizar Weka. De todos los atributos, el ultimo en definirse,
corresponde a la muestra.
Para ver el funcionamiento del programa, abrimos WEKA, pulsamos sobre la aplicacin Explorer y
cargamos los datos correspondientes al fichero C:\Program Files\Weka-3-8\data\breast-cancer.arff.
En la primer pestaa Preprocess, podemos abrir: un fichero (de extensin .arff), una URL, una
base de datos y adems, podemos generar informacin desde cero con la que trabajar.
Al cargar los registros de estudio del Cancer de mama, en el apartado Current Relation: nos indica
el fichero de datos con el que trabajamos, el numero de atributos del estudio y el nmero de objetos
del estudio, que en este caso han sido 286 individuos.
En el apartado Atributos, aparece seleccionado el elemento Class, y a la derecha vemos que se

trabaja con dos clases: una de 201 individuos donde ha reaparecido el cncer y otra de 85
individuos en los que se ha detectado una sola vez.
2
Al pulsar sobre el botn Visualize All, se nos muestran todas las grficas generadas de los 10
atributos estudiados. Por ejemplo se han analizado casos por edad, por menopausia, por tamao, etc.
Si regresamos al apartado Atributos y escogemos Edad, en la parte derecha , en el apartado de

Selected Atribute, se muestran las propiedades del atributo seleccionado, en este caso Edad.
Podemos observar que en base a los resultados el cncer se a manifestado mayormente en el rango
de edad entre los 40 y lo 60.
Motivo por el cual, se elabor el programa de deteccin precoz, fijndose un objetivo de revisin
bianual, para una poblacin diana que comprende a todas las mujeres con edades entre los 40 y los
70 aos (aunque estos rangos de edades pueden variar segn la comunidad autnoma).
Estos resultados, los podemos ver en la imagen siguiente.
3
Ahora cambiamos de pestaa, en la parte superior pulsamos sobre Classify, en este apartado
podemos escoger diferentes algoritmos de clasificacin para tratar los datos que hemos cargado en
Weka desde la pestaa anterior, y tambin es donde podremos ver el rbol de ejecucin de todo el
flujo de datos.
Cabe destacar, que en funcin del algoritmo y del tipo de entrenamiento escogidos, obtendremos un
mejor o peor porcentaje de xito en la clasificacin de las muestras. Como clasificador de
aprendizaje supervisado usamos el de vecindad, llamado IBK en WEKA, y como aprendizaje no
supervisado el de red bayesiana.
Desde el apartado Test Options, debemos escoger uno de los diferentes tipos de entrenamiento:
- Grupo de entrenamiento: El cual usa todos los registros cargados en Weka para realizar el
aprendizaje.
- Supplied test set: Se encarga de seleccionar un fichero .arff, que ser el encargado del aprendizaje
de la informacin cargada en Weka.
- Validacin cruzada. Crea diferentes subgrupos, tantos como especifiquemos en Folds; realizar
tantas pasadas como folds hayamos indicado y en cada pasada, coger un subgrupo para realizar el
estudio, mientras que con los restantes implementa el aprendizaje.
- Pocentage Split: Especificamos un porcentaje de registros que destinaremos al estudio de la
minera de datos, y el restante ser el encargado de implementar el aprendizaje para sacar los
resultados.
4
Despus de escoger el tipo de entrenamiento, justo debajo tenemos el listado de atributos y debemos
escoger uno sobre el cual se realizar la clasificacin. El ultimo de ellos, siempre ser la variable
muestra o atributo base del estudio.
A continuacin, se muestran los resultados obtenidos al clasificar las muestras por algunos de los
mtodos.
Con el mtodo de aprendizaje por vecindad, obtenemos un porcentaje de 97,9 % de

clasificaciones correctas, con solo 6 instancias mal ubicadas. Estos resultados los podemos apreciar
tanto en el apartado Summary como en la Matriz de Confusin.
Con el mtodo de aprendizaje de Red Bayesiana, obtenemos un porcentaje de
Desde esta pestaa Classify, tambin podemos ver el rbol de decisin; para ello escogemos un
clasificador de arboles, por ejemplo el J48 que ha resultado ser muy preciso con respecto a los
dems. Escogemos en Test options, un tipo de entrenamiento a realizar y pulsamos Start, pulsamos
sobre un resultado de los de la lista (en caso de tener varios) con el botn derecho y escogemos
Visualice tree.
5
6
En la siguiente pestaa, en Cluster, podemos clasificar la informacin de forma similar al

apartado classify; con la diferencia de que la informacin aqu tratada, es partida en subgrupos para
poder realizar anlisis de manera independiente.
Podemos escoger el algoritmo por el cual deseamos agrupar en clsteres la informacin (siendo el
ms efectivo el SimpleKMeans), ver el porcentaje de error y sacar la media del conjunto de datos :
7
En la siguiente pestaa, tenemos Associate. Desde donde podemos crear esquemas con las reglas
de asociacin, segn la forma en que se agrupan los clsteres, los filtros, los clasificadores, etc. Este
apartado es de los ms importantes ya que nos permite ver la relacin entre toda la informacin que
le ingresamos y que a simple vista no la podemos apreciar.
Por ejemplo, la regla 8 nos indica que en nodos con una mtrica entre 0 y 2, resulta que no se han
localizado evidencias de que las clulas cancerosas hayan atravesado las capsulas de un nodo
linftico y adems, nos indica que la fiabilidad de esta regla es de un 96%.
8
En la pestaa Select attributes, nos indicar cuales son los atributos ms importantes en la
minera de datos, es decir, nos indicar cual o cuales son las variables ms influyentes en todo el
proceso. Implica una bsqueda a travs de todas las posibles combinaciones de atributos, para poder
encontrar el subconjunto de atributos que mejor funciona para la prediccin.
Para ello, se deben configurar dos objetos: un algoritmo evaluador de atributos y un mtodo de
entrenamiento. El evaluador, determina qu mtodo se utiliza para asignar un valor a cada
subconjunto de atributos y el mtodo de bsqueda, determina qu estilo de bsqueda es
interpretado.
9
Por ltimo, en la pestaa Visualize, nos permite ver de manera grfica la distribucin de todos los
atributos, en forma de grficas de 2 dimensiones. En los ejes x e y, se van representando todos los
posibles pares de combinaciones entre los atributos, de este modo nos permite ver de forma grfica
las correlaciones entre los distintos atributos.
10
Desde la aplicacin Experimenter:
Tenemos que seleccionar el conjunto de datos y varios algoritmos con los que poder ver una
comparativa en funcin de los diferentes algoritmos escogidos.
Al pulsar sobre Run, ejecutamos los clculos con los diferentes algoritmos y cuando finaliza la
ejecucin, podemos ver la comparativa entre los diferentes algoritmos.
Como podemos observar con 5 neuronas obtenemos un 72,9 % mientras que con 10, un 67,00 %.
11
Con la aplicacin KnowledgeFlow, podemos crear una secuencia de ejecucin automatizada.
12
Para finalizar con la explicacin de las aplicaciones y opciones de Weka, comentar que la aplicacin
Simple CLI, nos sirve para trabajar en modo comandos, de forma similar a como podemos trabajar
con el modo grfico.
CONCLUSIONES DEL ESTUDIO DE LOS DATOS CON WEKA:

Como conclusin de los resultados obtenidos, apreciamos que si bien todos los atributos pueden
afectar en mayor o menor medida a la clasificacin de un tumor como benigno o maligno, y que en
general se cumple que a menor valor del atributo inv-nodes, mayor probabilidad de que se trate de
clase benigna, en el caso concreto del atributo deg-malig, como ya se coment en su momento, se
puede pensar en que su eliminacin del estudio no afectar mucho a los resultados, ya que la gran
mayora de los casos, tanto de una clase como de otra se sitan en el nivel ms bajo.
Analizando los resultados de los diferentes clasificadores vemos ligeras diferencias de unos a otros,
aunque las tasas de error de todos se concentran en torno al 3-5%, en un anlisis ms
pormenorizado:
-El IBK presenta la ventaja de poder elegir el valor de K para nuestros requerimientos, no obstante
tenemos el problema de encontrar el valor ptimo y la necesidad de ir varindolo.
- El clasificador del perceptrn multicapa permite seleccionar entre varias opciones, aunque los
resultados entre ellos son similares y presentan peores caractersticas que por ejemplo el IBK.
- Con el Net Bayes obtenemos una probabilidad de error mayor que para la mayora de los IBK,
aunque la distribucin de errores se decanta en clasificar tumores malignos como benignos, lo que
podra considerarse ms grave que el caso contrario.
13

WEKA - Tomas Sanchez

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

WEKA - Tomas Sanchez

Uploaded by

Copyright:

Available Formats

Toms Jos Snchez Daz _ 23280091-C

Practica Weka: Explicar el funcionamiento de la aplicacin WEKA:

Weka es una aplicacin de software libre,

Para ver el funcionamiento de la aplicacin Weka,

En el apartado Atributos, aparece seleccionado el elemento Class, y a la derecha vemos que se

Si regresamos al apartado Atributos y escogemos Edad, en la parte derecha , en el apartado de

Con el mtodo de aprendizaje por vecindad, obtenemos un porcentaje de 97,9 % de

Con el mtodo de aprendizaje de Red Bayesiana, obtenemos un porcentaje de

En la siguiente pestaa, en Cluster, podemos clasificar la informacin de forma similar al

Desde la aplicacin Experimenter:

Con la aplicacin KnowledgeFlow, podemos crear una secuencia de ejecucin automatizada.

CONCLUSIONES DEL ESTUDIO DE LOS DATOS CON WEKA:

You might also like