Professional Documents
Culture Documents
Veamos un ejemplo de la estructura que deben tener estos archivos, para ello editaremos con un
editor de textos, el archivo breast-cancer.arff.
1
Toms Jos Snchez Daz _ 23280091-C
Las lineas que comienzan con el smbolo %, indican comentarios, con el carcter @ al principio de
linea, indicamos la definicin de la informacin til para cuando realizamos agrupaciones con
Clusteres, los atributos con el tipo de informacin que podrn contener (datos numricos, o datos
relativos) y los datos que va a utilizar Weka. De todos los atributos, el ultimo en definirse,
corresponde a la muestra.
Para ver el funcionamiento del programa, abrimos WEKA, pulsamos sobre la aplicacin Explorer y
cargamos los datos correspondientes al fichero C:\Program Files\Weka-3-8\data\breast-cancer.arff.
En la primer pestaa Preprocess, podemos abrir: un fichero (de extensin .arff), una URL, una
base de datos y adems, podemos generar informacin desde cero con la que trabajar.
Al cargar los registros de estudio del Cancer de mama, en el apartado Current Relation: nos indica
el fichero de datos con el que trabajamos, el numero de atributos del estudio y el nmero de objetos
del estudio, que en este caso han sido 286 individuos.
2
Toms Jos Snchez Daz _ 23280091-C
Al pulsar sobre el botn Visualize All, se nos muestran todas las grficas generadas de los 10
atributos estudiados. Por ejemplo se han analizado casos por edad, por menopausia, por tamao, etc.
3
Toms Jos Snchez Daz _ 23280091-C
Ahora cambiamos de pestaa, en la parte superior pulsamos sobre Classify, en este apartado
podemos escoger diferentes algoritmos de clasificacin para tratar los datos que hemos cargado en
Weka desde la pestaa anterior, y tambin es donde podremos ver el rbol de ejecucin de todo el
flujo de datos.
Cabe destacar, que en funcin del algoritmo y del tipo de entrenamiento escogidos, obtendremos un
mejor o peor porcentaje de xito en la clasificacin de las muestras. Como clasificador de
aprendizaje supervisado usamos el de vecindad, llamado IBK en WEKA, y como aprendizaje no
supervisado el de red bayesiana.
Desde el apartado Test Options, debemos escoger uno de los diferentes tipos de entrenamiento:
- Grupo de entrenamiento: El cual usa todos los registros cargados en Weka para realizar el
aprendizaje.
- Supplied test set: Se encarga de seleccionar un fichero .arff, que ser el encargado del aprendizaje
de la informacin cargada en Weka.
- Validacin cruzada. Crea diferentes subgrupos, tantos como especifiquemos en Folds; realizar
tantas pasadas como folds hayamos indicado y en cada pasada, coger un subgrupo para realizar el
estudio, mientras que con los restantes implementa el aprendizaje.
- Pocentage Split: Especificamos un porcentaje de registros que destinaremos al estudio de la
minera de datos, y el restante ser el encargado de implementar el aprendizaje para sacar los
resultados.
4
Toms Jos Snchez Daz _ 23280091-C
Despus de escoger el tipo de entrenamiento, justo debajo tenemos el listado de atributos y debemos
escoger uno sobre el cual se realizar la clasificacin. El ultimo de ellos, siempre ser la variable
muestra o atributo base del estudio.
A continuacin, se muestran los resultados obtenidos al clasificar las muestras por algunos de los
mtodos.
Desde esta pestaa Classify, tambin podemos ver el rbol de decisin; para ello escogemos un
clasificador de arboles, por ejemplo el J48 que ha resultado ser muy preciso con respecto a los
dems. Escogemos en Test options, un tipo de entrenamiento a realizar y pulsamos Start, pulsamos
sobre un resultado de los de la lista (en caso de tener varios) con el botn derecho y escogemos
Visualice tree.
5
Toms Jos Snchez Daz _ 23280091-C
6
Toms Jos Snchez Daz _ 23280091-C
7
Toms Jos Snchez Daz _ 23280091-C
En la siguiente pestaa, tenemos Associate. Desde donde podemos crear esquemas con las reglas
de asociacin, segn la forma en que se agrupan los clsteres, los filtros, los clasificadores, etc. Este
apartado es de los ms importantes ya que nos permite ver la relacin entre toda la informacin que
le ingresamos y que a simple vista no la podemos apreciar.
Por ejemplo, la regla 8 nos indica que en nodos con una mtrica entre 0 y 2, resulta que no se han
localizado evidencias de que las clulas cancerosas hayan atravesado las capsulas de un nodo
linftico y adems, nos indica que la fiabilidad de esta regla es de un 96%.
8
Toms Jos Snchez Daz _ 23280091-C
En la pestaa Select attributes, nos indicar cuales son los atributos ms importantes en la
minera de datos, es decir, nos indicar cual o cuales son las variables ms influyentes en todo el
proceso. Implica una bsqueda a travs de todas las posibles combinaciones de atributos, para poder
encontrar el subconjunto de atributos que mejor funciona para la prediccin.
Para ello, se deben configurar dos objetos: un algoritmo evaluador de atributos y un mtodo de
entrenamiento. El evaluador, determina qu mtodo se utiliza para asignar un valor a cada
subconjunto de atributos y el mtodo de bsqueda, determina qu estilo de bsqueda es
interpretado.
9
Toms Jos Snchez Daz _ 23280091-C
Por ltimo, en la pestaa Visualize, nos permite ver de manera grfica la distribucin de todos los
atributos, en forma de grficas de 2 dimensiones. En los ejes x e y, se van representando todos los
posibles pares de combinaciones entre los atributos, de este modo nos permite ver de forma grfica
las correlaciones entre los distintos atributos.
10
Toms Jos Snchez Daz _ 23280091-C
Tenemos que seleccionar el conjunto de datos y varios algoritmos con los que poder ver una
comparativa en funcin de los diferentes algoritmos escogidos.
Al pulsar sobre Run, ejecutamos los clculos con los diferentes algoritmos y cuando finaliza la
ejecucin, podemos ver la comparativa entre los diferentes algoritmos.
Como podemos observar con 5 neuronas obtenemos un 72,9 % mientras que con 10, un 67,00 %.
11
Toms Jos Snchez Daz _ 23280091-C
12
Toms Jos Snchez Daz _ 23280091-C
Para finalizar con la explicacin de las aplicaciones y opciones de Weka, comentar que la aplicacin
Simple CLI, nos sirve para trabajar en modo comandos, de forma similar a como podemos trabajar
con el modo grfico.
13