Professional Documents
Culture Documents
n CRDITOS
TIPO
OP
O= Obligatoria /
OP= Optativa
Justificacin
La minera de datos es una disciplina que, tras surgir a mediados de la dcada de los 90, se encuentra actualmente en
su punto de madurez. Propone una coleccin de algoritmos y tcnicas que, inspiradas en la estadstica clsica,
inteligencia artificial, etc., posibilitan un anlisis moderno de los datos del usuario. Para ello, las tcnicas de la
minera de datos hacen un uso intensivo de las capacidades de almacenamiento y cmputo de los ordenadores
modernos. Esto ha servido para que la minera de datos est presente como herramienta clave en muchas reas del
conocimiento, encontrndonos aplicaciones de xito en campos tan variados como la telefona mvil, la banca, la
medicina o el marketing.
Uno de los incipientes campos de aplicacin de la minera de datos es la bioinformtica. Tras el gran esfuerzo de
universidadades pblicas y empresas privadas en el proyecto Genoma Humano, se han desarrollado numerosas
tcnicas de captacin de datos biolgicos que han transformado la biologa de ser una disciplina pobre en datos y
lenta en su obtencin, a una disciplina en la que los repositorios y colecciones de datos biolgicos crecen de manera
exponencial y el uso de tcnicas de anlisis de datos se ha hecho imprescindible. Esta novedosa disciplina, calificada
tambin como la profesin con ms futuro en los Estados Unidos, sirve como herramienta de anlisis a la ingente
cantidad de datos biolgicos que han surgido durante los ltimos aos. Este campo de aplicacin engarza con la lnea
estratgica de investigacin bio propuesta por el Gobierno Vasco.
En el curso primeramente se realizar un repaso de los distintos apartados de la metodologa (o "pipeline") de la
minera de datos: preprecesado, clustering y clasificacin supervisada, seleccin de variables, estimacin de la bondad
de los clasificadores. Se utilizar la potente herramienta de software libre WEKA para el estudio y profundizacin de
las distintas tcnicas expuestas en el curso, y se mostrarn distintos casos de uso.
Tras el estudio de las principales tcnicas de los distintos apartados de esta metodologa, el curso se centrar en
mostrar al alumno las amplias posibilidades de aplicacin de la minera de datos. Se repasarn los principales campos
de aplicacin en el mbito empresarial, utilizando para ello ejemplos reales de xito. Se repasarn los portales web y
grupos de noticias donde se muestran las aplicaciones ms populares de la minera de datos.
Como posiblemente el campo de aplicacin de la minera de datos que est suscitando actualmente mayor inters y
atencin, se realizar har una introduccin a la bioinformtica (o biologa computacional): se mostrarn
aplicaciones sobre datos de microarrays de ADN y espectrometra de masas. Se utilizarn populares herramientas y
portales on-line en bioinformtica como NCBI, KEGG, GEPAS o APID, mostrando distintos casos de uso y
relacionndolos con el software WEKA.
por parte del docente, clases magistrales por medio de transparencias (con acceso interactivo a Internet)
guiados por el profesor, laboratorios docentes con un ordenador por alumno en los que se realizarn tareas
y ejercicios prcticos
por parte del alumno, lectura de bibliografa clave (captulos de libros bsicos y artculos). El alumno
realizar resmenes de las lecturas realizadas, y stas sern corregidas por el docente, tutorizando al
alumno es los puntos clave e ideas de la correccin del profesor
por parte del alumno, tanto en laboratorios libres de la Facultad como en su domicilio, ste realizar varios
ejercicios prcticos con ordenador propuestos por el docente
Este curso est ntimamente relacionado con el curso obligatorio Exploracin y anlisis de datos, con el cul se
coordinar estrechamente en los contenidos. Es necesario que el alumno haya cursado este curso obligatorio.
Este curso tambin est relacionado y se complementa, sobre todo aportando un punto de vista prctico, con otros
tres cursos optativos: Heursticos de bsqueda, Tcnicas de optimizacin y Redes Bayesianas: teora y
aplicaciones.
COMPETENCIA DE LA MATERIA
Adquisicin
de
los
fundamentos matemticos de
las tcnicas de minera de
datos.
2.- Capacidad de identificacin
y modelacin de problemas
en el mbito empresarial y la
bioinformtica susceptibles
de ser aplicados por las
tcnicas de minera de datos
3.- Conocimiento bsico de
algunos softwares de libre
distribucin para la minera
de datos en el mbito
empresariall
y
la
bioinformtica, y adquisicin
de habilidades para el diseo
e implementacin de nuevas
tcnicas de minera de datos
en el mbito empresarial y la
bioinformtica
4.- Desarrollar capacidades de
realizacin de experimentos
y de interpretacin de los
resultados de la aplicacin
de
las
tcnicas
de
exploracin y anlisis de
datos.
1.-
1
X
COMPETENCIA DE LA TITULACIN
2
3
4
5
6
7
8
6.-
COMPETENCIA 1
EVALUACIN
Evaluacin del proceso:
- Trabajos prcticos
- Exposiciones
- Examen tipo test
- Preguntas a desarrollar
- Otros
%
80
20
Evaluacin final:
- Examen tipo test
- Preguntas a desarrollar
- Examen oral
- Otros
TOTAL
100
COMPETENCIA 2
EVALUACIN
Evaluacin del proceso:
- Trabajos prcticos
- Exposiciones
- Examen tipo test
- Preguntas a desarrollar
- Otros
%
70
30
Evaluacin final:
- Examen tipo test
- Preguntas a desarrollar
- Examen oral
- Otros
TOTAL
100
COMPETENCIA 3
EVALUACIN
Evaluacin del proceso:
- Trabajos prcticos
- Exposiciones
- Examen tipo test
- Preguntas a desarrollar
- Otros
%
70
30
Evaluacin final:
- Examen tipo test
- Preguntas a desarrollar
- Examen oral
- Otros
TOTAL
100
COMPETENCIA 4
EVALUACIN
Evaluacin del proceso:
- Trabajos prcticos
- Exposiciones
- Examen tipo test
- Preguntas a desarrollar
- Otros
%
70
30
Evaluacin final:
- Examen tipo test
- Preguntas a desarrollar
- Examen oral
- Otros
TOTAL
100
COMPETENCIA 5
EVALUACIN
Evaluacin del proceso:
- Trabajos prcticos
- Exposiciones
- Examen tipo test
- Preguntas a desarrollar
- Otros
%
70
30
Evaluacin final:
- Examen tipo test
- Preguntas a desarrollar
- Examen oral
- Otros
TOTAL
100
COMPETENCIA 6
EVALUACIN
Evaluacin del proceso:
- Trabajos prcticos
- Exposiciones
- Examen tipo test
- Preguntas a desarrollar
- Otros
Evaluacin final:
- Examen tipo test
- Preguntas a desarrollar
- Examen oral
- Otros
TOTAL
100
Programa de la materia.
(Temarios)
Tcnicas claves en la minera de datos
Introduccin a la minera de datos
Tcnicas de preproceso de datos
Clustering y biclustering
Clasificacin supervisada y evaluacin de clasificadores
Modelos de consensuado
Seleccin de variables
Casos de xito de la minera de datos en el mbito empresarial: publicidad dirigida (Direct
advertising), sistemas de recomendacin (Recommender systems), los problemas ticos del uso
indiscriminado de la minera de datos, etc.
Aplicaciones de la minera de datos en bioinformtica:
Introduccin a la bioinformtica
Desde los microarrays de ADN al anlisis de sus datos
Desde la espectrometra de masas al anlisis de sus datos
Herramientas de software y colecciones de datos para la bioinformtica
Tema 1
Tema 2
Tema 3
Bibliografa.
(Bibliografa bsica, bibliografa de profundizacin, direcciones de internet de inters, revistas, etc.)
Bibliografa bsica:
F. Azuaje, J. Dopazo (2006). Data Analysis and Visualization in Genomics and Proteomics. John Wiley and
Sons
P. Baldi, S. Brunak (2001). Bioinformatics. The Machine Learning Approach. MIT
H.C. Causton, J. Quackenbush, A. Brazma (2004). A Beginners Guide: Microarrays Gene Expression
Data Analysis. Blackwell Publishing.
R.S. Michalski, I. Bratko, M. Kubat (1998). Machine Learning and Data Mining. Methods and
Applications. Wiley.
B. Sierra (2006). Aprendizaje Automtico: Conceptos Bsicos y Avanzados. Pearson Prentice Hall.
I.H. Witten, E. Frank (2005). Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, 2 nd
edition.
Bibliografa de profundizacin:
I. Inza, B. Calvo, R. Armaanzas, E. Bengoetxea, P. Larraaga, J.A. Lozano (2008). Machine learning: an
indispensable tool in bioinformatics. Bioinformatics in Clinical OMICs Research. R. Matthiesen (ed.).
Humana Press. In press.
Y. Saeys, I. Inza, P. Larraaga (2007). A review of feature selection techniques in bioinformatics.
Bioinformatics, 23(19), 2507-2517
H. Shin, M. Markey (2006). A machine learning perspective on the development of clinical decision support
systems utilizing mass spectra blood samples. Journal of Biomedical Informatics 39, 227-248.
Direcciones de Internet:
Intelligent Systems Group (UPV-EHU): http://www.sc.ehu.es/isg
-
Kdnuggets: data mining, web mining, text mining, and knowledge discovery:
http://www.kdnuggets.com
-
http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm
-
http://www.ebi.ac.uk/microarray/biology_intro.html
National Center for Biotechnology Information: http://www.ncbi.nlm.gov/
Gene Expression Pattern Analysis Suite: http://gepas.bioinfo.cipf.es