8
DATOS GENERALES ASIGNATURA Denominación: Minería de datos Carácter: Unidad Temporal Periodo Idiomas de impartición Departamento: Ciencia de la Computación e Int. Artific. Obligatorio X Anual Primer Cuatrimestre X Castella no X Euskera X Créditos: 6 Curso: tercero Optativo Cuatrimest ral X Segundo Cuatrimestre Inglés Francés Módulo al que pertenece: Compuitación Índice de experimentalidad Breve descripción de contenidos: Esta asignatura se centra en el campo conocido como “data mining” o “machine learning” en sus términos anglosajones (“minería de datos” o “aprendizaje automático” en su terminología española), y que engloba un conjunto de técnicas que, inspiradas en la inteligencia artificial y la estadística clásica, han tenido un fuerte auge en la última década para la resolución de problemas de grandes volúmenes de datos para los cuales la matemática, estadística o investigación operativa clásicas no ofrecen soluciones eficaces ni eficientes. Sus aplicaciones van desde campos tan dispares como la bioinformática o las finanzas, pasando por el lenguaje natural. La minería de datos es actualmente una de las disciplinas más en boga dentro de la inteligencia artificial, y grupos de investigación y empresas de todo el mundo trabajan en ella. El alumno estudiará las principales técnicas de la minería de datos, así como adquirirá destreza en el uso de paquetes de software libre que implementan dichas técnicas. Todo ello irá enlazado con el estudio de aplicaciones reales de dichas técnicas. El uso de textos escritos en inglés para la adquisición del vocabulario internacional básico de la minería de datos, será una constante en la formación del alumno. Asignaturas sólo teóricas, sin práctica Asignaturas que requieren la utilización ocasional de ordenadores y/o medios audiovisuales Asignaturas que precisan la utilización intensiva de ordenadores y/o medios audiovisuales X Asignaturas en las que se utiliza material fungible y de laboratorio de coste intermedio Asignaturas que requieren la utilización intensiva de laboratorios y material fungible de alto coste

mineria

Embed Size (px)

DESCRIPTION

ffff

Citation preview

Page 1: mineria

DATOS GENERALES ASIGNATURADenominación: Minería de datos Carácter: Unidad Temporal Periodo Idiomas de imparticiónDepartamento: Ciencia de la Computación e Int. Artific. Obligatorio X Anual Primer Cuatrimestre X Castellano X Euskera XCréditos: 6 Curso: tercero Optativo Cuatrimestral X Segundo Cuatrimestre Inglés Francés

Módulo al que pertenece: Compuitación Índice de experimentalidad

Breve descripción de contenidos: Esta asignatura se centra en el campo conocido como “data mining” o “machine learning” en sus términos anglosajones (“minería de datos” o “aprendizaje automático” en su terminología española), y que engloba un conjunto de técnicas que, inspiradas en la inteligencia artificial y la estadística clásica, han tenido un fuerte auge en la última década para la resolución de problemas de grandes volúmenes de datos para los cuales la matemática, estadística o investigación operativa clásicas no ofrecen soluciones eficaces ni eficientes. Sus aplicaciones van desde campos tan dispares como la bioinformática o las finanzas, pasando por el lenguaje natural. La minería de datos es actualmente una de las disciplinas más en boga dentro de la inteligencia artificial, y grupos de investigación y empresas de todo el mundo trabajan en ella. El alumno estudiará las principales técnicas de la minería de datos, así como adquirirá destreza en el uso de paquetes de software libre que implementan dichas técnicas. Todo ello irá enlazado con el estudio de aplicaciones reales de dichas técnicas. El uso de textos escritos en inglés para la adquisición del vocabulario internacional básico de la minería de datos, será una constante en la formación del alumno.

Asignaturas sólo teóricas, sin práctica

Asignaturas que requieren la utilización ocasional de ordenadores y/o medios audiovisuales

Asignaturas que precisan la utilización intensiva de ordenadores y/o medios audiovisuales X

Asignaturas en las que se utiliza material fungible y de laboratorio de coste intermedio

Asignaturas que requieren la utilización intensiva de laboratorios y material fungible de alto coste

Materia Básica X Rama: Ingeniería y arquitectura Plan Director euskera

Modalidad Especialidades

Denominación: Presencial X

Semipresencial Códigos Unesco:1203.04, 1209.03

Virtual

Page 2: mineria

COMPETENCIAS QUE ADQUIERE EL ESTUDIANTE EN LA ASIGNATURACompetencias de la asignatura Competencias de Módulo con la(s) que se asocia

1Capacidad para conocer y desarrollar técnicas de minería de datos y aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos

C7

2Capacidad para comprender un problema real y formalizarlo para su resolución mediante técnicas de análisis de datos. Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas de análisis de datos que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos

C3, C7

3 Capacitación en el uso de paquetes de software especializados en análisis y minería de datos C74 Adquisición del vocabulario básico en inglés de la minería de datos. Capacitación en la lectura de textos

científicos básicos en inglés en el ámbito de la minería de datos C75678910

Page 3: mineria

DOCENCIATipos de Docencia Horas

PresencialesHoras

No PresencialesHoras

Totales Competencias de asignatura que se trabajan

M Magistral 40 60 100 1,2,4S Seminario

PA Prácticas de Aula

PL Prácticas de Laboratorio 20 30 50 1,3,4PO Prácticas de Ordenador

Horas Totales 60 90 150

SISTEMA DE EVALUACIÓN

Evaluación continuada del trabajo del estudiante y las competencias trabajadas (individual y en grupo, presencial y no presencial)

Exámenes XInformes de laboratorio X

Tareas dirigidas (Trabajos de mayor complejidad bajo la dirección del profesorado) XEntregables (cuestiones, problemas, trabajos...) X

PortafolioOtros (especificar)

Page 4: mineria

TEMARIODenominación: Descripción:

Tema 1 Introducción a la minería de datos Una introducción a la minería de datos, centrándola en las aplicaciones y casos de éxito, más que en los algoritmos y técnicas concretas. Todo ello relacionando a la minería de datos como una disciplina dentro de la inteligencia artificial

Tema 2 El clasificador del vecino más próximo (“k-nearest neighbour”)La intuitiva mecánica de este clásico método de la minería de datos lo hace apropiado para ser la primera técnica de clasificación supervisada que se le presente al alumno. Se estudiará su funcionamiento básico, así como sus principales variantes y parámetros de uso

Tema 3 Técnicas de evaluación y validación de clasificadoresEstudio de las principales técnicas de evaluación de clasificadores, haciendo especial hincapié en los métodos de clasificación supervisada y la estimación de la tasa de acierto. Introducción a los tests estadísticos principales para la comparación entre distintos clasificadores

Tema 4 Árboles de clasificación y reglas de decisión

Estudio de estos dos clásicos algoritmos de análisis de datos, inspirados en la filosofía del “divide y vencerás”. Se hará hincapié en la transparencia y simplicidad de sus modelos finales, y las posibilidades que esto abre para la interacción con expertos de otros campos. Se detallarán distintas posibilidades de desarrollo (“grow”) y poda (“pruning”)

Tema 5 Clasificadores basados en redes BayesianasEstudio de la teoría básica subyacente al Teorema de Bayes, relacionándolo con las posibilidades que ello ha abierto para proponer distintos clasificadores supervisados basados en redes Bayesianas. Se detallarán modelos de clasificación de distinta complejidad

Tema 6 Combinación de clasificadoresEstudio de las distintas técnicas para la combinación de clasificadores. Se hará hincapié en las bondades del consensuado de clasificadores, en contraposición al uso de un clasificador único

Tema 7 Técnicas de selección de variables Estudio de los conceptos y técnicas básicas de selección de variables, tanto desde el punto de vista univariado como multivariado

Tema 8 Introducción a los heurísticos de búsqueda y los algoritmos genéticosSe realizará una introducción a otra disciplina clave de la inteligencia artificial como los heurísticos de búsqueda. Estudio de la técnica de búsqueda más conocida, los algoritmos genéticos. Se estudiarán su utilidad para la resolución de problemas de selección de variables

Tema 9 Clasificación no-supervisada (“clustering”)Estudio de las principales técnicas de clasificación no-supervisada. Se hará hincapié en las especiales características de este tipo de problemas, diferenciándolos de los problemas supervisados

Page 5: mineria

BIBLIOGRAFÍAMateriales de uso

obligatorio

Bibliografía Básica

- I. H. Witten, E. Frank (2005). Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. (Second edition)

- B. Sierra (ed.) (2006). Aprendizaje Automático: conceptos básicos y avanzados. Prentice Hall. - E. Alpaydin (2004). Introduction to Machine Learning. MIT Press.- T. Mitchell (1997). Machine Learning. McGraw Hill.- J. Han, M. Kamber (2006). Data Mining: concept and techniques. Morgan Kaufmann. (Second edition)

Bibliografía de Profundización

- O. Pourret, P. Naïm, B. Marcot (2008). Bayesian networks: a practical guide to applications. Wiley.- L.I. Kuncheva (2004). Combining Pattern Classifiers. Wiley.- H. Liu, H. Motoda (ed.) (2008). Computational Methods of Feature Selection. Chapman & Hall/CRC.- C.M. Bishop (2006). Pattern Recognition and Machine Learning. Springer.- S. Brunak, P. Baldi (2001). Bioinformatics: the machine learning approach. MIT Press. (Second edition).- B. Liu (2006). Web Data Mining: exploring hyperlink, contents and usage data. Springer.

Revistas

- Machine Learning Journal. Springer.- Journal of Machine Learning Research. Electronic publication.- Data Mining and Knowledge Discovery. Springer.- Bioinformatics. Oxford University Press.

Direcciones de interés en Internet

- La asignatura dispondrá de página web propia mantenida y actualizada por el profesor.- Portal del software de libre distribución para la minería de datos WEKA: http://www.cs.waikato.ac.nz/ml/weka/- Portal del software de libre distribución de análisis estadístico R: http://www.r-project.org/- Portal más popular acerca de la actualidad en la minería de datos: http://www.kdnuggets.com/- “Benchmark” de problemas de minería de datos, repositorio UCI (“University of California – Irvine”): http://archive.ics.uci.edu/ml/- El “YouTube” de los datos en Internet: http://www.swivel.com- Página web con aplicaciones intuitivas y de sencilla lectura de la minería de datos:

http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm- Portal para la realización de tests estadísticos on-line: http://faculty.vassar.edu/lowry/VassarStats.html- Portal del software de libre distribución sobre heurísticos de búsqueda LiO: http://www.dsi.uclm.es/simd/SOFTWARE/LIO/- Entrada de Wikipedia al término “Minería de datos”: http://es.wikipedia.org/wiki/Data_Mining

Page 6: mineria

- Portales web de las conferencias internacionales anuales en “Machine Learning” y “Data Mining”