Fecha: 20-24 Feb 2012

Ponente: José L. Balcázar

Lugar de celebración: Facultad de Psicología, UNED (mapa)

Resumen:

La Minería de Datos es una disciplina en la que se han desarrollado tecnologías que, oportunamente empleadas, permiten a un sistema o a una organización mejorar su rendimiento o sugerir mejoras a procesos externos, a partir del análisis de datos disponibles y de la identificación de patrones en ellos. Sin embargo, a pesar de las diversas "success stories" disponibles, es imprescindible ser consciente de las limitaciones de estas tecnologías. Cuando se aplican en la práctica programas de Minería de Datos, es frecuente que sea necesario poner en juego conocimientos profundos sobre los detalles de los modelos y algoritmos que se emplean, desde la elección de la herramienta adecuada hasta el ajuste de una miríada de parámetros internos.

La actividad docente se centrará en las principales herramientas "open source" de minería de datos disponibles en la actualidad, y desarrollará el estudio de la explicación científica de sus principales parámetros, de manera que los alumnos sean capaces de identificar la herramienta adecuada para una aplicación y de organizar la tarea a fin de validar las opciones elegidas: se explicará la teoría y el uso práctico de clusterizadores, asociadores y clasificadores de forma que el alumno adquiera criterios para fijar los valores de los muchos parámetros libres de cada uno de estos algoritmos. Se realizará un breve repaso de las herramientas R, Weka y Rapid Miner, y se estudiará en más profundidad la excelente herramienta KNIME. Más específicamente, se planteará la perspectiva de la Minería de Datos entre sus contextos de aplicación ("Business Intelligence"), las tecnologías que la soportan (Bases de Datos, "Data Warehouses"), las disciplinas que contribuyen con conceptos clave (Lógica, Estadística, Aprendizaje, Inteligencia Artificial), los procesos en que se estructuran (procesos de Data Mining y de Knowledge Discovery, preproceso, recodificación) y la taxonomía de planteamientos de modelización. Para los planteamientos más habituales, explicaremos las técnicas de modelado que se consideran más exitosas en general: clasificadores lineales con núcleos, predictores por combinación ("bagging", "boosting"), segmentadores, selección de características; y se desarrollará un estudio particularmente profundo de los métodos asociadores, incluyendo los avances recientes y las herramientas que, en estos momentos, se están desarrollando en los grupos de investigación en los que el ponente trabaja de manera habitual.