Fecha: jueves 23 de octubre de 2014, a las 10h00

Ponente: Juan M. Cigarrán (NLP&IR-UNED)

Lugar de celebración: Sala 1.03, ETSI Informática, UNED (mapa)

Resumen:

El objetivo de la charla es presentar un enfoque novedoso, basado en
Análisis de Conceptos Formales (FCA), para la detección de temáticas
en Twitter. En contraste con otras técnicas como el clustering, la
clasificación o los modelos probabilísticos, nuestra propuesta aborda
algunos problemas típicos de estas aproximaciones tales como el
determinar a priori el número de clusters, la adaptación del sistema a
nuevas temáticas o la selección inicial de características. Aplicamos
nuestra aproximación sobre un conjunto de datos reales extraídos del
corpus RepLab 2013. Este corpus está formado por 143.000 tweets acerca
de 61 entidades diferentes que fueron anotados manualmente por
expertos y, además, se dispone de medidas de evaluación específicas,
lo que supone un marco ideal para comparar los resultados de nuestra
aproximación con otras alternativas. En concreto, los experimentos
realizados se centraron en determinar: a) el impacto de la selección
terminología como una entrada a nuestro algoritmo basado FCA, b) el
impacto de la selección de conceptos, y; c) la eficiencia de nuestro
algoritmo para detectar nuevas temáticas. Los resultados muestran como
nuestra propuesta permite obtener unos valores de la medida F que
mejoran el resultado oficial del RepLab 2013.