Fecha: Viernes 4 de julio de 2014, a las 11h30

Ponente: Gerardo Sierra Martínez (Instituto de Ingeniería, Universidad Nacional Autónoma de México)

Lugar de celebración: Sala 1.03, ETSI Informática, UNED (mapa)

Resumen:

En Procesamiento de Lenguaje Natural, la similitud textual es una condición o propiedad que mide el grado de semejanza entre dos o más textos. Si bien la mayoría de los estudios de PLN están enfocados en el plagio y paráfrasis, existen otros ámbitos no muy explorados, como la adaptación, parodia o traducción. A la vez, es importante considerar que la similitud textual puede darse entre cualquier tipo de documentos, o bien por coincidencias entre los textos debido a cuestiones temáticas o de estilo y no como producto de un plagio. De esta manera, la detección de similitud textual debe ir más allá de la detección automática de plagio y de paráfrasis. La plática presenta una visión amplia del concepto de similitud textual, las aplicaciones en tecnologías de lenguaje que resultan de medir la semejanza de documentos, la necesidad de crear un corpus que cubra distintos aspectos para la detección de similitud textual y algunos métodos que existen para detectarla.