Abstract: La informacion juega un papel muy importante en la sociedad actual, puesto que si se procesa y maneja correctamente, proporciona grandes ventajas a los usuarios. Sin embargo, debido al crecimiento exponencial de la misma, los usuarios son incapaces de procesar toda esta informacion, y por tanto, las Tecnologias del Lenguaje Humano (TLH) son fundamentales para manejar dicha informacion de manera eficiente y efectiva, siendo de gran ayuda para los usuarios. La generacion automatica de resumenes es un area de las TLH, cuyo objetivo es procesar, sintetizar y presentar al usuario la informacion de manera condensada, de tal manera que evita a los usuarios tener que leer multitud de documentos y extraer lo mas importante de cada uno.
El trabajo de investigacion que se ha desarrollado en esta tesis doctoral se centra en este area; en concreto, en la generacion automatica de resumenes, demostrando que los resumenes automaticos son beneficiosos tanto para los usuarios, como para otras aplicaciones de TLH. Despues de realizar un analisis exhaustivo del estado de la cuestion tanto en enfoques para la generacion de resumenes como para su evaluacion, se propone la herramienta de resumenes COMPENDIUM.
Esta herramienta sigue un enfoque cognitivo, que se basa en las teorias de (Van Dijk, 1980), (Van Dijk & Kintsch, 1983), que explican como generan resumenes los humanos, pero tambien aporta una componente computacional (Hovy, 2005) que permite su automatizacion.
COMPENDIUM es capaz de generar distintos tipos de resumenes de texto en ingles. La longitud de dichos resumenes se determina en funcion de un numero fijo de palabras o una tasa de compresion. Ademas, en lo que respecta a la entrada de la herramienta, se pueden generar resumenes a partir de uno o de varios documentos (mono- o multi-documento, respectivamente). Como salida, los resumenes siguen un paradigma extractivo (extractos) u orientado a abstractos. Finalmente, en cuanto a su finalidad, estos pueden ser resumenes genericos, orientados a un topico, o resumenes subjetivos, y en todos los casos, se pretende que puedan servir como sustituto del documento original, siendo informativos.
La arquitectura propuesta para COMPENDIUM se divide en dos tipos de etapas: las que forman el nucleo central de la herramienta, cuyo resultado son extractos genericos y una serie de etapas adicionales, que sirven para generar tipos de resumenes especificos: resumenes orientados a un topico, resumenes subjetivos y resumenes orientados a abstractos. Por un lado, las etapas que forman el nucleo de COMPENDIUM son: i) analisis linguistico; ii) deteccion de redundancia; iii) identificacion del topico; iv) deteccion de relevancia; y v) generacion del resumen. Por otro lado, las que etapas adicionales son: i) similitud con la pregunta; ii) deteccion de informacion subjetiva; y iii) compresion y fusion de informacion.
Ademas, algunas de las etapas anteriormente citadas se basan en metodos y enfoques novedosos. En concreto, el uso del reconocimiento de la implicacion textual como metodo para detectar y eliminar la redundancia de un documento, mientras que el principio de la cantidad de codificacion se propone, junto con la frecuencia de las palabras, para identificar que frases contienen la informacion mas relevante. Tambien se propone un metodo basado en grafos de palabras que permite combinar informaci\'on extractiva y abstractiva, y que produce como resultado, resumenes orientados a abstractos.
COMPENDIUM se ha evaluado de manera intrinseca y extrinseca. En lo que respecta a la evaluacion intrinseca, se han usado distintos tipos de textos pertenecientes a diversos dominios: noticias periodisticas, descripciones de imagenes, blogs y articulos cientificos del dominio medico. Para su evaluacion extrinseca, COMPENDIUM se ha integrado en: mineria de opiniones, busqueda de respuestas y clasificacion de textos. El objetivo de integrar COMPENDIUM en la primera de estas aplicaciones es mejorar la generacion de resumenes subjetivos con respecto a los enfoques que no tienen en cuenta tecnicas de generacion de resumenes. Para la segunda aplicacion, se han utilizado resumenes orientados a un topico, en vez de los snippets que devuelven los motores de busqueda, para que un sistema de busqueda de respuestas encuente de manera mas eficaz las respuestas a preguntas factuales. Finalmente, en en la tercera, COMPENDIUM se ha usado para generar resumenes que ayuden a predecir la puntuacion asociada a un resena, en lugar de procesar la resena completa.
Por lo tanto, de todo ello se demuestra que los resumenes automaticos generados con COMPENDIUM son adecuados para que se usen de manera individual o para que se integren en otra aplicaciones de TLH, con la finalidad de mejorar su rendimiento.