Estudiar y desarrollar tećnicas para relacionar documentos multilingües: clasificación semántica de documentos, similitud semántica entre documentos, y agrupación (clustering) de documentos basada en entidades y términos...
Se ha desarrollado un prototipo para evaluar estas técnicas y analizar su viabilidad. Estas pruebas se han realizado en el sitio web zientzia.net de la fundación Elhuyar.
Las técnicas para relacionar documentos entre si pueden encuadrarse en el siguiente concepto: similitud entre documentos o document similarity.
Con el proposito de relacionar documentos se investigan técnicas para medir la semenjanza entre ellos. Sin embargo, al ser la semejanza un concepto tan amplio las lineas de investigación son muy variadas. En este proyecto, tenemos el proposito de profundizar en la similitud semántica translingüe. De todas formas, también se trabajarán otras técnicas auxiliares.
Midiendo la relación existente entre documentos en distintos idiomas, seríamos capaces de agrupar documentos de contenido similar. De este manera, se nos abren nuevas puertas teniendo el Euskera como punto de partida, para acceder a contenidos multilingües de Internet, para relacionar semi-automáticamente documentos multilingües de contenido equivalente o similar, para construir corpus comparables y un largo etctera.
Modelar la relación semántica entre documentos es un problema interesante en las ciencias cognitivas (cognitive sciencie) tanto a nivel teórico como práctico. A nivel teórico porque modela un proceso cognitivo, y a nivel práctico porque los sistemas de búsqueda, los sistema de navegación, los visulizadores de corpus, filtros, clasificadores, y en general muchas herramientas para la gestión de textos utilizan medidas de similitus. Por tanto, el desarrollo de una tecnología de calidad en torno a la similitud semántica es un paso básico para garantizar la utilidad de software orientado a la gestión textual.
Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789
Diseinua: Blanco