Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Servicios Lingüísticos 

Volver al inicio de la página

Unidad de I+D

Recuperación y extracción de información (IR-IE)

Dokusare (CLIR) 

Objetivos y descripción general

Estudiar y desarrollar tećnicas para relacionar documentos multilingües: clasificación semántica de documentos, similitud semántica entre documentos, y agrupación (clustering) de documentos basada en entidades y términos...

Se ha desarrollado un prototipo para evaluar estas técnicas y analizar su viabilidad. Estas pruebas se han realizado en el sitio web zientzia.net de la fundación Elhuyar.

Las técnicas para relacionar documentos entre si pueden encuadrarse en el siguiente concepto: similitud entre documentos o document similarity.
Con el proposito de relacionar documentos se investigan técnicas para medir la semenjanza entre ellos. Sin embargo, al ser la semejanza un concepto tan amplio las lineas de investigación son muy variadas. En este proyecto, tenemos el proposito de profundizar en la similitud semántica translingüe. De todas formas, también se trabajarán otras técnicas auxiliares.

Midiendo la relación existente entre documentos en distintos idiomas, seríamos capaces de agrupar documentos de contenido similar. De este manera, se nos abren nuevas puertas teniendo el Euskera como punto de partida, para acceder a contenidos multilingües de Internet, para relacionar semi-automáticamente documentos multilingües de contenido equivalente o similar, para construir corpus comparables y un largo etctera.

Modelar la relación semántica entre documentos es un problema interesante en las ciencias cognitivas (cognitive sciencie) tanto a nivel teórico como práctico. A nivel teórico porque modela un proceso cognitivo, y a nivel práctico porque los sistemas de búsqueda, los sistema de navegación, los visulizadores de corpus, filtros, clasificadores, y en general muchas herramientas para la gestión de textos utilizan medidas de similitus. Por tanto, el desarrollo de una tecnología de calidad en torno a la similitud semántica es un paso básico para garantizar la utilidad de software orientado a la gestión textual.

Difusión

 

 

Volver al inicio de la página

Servicios

Volver al inicio de la página
Gizarte-laneko hiztegia
5,70€Comprar
Enpresa Kudeaketa Aurreratua. Hiztegia
Enpresa Kudeaketa Aurreratua. Hiztegia
9,50€Comprar
Volver al inicio de la página Volver al inicio de la página

Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Volver al inicio de la página