Este proyecto tiene como objetivo elaborar técnicas para extraer automáticamente pares de términos de las memorias de traducción castellano-euskera así como desarrollar una herramienta basada en la implementación de dichas técnicas. Este objetivo se incluye en un ámbito de investigación más amplio: la extracción de equivalencias léxicas a partir de corpus paralelos.
En la actualidad, en muchos sistemas de ayuda a la traducción basados en las memorias de traducción, se ha integrado el módulo de extracción de términos bilingües, que ofrece la posibilidad de enriquecer de manera semiautomática la base de datos terminológica del sistema. Dichos sistemas no tienen herramientas para procesar automáticamente el euskera, de manera que emplean únicamente las técnicas estadísticas. Dado que el euskera es un lengua aglutinante, los datos estadísticos basados en la coocurrencia de formas textuales son dispersos, y, por tanto, no son representativos. En consecuencia, los resultados que obtienen con las memorias de traducción euskera-castellano no son satisfactorios.
Con la herramienta ElexBi queremos ofrecer un extractor que toma en consideración la naturaleza del euskera. Con ese objetivo, hemos estudiado las técnicas que se utilizan actualmente para extraer recursos léxicos y terminológicos a partir de corpus paralelos. La mayoría de los sistemas que se han propuesto y desarrollado están basados en técnicas estadísticas (desarrollados, principalmente, en el contexto de la traducción automática estadística); asimismo, se emplean técnicas lingüísticas, desarrolladas mayormente en el contexto de la extracción terminológica. La tendencia de los últimos años es la de combinar ambas técnicas. De hecho, en nuestros experimentos hemos observado que los mejores resultados se han obtenido combinando las técnicas lingüísticas y estadísticas en el proceso de extracción; si además se emplean algunas técnicas “heurísticas”, los resultados del proceso mejoran.
La estructura del proceso es, a grandes rasgos, la siguiente: en un primer paso, se identifican (mediante técnicas lingüísticas) los términos candidatos de cada lengua (tanto simples como multipalabra), luego, se emparejan dichos términos (mediante técnicas estadísticas, principalmente).
Para identificar los términos candidatos de cada lengua, ELexBI utiliza las técnicas siguientes: para procesar el texto en euskera, el extractor de términos Erauzterm, desarrollado por la Fundación Elhuyar en colaboración con el Grupo IXA; para procesar el texto en castellano, el paquete de software libre Freeling, desarrollado por el Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) de la UPC y el Centre de Llenguatge i Computació de la Universitat de Barcelona.
Diagrama general de ElexBi:
Para seleccionar los equivalentes, ELexBi utiliza un algoritmo paso a paso:
Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789
Diseinua: Blanco