Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Servicios Lingüísticos 

Volver al inicio de la página

Unidad de I+D

Extracción de léxico y terminología

ElexBI 

Objetivos y descripción general

Este proyecto tiene como objetivo elaborar técnicas para extraer automáticamente pares de términos de las memorias de traducción castellano-euskera así como desarrollar una herramienta basada en la implementación de dichas técnicas. Este objetivo se incluye en un ámbito de investigación más amplio: la extracción de equivalencias léxicas a partir de corpus paralelos.

En la actualidad, en muchos sistemas de ayuda a la traducción basados en las memorias de traducción, se ha integrado el módulo de extracción de términos bilingües, que ofrece la posibilidad de enriquecer de manera semiautomática la base de datos terminológica del sistema. Dichos sistemas no tienen herramientas para procesar automáticamente el euskera, de manera que emplean únicamente las técnicas estadísticas. Dado que el euskera es un lengua aglutinante, los datos estadísticos basados en la coocurrencia de formas textuales son dispersos, y, por tanto, no son representativos. En consecuencia, los resultados que obtienen con las memorias de traducción euskera-castellano no son satisfactorios.

Con la herramienta ElexBi queremos ofrecer un extractor que toma en consideración la naturaleza del euskera. Con ese objetivo, hemos estudiado las técnicas que se utilizan actualmente para extraer recursos léxicos y terminológicos a partir de corpus paralelos. La mayoría de los sistemas que se han propuesto y desarrollado están basados en técnicas estadísticas (desarrollados, principalmente, en el contexto de la traducción automática estadística); asimismo, se emplean técnicas lingüísticas, desarrolladas mayormente en el contexto de la extracción terminológica. La tendencia de los últimos años es la de combinar ambas técnicas. De hecho, en nuestros experimentos hemos observado que los mejores resultados se han obtenido combinando las técnicas lingüísticas y estadísticas en el proceso de extracción; si además se emplean algunas técnicas “heurísticas”, los resultados del proceso mejoran.

La estructura del proceso es, a grandes rasgos, la siguiente: en un primer paso, se identifican (mediante técnicas lingüísticas) los términos candidatos de cada lengua (tanto simples como multipalabra), luego, se emparejan dichos términos (mediante técnicas estadísticas, principalmente).

Para identificar los términos candidatos de cada lengua, ELexBI utiliza las técnicas siguientes: para procesar el texto en euskera, el extractor de términos Erauzterm, desarrollado por la Fundación Elhuyar en colaboración con el Grupo IXA; para procesar el texto en castellano, el paquete de software libre Freeling, desarrollado por el Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) de la UPC y el Centre de Llenguatge i Computació de la Universitat de Barcelona.

La herramienta ElexBi

Diagrama general de ElexBi:

 

Para seleccionar los equivalentes, ELexBi utiliza un algoritmo paso a paso:

  • El primer paso consiste en seleccionar los pares 'más seguros', es decir, pares de términos de títulos, capítulos, etc. (siempre y cuando el término candidato de cada lengua comprenda el título completo correspondiente).
  • A continuación, se toma en consideración la similitud de los términos candidatos (se seleccionan los que cumplen: medida LCRS > 0,8).
  • Finalmente, se tiene en cuenta la coocurrencia de los términos candidatos en un mismo segmento, mediante medidas de asociación estadística (AM): información recíproca (MI, MI3), razón de verosimilitud (LR), ji-cuadrado (χ2), t-score, coeficiente Dice...
Interfaz del usuario

 

Difusión

 

 

Volver al inicio de la página

Servicios

Volver al inicio de la página
Hiztegi elektronikoa. Euskara/Gaztelania - Castellano/Vasco
22,80€Comprar
Elhuyar Ikaslearen Hiztegia
Elhuyar Ikaslearen Hiztegia
24,70€Comprar
Volver al inicio de la página Volver al inicio de la página

Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Volver al inicio de la página