Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Services linguistiques 

Retour au haut de la page

R+D

Extraction de Lexique et de Terminologie

AzerHitz 

Objectifs et description générale

Les techniques d'extraction de lexique bilingue développées jusqu'ici étaient principalement destinées à l'extraction de lexique à partir de corpus parallèles ou de mémoires de traduction. Cette stratégie comporte néanmoins des points faibles. D'une part la source des extractions est composée de segments traduits manuellement et, par conséquent, les équivalences obtenues sont le fruit d'un processus de traduction.

Ceci pourrait entraîner un certain manque de naturel. D'autre part les corpus parallèles sont une ressource très rare, un problème qui s'aggrave encore si les langues traitées sont pauvres en ressources linguistiques. Par conséquent le secteur est de plus en plus intéressé par les corpus comparables et par leur exploitation.

Les corpus comparables plurilingues sont des collections de textes écrits au moins en deux langues ; ce ne sont pas des traductions les uns des autres, contrairement aux corpus parallèles. Ils comportent néanmoins certaines caractéristiques communes, comme par exemple le domaine traité ; les dates de publication ; le genre ou le registre ; etc. Ces caractéristiques ont un impact sur le type d'informations à analyser ou à extraire. Par exemple si les textes appartiennent au même domaine de connaissance (par ex. Médecine), il est possible d'extraire une terminologie plurilingue de ce domaine.

L'objectif principal d'AzerHitz est d'analyser et de développer des techniques d'extraction de lexique bilingue à partir de corpus comparables de manière semi-automatique. Nous avons pris comme point de départ le travail réalisé dans les projets Erauzterm et ElexBi. Même si les ressources et les techniques utilisées pour ce projet diffèrent largement, certains aspects subsistent pour les deux types d'extraction.

L'idée de base d'AzerHitz est la suivante : "Les mots qui apparaissent autour d'un mot déterminé sont similaires dans deux langues". C'est-à-dire que le contexte d'un mot est similaire en plusieurs langues. AzerHitz recherche les traductions de mots en se servant de cette similitude.


Le second objectif de ce projet est de concevoir des mesures pour calculer le niveau de similitude entre des corpus comparables. Si nous sommes capables de mesurer jusqu'à quel point deux collections de textes en différentes langues se ressemblent, nous pouvons faire en sorte que des corpus comparables soient mieux adaptés pour réaliser l'extraction de lexique.

Financement

Le programme Saiotek 2007 du Département de l'Industrie du Gouvernement Basque 

Diffusion

 

Retour au haut de la page

Services

Retour au haut de la page
Elhuyar hiztegi txikia. Euskara/Gaztelania - Castellano/Vasco
22,80€Acheter
Elhuyar hiztegia. Euskara/Gaztelania - Castellano/Vasco
Elhuyar hiztegia. Euskara/Gaztelania - Castellano/Vasco
44,65€Acheter
Retour au haut de la page Retour au haut de la page

Copyright © 2007 Elhuyar Fundazioa | Avis juridique | Plan du site | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Retour au haut de la page