Les moteurs de recherche d'Internet font face à deux des principaux problèmes lorsque nous travaillons avec le basque : d'une part il n'est possible que de rechercher d'une manière déterminée, et pas avec toutes les formes d'un mot ou d'un sujet en même temps - par exemple, si nous souhaitons chercher "lur", nous souhaitons aussi voir s'afficher "lurra", "lurrarekin", "lurrean"... - ; d'autre part, il peut arriver (en fait, c'est le cas) que les moteurs de recherche localisent des termes qui ne sont pas en basque, s'il existe un terme identique dans une autre langue.
C'est ce qui se produit avec certains termes techniques ("software", "anorexia", "sulfuroso"…), des noms propres (Egipto, Newton…) et des mots courts ("katu", "esne"…). Il est techniquement possible de créer un moteur de recherche intégral d'Internet qui résolve ces problèmes, mais cela exigerait une grande infrastructure. Au lieu des moteurs de recherche cités, nous utilisons les API ou interfaces qui offrent les moteurs de recherche d'Internet dans le projet EusBila. L'utilisation de diverses techniques de traitement de la langue naturelle permet d'améliorer en grande mesure les résultats.
Pour afficher une forme déterminée et toutes les options possibles dérivées du sujet, nous utilisons l'outil de génération morphologique créé par le Groupe IXA (Université du Pays basque). De cette manière, grâce à l'opérateur OR, nous demandons toutes les formes possibles à l'API. Si l'utilisateur demande, par exemple, le mot "etxe", le moteur de recherche indique les termes suivants : etxe OR etxea OR etxeak OR etxeari OR... Les moteurs de recherche n'admettent évidemment pas toutes les options souhaitées et, par conséquent n'affichent pas toutes les déclinaisons, seulement les déclinaisons suffisantes pour obtenir des résultats significatifs.
Pour obtenir les résultats en basque uniquement, nous utilisons des mots filtres. Les mots les plus utilisés en basque sont celles qui sont utilisées comme un filtre, connectées par un AND.
Dans le projet EusBila nous avons en outre fait un traitement des variantes et des standards, en utilisant pour ce faire la base de données lexicales EDBL, du Groupe IXA. Si nous détectons que le mot demandé présente des variantes, le moteur réalise la recherche et propose également les variantes à l'utilisateur ou, si le mot demandé est une variante, la forme standard. Nous utilisons la même procédure avec les suffixes de déclinaison. En outre dans le cas de mots inconnus, le moteur vérifie s'il est possible de parvenir à un mot standard en utilisant des règles phonologiques. En cas de réponse affirmative, ce mot est également proposé.
Copyright © 2007 Elhuyar Fundazioa | Avis juridique | Plan du site | Erabiltzaile-kopurua: 856789
Diseinua: Blanco