Étudier et développer des techniques pour mettre en rapport des documents multilingues : classement sémantique de documents, similitude sémantique entre documents et groupement (clustering) de documents basé sur des organismes et des termes…
Nous avons développé un prototype pour évaluer ces techniques et analyser leur viabilité. Ces essais ont été réalisés sur le site web zientzia.net de la fondation Elhuyar.
Les techniques pour rapprocher des documents suivent toutes le même concept : similitude entre les documents ou document similarity.
Pour rapprocher des documents, nous recherchons des techniques pour mesurer le niveau de ressemblance entre eux. Néanmoins la ressemblance étant un vaste concept, les lignes de recherche sont très variées. Dans ce projet nous souhaitons approfondir la similitude sémantique multilingue. Nous travaillerons également sur d'autres techniques auxiliaires.
En mesurant le rapport existant entre des documents dans plusieurs langues, nous serions capables de regrouper des documents avec un contenu similaire. De cette manière de nouvelles voies s'offrent à nous avec le basque comme point de départ, pour accéder aux contenus multilingues d'Internet, pour rapprocher de manière semi-automatique des documents multilingues de contenus équivalents ou similaires, pour construire des corpus comparables, etc.
Modéliser la relation sémantique entre des documents est un problème intéressant dans les sciences cognitives (cognitive sciencie), au niveau théorique et pratique. Au niveau théorique parce que cela modélise un processus cognitif et, au niveau pratique, parce que les systèmes de recherche, les systèmes de navigation et les systèmes de visualisation de corpus, les filtres, les systèmes de classement et en général de nombreux outils de gestion de textes utilisent des mesures de similitudes. Par conséquent, le développement d'une technologie de qualité autour de la similitude sémantique est une étape basique pour garantir l'utilité du logiciel destiné à la gestion textuelle.
Copyright © 2007 Elhuyar Fundazioa | Avis juridique | Plan du site | Erabiltzaile-kopurua: 856789
Diseinua: Blanco