Recursos y herramientas
Corpus de Ciencia y Tecnología
Tiene como objetivo principal ser un recurso para investigar el uso que se hace del euskera en el ámbito de la ciencia y la tecnología.
- Para alimentar este corpus se han incorporado obras sobre ciencia y tecnología publicadas entre 1990 y 2002.
- En total: 8,5 millones de palabras.
- Automáticamente trabajadas y posteriormente, manualmente revisadas y corregidas: 1, 9 millones de palabras.
- Es un corpus segmentado en función del campo (área temática) y el género (tipo de texto).
- Es un corpus etiquetado, tanto a la estructura y al formatu del texto, como lingüísticamente.
- Posee un potente interfaz para consultar el corpus y permite realizar diversas búsquedas simples y complejas.
- Ha sido desarrollado por el equipo de I+D+i de la Fundación Elhuyar y el Grupo IXA de la Facultad de Informática de la UPV.
- Ha sido presentado en las conferencias LREC 2006 y en Corpus Linguistics 2007
Para la difusión del corpus hemos establecido tres modalidades: