ZT Corpusa
Objetivos y descripción general
El Corpus de Ciencia y Tecnología (o corpus ZT) es una recopilación estructurada y etiquetada de textos sobre ciencia y tecnología en euskera, y su principal objetivo es el de convertirse en herramienta de investigación del uso del euskera en dichos ámbitos. Es un corpus especial (o especializado), fruto de la colaboración entre el Grupo IXA (UPV) y la Fundación Elhuyar.
La versión que presentamos en ztcorpusa.net (puede consultarse ya) es el primer paso de un proyecto de corpus más amplio. Si desea información detallada sobre el corpus diseñado en dicho proyecto y la metodología de su elaboración, consulte ZT corpusaren diseinua eta metodologia.
- Por lo que se refiere a la composición del corpus, se han utilizado como referencia obras del ámbito de la ciencia y de la tecnología publicadas entre 1990 y el 2002.
- Se trata de un corpus clasificado en función del campo (disciplina) y del género (tipo de texto).
- Es un corpus etiquetado, tanto en lo que se refiere a la estructura y formato del texto como lingüísticamente. Para el etiquetado lingüístico, se ha utilizado tecnología avanzada de procesamiento automático del euskera (el etiquetador Eustagger, del Grupo IXA).
- La primera versión del corpus cuenta con 7,6 millones de palabras, de las que 1,6 millones han sido revisadas, desambiguadas y corregidas a mano. La segunda versión tiene 8,5 millones de palabras, de las que 1,9 millones han sido tratadas a mano.
- Para elaborar el corpus y gestionarlo, hemos desarrollado la herramienta Corpusgile, que 'interioriza' los pasos necesarios para elaborar el corpus y utiliza las herramientas Eustagger y Eulia, ambas del Grupo IXA.
La versión que presentamos en internet es parte de un proyecto más amplio y consta de dos partes:
- El sitio equilibrado, diseñado para ser utilizado como indicador de la elaboración de textos sobre ciencia y tecnología en euskera.
- La sección abierta, compuesta por obras o partes de obras que se incorporan al corpus según su accesibilidad.
Por otra parte, hemos elaborado una potente interfaz para consultar el corpus, gracias al cual el usuario podrá realizar muchos tipos de búsquedas simples y complejas, utilizando para ello un conjunto de parámetros: lema, forma de texto, categoría, ámbito, género, parte del corpus (corregido a mano/corpus íntegro)...
Participantes:
El Corpus de Ciencia y Tecnología es fruto de la colaboración entre el Grupo IXA (UPV) y la Fundación Elhuyar.
Financiación:
- Su elaboración se inició dentro del proyecto de investigación estratégica Hizking21. El proyecto Hizking21 ha recibido ayudas de los siguientes programas: El programa Etortek (2002-2004), del Departamento de Industria del Gobierno Vasco, y del programa de la Red de Ciencia, Tecnología e Innovación (2004) de la Diputación Foral de Gipuzkoa.
- El programa Euskera y Nuevas Tecnologías (2005) del Departamento de Cultura del Gobierno Vasco.
- El programa TIC (2006) del Departamento de Cultura del Gobierno Vasco.
- El programa TIC (2007) del Departamento de Cultura del Gobierno Vasco.
Difusión:
Hemos diseñado tres modalidades de divulgación de la versión de internet del corpus ZT:
- Consulta gratuita en Internet: este sitio web es la materialización del citado proyecto.
- Donación para la investigación, vía convenio: las instituciones y equipos que se dedican a la investigación pueden adquirirlo gratis, vía convenio, siempre se destine a la investigación.
- Distribución vía licencia de explotación comercial: ofrecemos la posibilidad de utilizar los datos del corpus en la elaboración de diccionarios, en las aplicaciones de las tecnologías del lenguaje... En breve, el corpus formará parte de los recursos de ELDA, desde donde se gestionará su distribución.
De las citadas opciones, las dos últimas son pioneras en el campo de los corpus vascos, ya que los anteriores no ofrecían otra posibilidad de uso que el sistema puntual de consulta.
Publicaciones:
- Areta N., Gurrutxaga A., Leturia I., Alegria I., Artola X., Díaz de Ilarraza A., Ezeiza N., Sologaistoa A. "ZT Corpus: Annotation and tools for Basque corpora". Corpus Linguistics 2007. Birmingham
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2006. "Structure, Annotation and Tools in the Basque ZT Corpus". International Conference on Language Resources and Evaluations (LREC 2006). Genoa.
- N. Areta, A. Gurrutxaga, I. Leturia, Z. Polin, R. Saiz, I. Alegria, X. Artola, A. Diaz de Ilarraza, N. Ezeiza, A. Sologaistoa, A. Soroa, A. Valverde. 2005. "Zientzia eta teknologiaren corpusa. Diseinua eta metodologia" EHU/UPV. Bilbao.
- Alegria I., Artola X., Díaz de Ilarraza A., Ezeiza N., Sologaistoa A., Soroa A., Valverde A., N. Arteta, A. Gurrutxaga, I. Leturia, R. Saiz. 2005."Zientzia eta teknologiaren corpusa". Euskera zientifiko-teknikoa: Normalizaziotik homologazinora. Mendebalde Kultura Alkartea. Bilbao.
Noticias aparecidas en los medios de comunicación: