Elhuyar Fundazioaren logoa

Elhuyar Fundazioa - Servicios Lingüísticos 

Volver al inicio de la página

Unidad de I+D

Recursos de corpus

ZT Corpusa 

Objetivos y descripción general

El Corpus de Ciencia y Tecnología (o corpus ZT) es una recopilación estructurada y etiquetada de textos sobre ciencia y tecnología en euskera, y su principal objetivo es el de convertirse en herramienta de investigación del uso del euskera en dichos ámbitos. Es un corpus especial (o especializado), fruto de la colaboración entre el Grupo IXA (UPV) y la Fundación Elhuyar.

La versión que presentamos en ztcorpusa.net (puede consultarse ya) es el primer paso de un proyecto de corpus más amplio. Si desea información detallada sobre el corpus diseñado en dicho proyecto y la metodología de su elaboración, consulte ZT corpusaren diseinua eta metodologia.

  • Por lo que se refiere a la composición del corpus, se han utilizado como referencia obras del ámbito de la ciencia y de la tecnología publicadas entre 1990 y el 2002.
  • Se trata de un corpus clasificado en función del campo (disciplina) y del género (tipo de texto).
  • Es un corpus etiquetado, tanto en lo que se refiere a la estructura y formato del texto como lingüísticamente. Para el etiquetado lingüístico, se ha utilizado tecnología avanzada de procesamiento automático del euskera (el etiquetador Eustagger, del Grupo IXA).
  • La primera versión del corpus cuenta con 7,6 millones de palabras, de las que 1,6 millones han sido revisadas, desambiguadas y corregidas a mano. La segunda versión tiene 8,5 millones de palabras, de las que 1,9 millones han sido tratadas a mano.
  • Para elaborar el corpus y gestionarlo, hemos desarrollado la herramienta Corpusgile, que 'interioriza' los pasos necesarios para elaborar el corpus y utiliza las herramientas Eustagger y Eulia, ambas del Grupo IXA.

La versión que presentamos en internet es parte de un proyecto más amplio y consta de dos partes:

  • El sitio equilibrado, diseñado para ser utilizado como indicador de la elaboración de textos sobre ciencia y tecnología en euskera.
  • La sección abierta, compuesta por obras o partes de obras que se incorporan al corpus según su accesibilidad.

Por otra parte, hemos elaborado una potente interfaz para consultar el corpus, gracias al cual el usuario podrá realizar muchos tipos de búsquedas simples y complejas, utilizando para ello un conjunto de parámetros: lema, forma de texto, categoría, ámbito, género, parte del corpus (corregido a mano/corpus íntegro)...

Participantes:

El Corpus de Ciencia y Tecnología es fruto de la colaboración entre el Grupo IXA (UPV) y la Fundación Elhuyar.

Financiación:
  • Su elaboración se inició dentro del proyecto de investigación estratégica Hizking21. El proyecto Hizking21 ha recibido ayudas de los siguientes programas: El programa Etortek (2002-2004), del Departamento de Industria del Gobierno Vasco, y del programa de la Red de Ciencia, Tecnología e Innovación (2004) de la Diputación Foral de Gipuzkoa.
  • El programa Euskera y Nuevas Tecnologías (2005) del Departamento de Cultura del Gobierno Vasco.
  • El programa TIC (2006) del Departamento de Cultura del Gobierno Vasco.
  • El programa TIC (2007) del Departamento de Cultura del Gobierno Vasco.
Difusión:

Hemos diseñado tres modalidades de divulgación de la versión de internet del corpus ZT:

  • Consulta gratuita en Internet: este sitio web es la materialización del citado proyecto.
  • Donación para la investigación, vía convenio: las instituciones y equipos que se dedican a la investigación pueden adquirirlo gratis, vía convenio, siempre se destine a la investigación.
  • Distribución vía licencia de explotación comercial: ofrecemos la posibilidad de utilizar los datos del corpus en la elaboración de diccionarios, en las aplicaciones de las tecnologías del lenguaje... En breve, el corpus formará parte de los recursos de ELDA, desde donde se gestionará su distribución.

De las citadas opciones, las dos últimas son pioneras en el campo de los corpus vascos, ya que los anteriores no ofrecían otra posibilidad de uso que el sistema puntual de consulta.

Publicaciones:
Noticias aparecidas en los medios de comunicación:
Volver al inicio de la página

Servicios

Volver al inicio de la página
Energiaren hiztegi entziklopedikoa
17,10€Comprar
Dictionnaire Elhuyar hiztegia euskara-frantsesa / français-basque
Dictionnaire Elhuyar hiztegia euskara-frantsesa / français-basque
22,80€Comprar
Volver al inicio de la página Volver al inicio de la página

Copyright © 2007 Elhuyar Fundazioa | Aviso legal | Mapa web | Erabiltzaile-kopurua: 856789

webmaster@elhuyar.com

Diseinua: Blanco

Volver al inicio de la página