Erauzterm
Helburuak eta azalpen orokorra
- Euskarazko testuetatik edo corpusetatik terminoak automatikoki erauzteko teknikak ikertzea eta garatzea
- Teknika horien bidez, tresna bat inplementatzea
Terminoak automatikoki erauzteko prozedura ugari erabili izan dira, bi teknika nagusitan oinarrituak denak ere: teknika linguistikoak eta teknika estatistikoak. Euskara hizkuntza eranskaria denez, metodo estatistiko hutsen emaitzak ez lirateke onargarriak (flexioaren ondoriozko datu-barreiadura). Horrenbestez, metodo hibrido baten alde egin dugu. Lehen urratsean, teknika linguistikoak erabiltzen dira termino hautagaiak erauzteko. Bigarren urratsean, termino hautagaien ranking-a egiten da, teknika estatistikoen bidez.
Teknika linguistikoak garatzeko ikertutako arloak:
- Euskarazko terminoen egitura morfosintaktikoen azterketa eta eredu nagusi/emankorrenen zehaztapena (N, NN, NApos, AprepN, NNApos, AprepNApos...)
- Hautatutako eredu morfosintaktikoen araberako sintagmak automatikoki markatzeko gramatika eta transduktorea (termino hautagai 'luzeen' erauzketa)
- Termino hautagai luzeen barnean dauden termino 'habiatuak' aztertzea, horien barneko hautagai berriak erauzteko
- Euskarazko termino-aldaeren azterketa: aldaera-motak eta horietako batzuk automatikoki tratatzeko (elkarren artean erlazionatzeko) teknikak
Teknika estatistikoak garatzeko ikertutako arloak:
- Hautagai bakunen 'terminotasuna' (termhood) mailakatzeko neurriak
- Hitz anitzeko hautagaien 'terminotasuna' mailakatzeko neurriak. Elkartze-neurri estatistikoak (AM): elkarrekiko informazioa (MI, MI3), egiantz-arrazoia (LR), khi karratua (χ2), t neurria, Dice koefizientea...
Erauzterm tresna
Erauzterm-en moduluak
- Corpus-eratzailea
- Termino-erauzle automatikoa
- Modulu linguistikoa: corpusa etiketatzea, termino hautagaiak erauztea → Termino hautagaien datu-basea
- Modulu estatistikoa: Termino hautagaien neurri estatistikoak kalkulatu → Termino hautagaien ranking-a
- Corpus-nabigatzailea
- Hautagai-zerrenda ordenatzeko aukerak (albafetikoki, maiztasunaren arabera, elkartze-neurrien arabera)
- Hautagaiaren informazioa: forma kanonikoa, eredu morfosintaktikoa, maiztasuna, hautatutako elkartze-neurria (irudian, LLR)
- Hautagaien testuinguruak bistaratzea: konkordantziak (KWIC) eta testuinguru zabalagoa ( )
Hautagaiaren aldaerak bistaratzea (T: ortotipografikoa; M: morfosintaktikoa; S: sintaktikoa)
Arloa zehaztea - Terminoak balioestea
- Terminoak esportatzea
Erabiltzailearen interfazea

Finantziazioa
- Eusko Jaurlaritzako Industria, Turismo eta Merkataritza sailaren Saiotek 2002 deialdian diruz lagundua
- Eusko Jaurlaritzako Industria, Turismo eta Merkataritza sailaren Saiotek 2003 deialdian diruz lagundua
- Gipuzkoako Foru Aldundiko Sareko Agenteak 2003 deialdian diruz lagundua
Gizarteratzea
- Hedabideetan
- Artikuluak
- Gurrutxaga A., Saralegi X., Ugartetxea S., Alegria I. 2005. "Erauzterm: euskarazko terminoak erauzteko tresna erdiautomatikoa". Mendebalde Kultur Alkartea, IX. Jardunaldiak: Euskera zientifiko-teknikoa. Bilbao.
- Alegria I., Gurrutxaga A., Lizaso P., Saralegi X., Ugartetxea S., Urizar R. 2004. "Linguistic and Statistical Approaches to Basque Term Extraction". GLAT 2004: The production of specialized texts. Barcelona.
- Alegria I., Gurrutxaga A., Lizaso P., Saralegi X., Ugartetxea S., Urizar R. 2004. "An Xml-Based Term Extraction Tool for Basque". 4th International Conference on Language Resources and Evaluations (LREC). Lisbon.