Céard é an suíomh seo
Cúlra
Toradh é an suíomh seo ar an tionscadal Díchódú Oidhreachtaí Folaithe (DHH) arna reáchtáil ag Ollscoil Dhún Éideann agus Ollscoil Chathair Bhaile Átha Cliath ó 2021–24 agus arna mhaoiniú ag UKRI-AHRC agus an Chomhairle um Thaighde in Éirinn faoin ‘UK-Ireland Collaboration in the Digital Humanities Research Grants Call’ (uimhreacha deontas AH/W001934/1 agus IRC/W001934/1). Mar chuid den tionscadal seo, cruthaíodh corpas téacs mór de sheanscéalta as Albain agus Éirinn, ag tarraingt as an ‘Tale Archive’ sa ‘School of Scottish Studies Archives’ agus as Príomhbhailiúchán Lámhscríbhinní & Bailiúchán na Scol Chnuasach Béaloideas Éireann. Tá an t-ábhar seo á scrúdú faoi láthair agus foilseofar na torthaí i 2026.
Sonraí foinseacha
Bhí na sonraí foinseacha i bhfoirm lámhscríofa nó chlóite. Cuimsíonn an t-ábhar lámhscríofa tras-scríbhinní ar scéalaíocht ó bhéal a bailíodh in Albain agus in Éirinn idir 1792–1975. Bunaíodh na tras-scríbhinní láimhe ar thaifeadtaí fuaime de ghnáth. Ní mhaireann cuid mhór de na taifeadtaí fuaime, go háirithe na cinn Éireannacha. Sa chás go maireann na taifeadtaí fuaime, d’fhéadfadh go bhfuil siad ar fáil, nó go mbeidh amach anseo, ar Tobar an Dualchais nó ar Dúchas. Cuimsíonn an t-ábhar clóite eagráin de scéalta a tháinig anuas ó bhéal freisin.
Aithint téacs uathoibríoch
D’úsáid tionscadal DHH ábhar lámhscríofa agus clóite a bhí scanta cheana, agus scanadh tuilleadh ábhar den chineál céanna. Ansin traenáladh samhlacha uathaitheanta téacs (ATR), do théacs clóite (OCR) agus lámhscríofa (HTR) araon, chun leaganacha téacs de na seanscéalta a chruthú. Mar chuid den phróiseas seo, tras-scríobhadh cuid den ábhar lámhscríofa de láimh (níos lú ná 10%) chun sonraí traenála a chruthú, agus uath-thras-scríobhadh an chuid eile leis na samhlacha AI nua seo. Más ea, ní bhíonn na tras-scríbhinní iomlán cruinn i gcónaí, ach le ráta míchruinnis faoi bhun 5%, tá siad fíor-úsáideach don chuardach, aimsiú agus anailís. Is fiú a nótáil anseo freisin go ndearnadh na bun-tras-scríbhinní láimhe ar an gcaint i bhfoirm chanúnach d’aon ghnó go minic. Tá formhór na dtras-scríbhinní seo á gcur ar fáil go poiblí don chéad uair riamh. B’fhéidir go mbeidh fonn ar úsáideoirí gan léamh na Gaeilge ná na Gàidhlig téacsanna a bhfuil suim acu iontu a aighniú chuig córas meaisínaistriúcháin. D’fhéadfadh na torthaí a bheith inathraitheach, áfach, mar sin moltar d’úsáideoirí dul i gcomhairle le cainteoirí líofa sna teangacha seo chun léirléamh ceart a chinntiú.
Rinneadh an tras-scríobh uathoibríoch le Transkribus, ardán faoi thiomáint AI le haghaidh uathaithint téacs agus tras-scríobh doiciméid stairiúla. Ceann de bhuaiteoirí ‘Transkribus 100k Giveaway’ ab ea tionscadal Díchódú Oidhreachtaí Folaithe, comórtas chun úsáidí nuálacha a baineadh as an ardán le haghaidh taighde stairiúil a cheiliúradh.
Torthaí
Cuimsíonn an tacar sonraí a bhí mar thoradh air seo, agus atá comhbhailithe agus inchuardaithe ar an suíomh seo, os cionn 5,500 seanscéal. Tá go leor de na scéalta seo rangaithe de réir tíopaí seanscéalta Aarne–Thompson (AT) rud a fhágann gur féidir breathnú orthu go téamúil agus go tíopeolaíoch. Aisghabhtar na sonraí Éireannacha go dinimiciúil trí API Dúchas. Is féidir tras-scríbhinní Éireannacha a cheartú trí Meitheal Dúchas.ie.
Staitisticí
Albain:
- Líon iomlán scéalta: 3,846
- Scéalta GD: 2,346
- Scéalta EN: 1,052
- Scéalta teanga measctha: 448
- Líon iomlán leathanach: 24,135
- Leathanaigh GD: 15,776
- Leathanaigh EN: 4,107
- Leathanaigh teanga measctha: 4,252
- Líon iomlán focal: 2,525,222
- Focail GD: 1,845,542
- Focail EN: 21,855
- Focail GD nó EN: 657,825
- Líon iomlán tíopaí AT: 310
Éire:
- Líon iomlán scéalta: 2,062
- Scéalta GA: 1,809
- Scéalta EN: 246
- Scéalta teanga measctha: 11
- Líon iomlán leathanach: 21,039
- Leathanaigh GA: 20,983
- Leathanaigh EN: 718
- Leathanaigh teanga measctha: 44
- Líon iomlán focal: 2,594,806
- Focail GA: 2,529,384
- Focail EN: 80,780
- Focail GA nó EN: 5,532
- Líon iomlán tíopaí AT: 360