FACET

Roedd y Prosiect Terminoleg Treftadaeth Ddiwylliannol ('FACET') yn brosiect cydweithredol a oedd yn ymchwilio i'r posibilrwydd o ehangu semantig wrth adalw. Ei nod oedd manteisio ar strwythur yr elfen yn y rhyngwyneb a'r mecanwaith adalw. Mae rhagor o wybodaeth ac arddangoswr ar y we i'w gweld ar dudalennau gwe'r prosiect. Mae papur cyfnodolyn ar-lein gyda dolenni i'r arddangoswr ar y we yn trafod amryw faterion o ran darparu gwasanaethau sy'n seiliedig ar KOS. Mae'r llinyn ymchwil hwn yn parhau ym mhrosiect STAR.

Dyddiadau: Ebrill 2000 – Mawrth 2003 Ffynhonnell ariannu: EPSRC £121,130 Prif archwiliwr: Douglas Tudhope, Cyd-ymchwilydd: Daniel Cunliffe, Cymrodyr Ymchwil: Ceri Binding, Dorothee Blocks 

Cydweithwyr


Cefndir

Roedd FACET yn brosiect cydweithredol tair blynedd wedi'i ariannu ar gyfer EPSRC a oedd yn ymchwilio i botensial adalw thesawrws. Gorffennodd y prosiect gwreiddiol yn 2003. Roedd asesiad yr EPSRC o'n hadroddiad terfynol yn graddio'r prosiect fel 'tueddu i ragorol'. Dyfarnwyd y radd uchaf o 'eithriadol' i ddwy agwedd (cyfathrebu allbynnau'r ymchwil a chost effeithiolrwydd).

Heddiw rydym yn gweld ymdrechion mawr i ddigido casgliadau ar gyfer y we. Mae hyn yn golygu agor cronfeydd data, a oedd gynt yn barth y gweithiwr proffesiynol, i ystod newydd o ddefnyddwyr. Mae angen hanfodol am offer sy'n cynorthwyo defnyddwyr i ffurfio a mireinio ymholiadau, a llywio drwy'r gofod gwybodaeth. Mae'r twf diweddar mewn cymwysiadau treftadaeth ddiwylliannol wedi bod yn hwb mawr i hyrwyddo mynediad at gasgliadau amlgyfrwng yn fwy cyffredinol ac mae wedi cyd-daro â diddordeb mewn cymhwyso technegau catalogio traddodiadol i'r we. Mae'r symudiad gan amgueddfeydd i ddatgloi eu cronfeydd data ar gasgliadau i'r cyhoedd, hefyd wedi mynd yn erbyn materion pwyntiau mynediad ac arferion mynegeio.

Mae'r thesawrws yn un o'r offer mynegeio geirfa a ddefnyddir amlaf – nod prosiect 'FACET' yw ymchwilio i botensial adalw thesawrysau. Mae FACET yn ymchwilio i integreiddiad agosach y thesawrws i'r technegau rhyngwyneb a chwilio nad ydynt yn gofyn i'r defnyddiwr gydweddu'n union sut mae eitem wedi'i fynegeio.

Mae FACET yn cydweithio ag Ymddiriedolaeth J. Paul Getty i edrych ar botensial adalw ei geirfaoedd, yn enwedig y thesawrws celf a phensaernïaeth (AAT), a gyda'r National Museum of Science and Industry (NMSI) yn ei ymdrechion i hyrwyddo mynediad ehangach at ei gronfa ddata o gasgliadau. Y nod yw ategu datblygiad NMSI o'r prif feysydd o 'gynnwys cyfoethog'. Mae hanes y rheilffordd/locomotif wedi'i ddewis fel un maes sy'n arbennig o addas ar gyfer y prosiect oherwydd ei ddarllediadau AAT a'i synergedd gyda gwaith parhaus yn Amgueddfa Rheilffordd Genedlaethol ar ymestyn yr AAT gyda thelerau rheilffordd. Mae MDA a CHIN yn gweithredu fel cynghorwyr i'r prosiect.

Beth yw thesawrws a pham?

Mae thesawrws a dosbarthiadau yn ddulliau mynegeio geirfa dan reolaeth, lle mae termau Mynegai wedi'u cyfyngu i set reoledig o dermau. Mae nifer fawr o systemau yn bodoli, yn cwmpasu amrywiaeth o feysydd pwnc, er enghraifft MEdical Subject Headings, the Art and Architecture Thesaurus a Dewey Decimal Classification. Mae'r geirfaoedd rheoledig hyn wedi bod yn rhan o arfer catalogio safonol mewn llyfrgelloedd ac amgueddfeydd ac maent bellach yn cael eu cymhwyso i hyperdestunau digidol drwy allweddeiriau thematig yn y disgrifyddion adnoddau metadata. Mae setiau metadata ar gyfer y we, fel Dublin Core and the Resource Description Framework (RDF) fel arfer yn cynnwys y syniad mwy cymhleth o bwnc adnodd yn ogystal ag elfennau ar gyfer teitl, crëwr, dyddiad ac ati. Argymhellir, lle bo modd, fod yr elfen bwnc yn cael ei gymryd o eirfa berthnasol a reolir. Mae'r dull mynegai semantig hwn yn cynnig y potensial i chwilotydd a mynegwr siarad yr un iaith, ac i ddefnyddiwr gael ei dywys i delerau ffrwythlon wrth chwilio casgliad penodol at ddiben penodol. Gall cysylltiadau rhwng cysyniadau yn y maes pwnc gael eu mynegi gan y berthynas semantig mewn thesawrws (neu ddosbarthiad). Y tair prif berthynas thesawrws yw cywerthedd (termau cyfatebol), termau hierarchaidd (telerau ehangach/mwy cul), a thermau cysylltiol (mwy llac eu cysylltiad). Mae arbenigeddau'r tri phrif berthynas yn cynnig posibiliadau ar gyfer rhaglenni gwe semantig.

Mae dadansoddi'r agwedd yn dechneg allweddol wrth adeiladu thesawrws; caiff cysyniadau eu dadgyfansoddi'n ddosbarthiadau elfennol, neu'n agweddau, sy'n ffurfio grwpiau unffurf sy'n unigryw i bawb. Dechreuodd y dull amlweddog o ddadansoddi pwnc yn 1933 gyda Ranganathan’s Colon Classification (personoliaeth, mater, egni, gofod ac amser) ac fe'i ymhelaethwyd wedyn gan y Grŵp Ymchwil Dosbarthiad Prydeinig. Ymhlith y systemau thesawol neu ddosbarthu mae MESH, BLISS, PRECIS a'r prif thesawrws a ddefnyddir yn y prosiect, y thesawrws celf a phensaernïaeth (AAT).

Mae'r AAT yn thesawrws mawr sy'n esblygu (bron 120,000 o dermau), wedi'i drefnu'n 7 agwedd (a 33 hierarchaeth fel israniadau) yn ôl rôl semantig: cysyniadau cysylltiedig, priodoleddau corfforol, arddulliau a chyfnodau, asiantau, gweithgareddau, defnyddiau, gwrthrychau ac agweddau dewisol ar gyfer amser a lle.

Mae thesawrysau amlweddog yn debyg o ran strwythur i ddosbarthiadau amlweddog ond maent yn amlwg yn cynrychioli cysylltiadau cywerthedd, hierarchaidd a chysylltiadol rhwng cysyniadau. Gellir defnyddio thesawrws fel thesawrws chwilio ar gyfer mireinio neu ehangu ymholiad testun rhydd (naill ai'n rhyngweithiol neu'n awtomatig). Fel arall, gellir defnyddio thesawrws i chwilio a mynegeio gyda setiau data wedi u mynegeio ar gyfer geirfa reoledig – a'r defnydd olaf hwn yw cymhwysiad uniongyrchol ein gwaith cyfredol (er ein bod hefyd yn gweld y technegau fel rhai defnyddiol o ran chwilio testun rhydd). Wrth adalw, defnyddir cydberthnasau thesawrws yn gonfensiynol i ehangu cyfystyron ac weithiau telerau chwilio culach ond mae system 'FACET' hefyd yn cyflawni mwy o ehangiad yn gyffredinol i dermau semantig (i gysyniadau ehangach a chysylltiedig). Mae rhesymu dros y cydberthnasau semantig yn y thesawrws yn caniatáu cyfateb amhendant rhwng termau ymholiad a'r mynegai. Mae hyn yn caniatáu rhestru eitemau sy'n cyfateb mewn rhestr canlyniadau neu opsiwn 'mwy fel hyn' ar gyfer eitemau tebyg ond nid o reidrwydd wedi'u mynegeio.

Mae systemau amlweddog yn seiliedig ar adran sylfaenol o derminoleg mewn categorïau, neu agweddau, lefel uchel, sylfaenol. Gellir ystyried system wybodaeth fel un rhifol, pan gaiff yr holl delerau syml a chyfansawdd posibl eu rhestru'n glir yn eu sefyllfa hierarchaidd, neu fel rhai synthetig. Mae systemau amlweddog fel arfer yn synthetig; nid ydynt yn ceisio cynnwys y nifer helaeth o benawdau neu ddisgrifyddion aml-gysyniad posibl mewn parth, ond yn cyfuno termau o nifer gyfyngedig o agweddau sylfaenol, yn ôl yr angen, wrth fynegeio neu gwestiynu. Mae'r hyblygrwydd hwn yn caniatáu disgrifiadau (neu anodiadau) metadata penodol iawn. Mae paru disgrifyddion cyfansawdd o'r fath yn gosod heriau sylweddol wrth chwilio ac nid yw potensial llawn adalw wedi'i bennu eto.

Amcanion

Amcan cyffredinol yr ymchwil oedd datblygu a gwerthuso offer adalw yn seiliedig ar swyddogaeth baru yn ymgorffori mesurau agosrwydd semantig.


Yr amcanion pellach oedd:


  • Pennu hewristeg i arwain ehangu/mireinio awtomatig a llinynnau rhyngweithiol o dermau thesawrws, gan fanteisio ar y cyd-destun a ddarperir gan agweddau.
  • Arbrofi gyda thechnegau creu ymholiadau cymhleth gan ddefnyddio golygydd ymholiad gyda gwybodaeth am swyddogaethau semantig agweddau thesawrws. Bydd hyn yn tynnu ar waith blaenorol yn y maes treftadaeth ddiwylliannol.
  • Dylunio a gweithredu mesurau agosrwydd semantig yn seiliedig ar berthnasoedd thesawrws.

Buddiolwyr yr ymchwil

Mae'r ymchwil yn uniongyrchol berthnasol i sefydliadau treftadaeth ddiwylliannol a defnyddwyr eu casgliadau digidol, hefyd i werthwyr rheoli casgliadau a darparwyr delweddau masnachol. Thesawrws yw un o'r systemau trefnu gwybodaeth fwyaf cyffredin ac mae'n aml yn tanategu sgemâu a onolegau ar lefel uwch. Mae mentrau i ddiweddaru'r safonau thesawrws rhyngwladol ar waith ar hyn o bryd ac mae grwpiau amrywiol yn gweithio ar gynrychiolaethau XML/RDF ar gyfer thesawrysau. Mae dulliau theso ac amlweddog wedi'u defnyddio ar gyfer pensaernïaeth gwefannau a rhyngwynebau pori hierarchaidd ar gyfer cronfeydd data ar y we.

Pensaernïaeth a rhyngwynebau FACET

Mae system olaf FACET yn cynnwys pensaernïaeth sy'n seiliedig ar gydrannau (Ffigur 1), gan ddefnyddio cronfa ddata berthynol gweinydd SQL. Mae ymholiadau gyda chanlyniadau cysylltiedig yn cael eu storio'n gyson gan ddefnyddio data fformat XML.

Mae'r bensaernïaeth hon wedi galluogi ailddefnyddio cydrannau sylfaenol allweddol wrth ddatblygu dau brif gleient rhyngwyneb - y cyntaf: cleient 'tew' VB annibynnol, a'r ail: rhaglen gwe ASP ar y porwr. Yn annatod i'r ddwy system mae peiriant ehangu semantig C++ sy'n gweithredu dros y strwythur graff wedi'i gyfeirio gan y cof mewn sydd wedi'i boblogi o'r tablau perthynol sy'n cynrychioli'r thesawrws.

Swyddogaeth cydweddu aml-gysyniad

Mae penawdau pwnc aml-gysyniad (disgrifwyr metadata), a adeiladwyd drwy syntheseiddio elfennau o eirfa cysyniad unigol, yn caniatáu disgrifiadau penodol iawn. Mae hyn yn creu heriau o ran systemau adalw. Gall y mynegwr a'r sawl sy'n chwilio fod yn gweithredu ar wahanol lefelau o benodolrwydd, ac ar adegau gwahanol gall y ddau ddewis o blith cyfres o ddewisiadau termau posibl. Gall fod yn anymarferol drilio i lawr trwy hierarchaethau dwfn neu bori sawl dimensiwn, gan roi cynnig ar gyfuniadau i gyd-fynd yn union â'r holl ddisgrifyddion y gellid eu hystyried yn berthnasol, gan gymryd i ystyriaeth y gallu i fynegeio (nifer y termau) a phenodolrwydd (lefel y manylder). Mewn systemau chwilio wedi'u categoreiddio, efallai na fydd modd cyplysu ag un gronfa ddata hyd yn oed sy'n caniatáu adborth hawdd o bostiadau wrth bori drwy'r thesawrws. Amlinellodd Toni Petersen, a oedd ar y pryd yn Gyfarwyddwr ar brosiect thesawrws celf a phensaernïaeth Getty, faterion allweddol sydd heb eu datrys ar gyfer dylunwyr systemau (mewn trafodaeth ar gronfa ddata'r Llyfrgell gelf genedlaethol yn Amgueddfa Victoria ac Albert):

"Y broblem fwyaf yw datblygu system lle mae rhannau unigol o benawdau pwnc sy'n cynnwys termau AAT lluosog yn cael eu torri'n ddarnau, wedi ffrwydro'n unigol mewn modd hierarchaidd, ac wedyn eu hailintegreiddio i ateb ymholiad yn berthnasol" (Petersen T. 1994. Y Llyfrgell gelf genedlaethol a'r AAT. Celf a phensaernïaeth thesawrws bwletin, 22, 6-8.)

Mae'r swyddogaeth paru yn mynd i'r afael â'r her hon drwy gyffredinoli ymholiadau drwy ehangu cysyniadau mewn semanteiddio. Caiff y canlyniadau eu rhoi mewn trefn ar sail mesurau agosrwydd semantig. Mae agosrwydd semantig yn seiliedig ar isafswm y berthynas semantig (wedi'i bwysoli) y mae'n rhaid ei thraws-wneud er mwyn cysylltu unrhyw ddau gysyniad thesawrws penodol. Gall hyn amrywio o groesi un berthynas i gadwyni mwy cymhleth sy'n cyfuno croesiadau.

Er enghraifft, gellir ystyried bod broc disgrifiwr, derw, Fictoraidd, cadeiriau Carver yn ateb rhannol ar gyfer ymholiad ar brocedio, mahogani, Edwardaidd, cadeiriau breichiau, er nad oes yna delerau sy'n cyfateb yn union. Bydd penderfyniadau perthnasedd yn dibynnu ar gyd-destun. Y pwynt yw darparu'r gallu i ehangu semantig fel opsiwn pan na fydd yr union atebion ar gael.

Golygydd ymholiad a rhyngwyneb annibynnol FACET

Mae'r golygydd ymholiad amlochrog uniongyrchol yn hwyluso adeiladu ymholiadau aml-gysyniad (Ffigur 2). Mae'r cwarel ar y chwith yn cyfuno nifer o olygfeydd o'r thesawrws y gellir eu llywio: cyfleuster mapio i dermau dan reolaeth, porwr hierarchaidd, 'porwr semantig' (gweler isod). Ar ôl i dermau thesawrws rheoledig gael eu dewis (gan unrhyw un o'r dulliau), gellir eu llusgo (neu eu hychwanegu drwy ddewislen cyd-destun) i'r ymholiad ar y dde, lle cânt eu cysylltu'n awtomatig â'r elfen briodol. Mae Ffigur 2 yn dangos y golwg ehangu ymholiad yn y cwarel ar y dde, darlun lliw wedi'i godio o dermau y mae'r gosodiad ehangu presennol yn effeithio arnynt. Mae'r swyddogaeth yn cynnwys hanes llywio term ac yn dangos nodau tudalen ac yn arddangos nodiadau cwmpas a thermau cysylltiedig. Mae eiconau codau lliw yn nodi aelodaeth o FACET (a hefyd presenoldeb termau cysylltiedig). Ar unrhyw adeg, gall y defnyddiwr ddwbl-glicio ar derm i bori drwy'r thesawrws ac archwilio cyd-destun lleol er mwyn darganfod os yw term yn cyfateb i angen gwybodaeth y defnyddiwr (gall fod yn homonymau).

Pori semantig

Mae pori semantig yn cyflwyno ehangu semantig fel opsiwn llywio syml. Mae'n un o'r opsiynau pori ar y panel chwith yn y golygydd ymholiad ac mae'n cynnig dewis amgen arloesol i lywio hierarchaidd dilyniannol strwythur thesawrws cymhleth, gyda'r siawns o golli cyswllt termau cysylltiedig neu fethu ag archwilio llinell allweddol o ddisgwrs hierarchaidd mewn coeden gymhleth. Gyda phori semantig, disodlir yr arddangosiad hierarchaidd gan restr linellol (a dynodiad o agosrwydd semantig cymharol os dymunir). Mae hyn nid yn unig yn ddefnyddiol wrth ymdrin â thermau cysylltiedig. Mewn rhai sefyllfaoedd, gall ehangu semantig fod yn opsiwn pori haws nag ymchwilio pa is-hierarchaethau sy'n ffrwythlon i'w harchwilio mewn thesawrysau mawr. Mewn gwirionedd, gall defnyddiwr barhau i bori drwy ehangu semantig drwy ddefnyddio termau clicio ddwywaith yn y wedd hon.

Agosrwydd semantig

Mae thesawrws fel arfer yn defnyddio set gyfyngedig o berthnasoedd semantig craidd rhwng cysyniadau, gan ddilyn safonau sydd wedi'u hen sefydlu (ISO 2788, ISO 5964). Y tair prif berthynas thesawrws yw cywerthedd (cyfystyron a thermau cyfatebol), termau hierarchaidd (mwy eang/cul) a chysylltiadol (termau mwy llac eu cysylltiad). Mae'r traddodiad hwn o gyfyngu perthnasoedd i set graidd yn cynorthwyo rhyngweithredu. Gall hefyd hwyluso rhesymu awtomataidd dros set fach o gydberthnasau wedi'u diffinio'n dda.

Wrth adalw, defnyddir perthnasoedd thesawrws fel arfer i ehangu cyfystyron a chysyniadau hierarchaidd culach, ond mae'r system elfen hefyd yn ehangu term semantig cyffredinol yn fwy (o ran cysyniadau ehangach a chysylltiedig). Mae rhesymu dros y cydberthnasau semantig yn y thesawrws yn caniatáu cyfateb amhendant rhwng termau ymholiad a mynegai. Mae hyn yn caniatáu rhestru eitemau sy'n cyfateb mewn rhestr canlyniadau neu opsiwn 'mwy fel hwn' ar gyfer eitemau tebyg ond nid o reidrwydd wedi'u mynegeio. Caiff y canlyniadau eu rhoi mewn trefn ar sail mesurau agosrwydd semantig. Seilir agosrwydd semantig ar y nifer lleiaf o gydberthnasau trawsidol y mae'n rhaid eu tramwyo er mwyn cysylltu unrhyw ddau gysyniad thesawrws penodol.

Arddangoswr gwe

Datblygwyd arddangoswr ar y we yn darlunio llawer o'r technegau a ddefnyddir yn system 'FACET' annibynnol. Rhedodd hwn tan Fawrth 2017 pan gafodd y gweinydd gwaelodol ei ddatgomisiynu. Fodd bynnag, mae papur JoDI ar-lein yn rhoi blas o'r cais.

Prif gyhoeddiadau'r prosiect

Query expansion via conceptual distance in thesaurus indexed collections (fersiwn awduron)

Tudhope, D., Binding, C., Blocks, D. a Cunliffe, D. 2006. Journal of Documentation. 62, 4, t. 509-533 25 t.


A reference model for user-system interaction in thesaurus-based searching (fersiwn awduron)

Blocks, D., Cunliffe, D. a Tudhope, D. 2006. Journal of the American Society for Information Science and Technology. 57, 12, t. 1655-1665 11 t.


KOS at your Service: Programmatic Access to Knowledge Organisation Systems (mynediad agored

https://journals.tdl.org/jodi/index.php/jodi/article/view/110/109

)

Binding, C. a Tudhope, D. 2004 Yn : Journal of Digital Information. 4, 4