Mikä on ontologia?

Ontologiat ovat strukturoituja, koneluettavia käsitteistöjä. Ontologioita voidaan käyttää sisällönkuvailuun ja tiedonhakuun samaan tapaan kuin asiasanastojakin. Ontologioissa kuitenkin painottuvat tietyt ominaisuudet asiasanastoja vahvemmin:

  • Käsitetarkkuus

    • Ontologiassa käsitteet ovat merkitykseltään mahdollisimman yksitulkintaisia, mikä mahdollistaa niiden yhdenmukaisen käytön. Asiasanastossa ei aina erotella monitulkintaisia, homonyymisiä tai moneen eri kontekstiin viittaavia termejä: esim. ‘maalaus’ taiteellisena toimintana ja ‘maalaus’ talon tai vastaavan maalauksena. Tämä saattaa tuottaa epätoivottuja hakutuloksia aihealueesta, joka ei hakijaa kiinnosta. Ontologiassa sen sijaan tiettyä käsitettä ilmaisevat termit ovat merkitykseltään tarkempia ja tuottavat täten todennäköisesti parempia hakutuloksia.

  • Monikielisyys

    • Ontologioihin liittyy yleisesti ajatus monikielisyydestä ja kielirajojen ylitämisestä. Esimerkiksi Yleinen suomalainen ontologia YSO on kolmikielinen: suomi, ruotsi ja englanti. Tiedonhakijalla on nämä kaikki kielet käytössään saman sanaston kautta ja eri kielillä toteutetut haut tuottavat yhteismitallisia hakutuloksia.

  • Pysyvät tunnisteet

    • Termit saattavat muuttua kielen muuttuessa, vaikka käsitesisällöt pysyisivät samana. Koska ontologiat perustuvat yksilöityihin tunnisteisiin, tästä ei muodostu ongelmaa: käsitteet eivät ole sidoksissa tiettyyn kieliasuun. 

  • Linkittyvyys (organisaatioiden välillä, toisenlaisiin tietovarantoihin, esim Wikipedia)

    • Ontologioiden käsitetarkkuus mahdollistaa ontologioiden helpon linkittämisen toisiinsa. Linkitysten avulla eri organisaatioissa tuotettua metatietoa voidaan yhdistellä tiedonhaussa: esim. eri ministeriöt voivat tuoda aineistojaan yhteisen haun piiriin tai linkittää aineistonsa vaikkapa tietyn muistiorganisaation arkistomateriaaliin. Kansainvälisten linkitysten avulla laajasti käytössä olevat resurssit kuten Library of Congress Subject Headings ja sillä kuvailtu aineisto ovat potentiaalisesti tavoitettavissa, samoin Wikipedian tapaiset laajat linkitetyn datan tietovarannot. Finton tietoresursseja käyttämällä organisaatiot saattavat myös omat aineistonsa paremmin linkittyviksi ja löydettäviksi.

  • Mahdollisuus haun laajennukseen ja monipuoliseen selailuun

    • Ontologian kattava hierarkia mahdollistaa selailun ja haun laajennuksen asiasanastoa kokonaisvaltaisemmin. Ontologia mahdollistaa myös konepäättelyn ja tämän tarjoamat älykkäät tavat yhdistellä ja selailla aineistoa.

 

Keskeisiä käsitteitä

Asiasanasto

Asiasanasto on dokumenttien sisällönkuvailua ja tiedonhakua varten luotu indeksointikieli, valikoima tietyin perustein valittuja sanoja. Siinä esitetään indeksoinnissa ja tiedonhaussa käytettävät termit (asiasanat). Asiasanaston termien spesifiset merkitykset rajataan tarvittaessa määritelmin ja niiden käyttöä saatetaan ohjata erilaisin viittauksin. 

Tesaurus

Tesaurus on strukturoitu asiasanasto, jossa asiasanojen välillä on hierarkkisia (laajemmat (LT) ja suppeammat termit (ST)), assosiaativisia (rinnakkaistermit (RT)) ja ekvivalenssisuhteita (KT).

Ontologia

Tietojenkäsittelytieteessä ontologialla tarkoitetaan tietyn aihealueen käsitteistön eksplisiittistä mallia. Ontologia kuvaa aihealueeseensa kuuluvat käsitteet ja niiden väliset suhteet formaalisti koneluettavassa muodossa. Tesaurukseen verrattuna ontologian käsitteiden suhteet on määritelty hierarkialtaan kattavasti koko käsitteistön osalta. Ontologiaan on mahdollista lisätä myös logiikkaa (esim. sääntö, jonka mukaan painava objekti ei voi samanaikaisesti olla kevyt). Ontologiaa voidaan käyttää koneellisessa päättelyssä, toisin kuin asiasanastoa. 

Käsite

Käsite on tiedon yksikkö. Ontologiamaailmassa käsitteet ja niiden väliset suhteet pyritään identifioimaan ainutkertaisin tunnistein termien sijaan.

Käsitehierarkia

Tesauruksen tai ontologian käsitehierarkia muodostuu käsitteiden välisistä geneerisistä (laji-alalaji) ja partitiivisista (osa-kokonaisuus) suhteista. Ontologioissa geneerisistä suhteista puhutaan yleensä yläkäsite-alakäsite-suhteina. Esimerkiksi ’hauet’ voisi olla ’kalat’-käsitteen alakäsite ja ’kalat’ edelleen ’eläimet’-käsitteen alakäsite.

Assosiatiivinen suhde 

Tätä suhdetta käytetään kahden käsitteen välillä ilmaisemaan, että käsitteet liittyvät läheisesti toisiinsa. Tesauruksessa assosiatiivista suhdetta ilmaistaan rinnakkaistermein (related term). Assosiatiiviset suhteet eivät muodosta hierarkiaa käsitteiden välille.

Ekvivalenssi 

Kahden eri käsitteen suhde, joka kertoo, että nämä käsitteet vastaavat merkitykseltään toisiaan. Ekvivalenssisuhdetta käytetään kahden eri ontologian samamerkityksisten käsitteiden yhdistämiseen.

Monihierarkia

Yksi käsite voi olla usean eri yläkäsitteen alakäsite, mikäli tämä ei aiheuta ristiriitaa ontologian hierarkiassa ja mikäli kyse ei ole monimerkityksisestä sanasta. Esim. ’englanninkielinen rikoskirjallisuus’ voi olla sekä käsitteen ’englanninkielinen kirjallisuus’ että käsitteen ’rikoskirjallisuus’ alakäsite.

Instanssi

Siinä missä käsite viittaa yleismaailmalliseen ja universaaliin kategoriaan, instanssi on käsitteen yksilöllinen ilmentymä. ’Ihminen’ on käsite, ja ’Pablo Picasso (1881-1973)’ yksi tuon käsitteen instanssi.

Yläontologia

Yläontologialla tarkoitetaan ontologiahierarkian ylintä tasoa, joka kokoaa yhteen koko ontologiajärjestelmän käsitteet. Näitä ylimmän tason käsitteitä ei ole yleensä tarkoitettu sisällönkuvailuun. Tesauruksista tällainen ylähierarkia usein puuttuu.

Erikoisontologia (domain ontology)

Tiettyyn aihealueeseen, esim. tiettyyn tieteen alaan, ja sen käsitteistöön keskittynyt ontologia, jonka oma hierarkia ei yleensä ulotu aihealueensa ulkopuolelle. Erikoisontologia voidaan ripustaa yläontologiaan, jotta hierarkia olisi kokonaisuudessaan kattava ja koneluettava. Esimerkiksi julkishallinnon käsitteistöön keskittyvää JUHO-ontologiaa voidaan pitää erikoisontologiana.

Kevytontologia (light weight ontology)

Kevytontologioissa keskitytään käsitteiden välisen hierarkian luomiseen, joten muita ominaisuuksia  käytetään vähän. Kevytontologioissa ei myöskään ole loogista kerrosta, jossa määriteltäisiin formaalisti käsitteiden ominaisuuksia tarkemmin. Vastaparina kevytontologialle on "raskasontologia" (heavy-weigth ontology ), jossa ominaisuuksia ja logiikkaa on enemmän.


---------------------------------------


Ontologiaeditori

Käytännön sisältötyöhön tarkoitettu tietokonesovellus, jolla ontologioita ylläpidetään ja muokataan. Tunnettuja ontologiaeditoreita ovat mm. Protégé, TopBraid Composer ja PoolParty.

Semanttinen web

Verkossa oleva informaatio on tietokoneen luettavissa, mutta ei ”ymmärrettävissä”. Semanttinen web on World Wide Web Consortiumin (W3C) johtama hanke, jonka tavoitteena on tuottaa standardeja semanttisen tiedon lisäämiseen verkkoon. Semanttisen webin tavoitteena on luoda koneille ymmärrettävässä muodossa oleva informaation verkko. Ks. RDF ja W3C

W3C

World Wide Web Consortium on kansainvälinen yritysten ja yhteisöjen yhteenliittymä, joka ylläpitää ja kehittää internetin standardeja (suosituksia). W3C-konsortioon kuuluu yli 400 jäsentä. W3C:n luomia standardeja ovat esimerkiksi: HTML, XML, CSS, RDF, SKOS ja OWL.

RDF

Resource Description Framework (RDF) on W3C:n standardoima malli tiedon vaihtoon sovellusten välillä erityisesti web-ympäristössä. Erityispiirteenä RDF mahdollistaa useisiin eri tietomalleihin (skeemoihin) pohjautuvan tiedon integroinnin sekä näiden tietomallien evoluution jo mallinnettua tietoa muokkaamatta. Tieto rakentuu lausumista, joissa yksittäisistä resursseista (erityisesti web-resursseista) annetaan tietoa subjekti-predikaatti-objekti –kolmikoilla, esim. ajatus "Taivas on väriltään sininen" voidaan mallintaa RDF:ssä kolmikkona: subjekti ("taivas"), predikaatti ("on väriltään"), ja objekti ("sininen"). RDF on abstrakti tietomalli, eikä sinällään tiedon tallennusmuoto. RDF-muotoista tietoa voidaan tallentaa esimerkiksi XML- tai Turtle-muotoon.

URI

Semanttisessa webissä objektit identifioidaan käyttäen yksilöllisiä URI-tunnisteita (Uniform Resource Identifier). URI-tunniste on merkkijono joka kertoo tiedon paikan (URL) tai yksikäsitteisen nimen (URN). Sekä kuvailtavaan tietoon, metatieto-ominaisuuksiin, että kuvailussa käytettäviin ontologian käsitteisiin viitataan URI-tunnisteilla. Semanttisen webin kontekstissa URIt ovat tyypillisesti käytännössä nettiosoitteita, eli URIa seuraamalla pääsee käsiksi viitattuun objektiin ja siitä olevaan tietoon.

XML

Extensible Markup Language (XML) on merkintäkieli, jolla kuvataan tietoa ja dokumentteja. XML on laajalti tuettu standardi ja sen käsittelyyn on saatavilla paljon työkaluja. XML on syntaksi tiedon esittämiseen - se ei kuvaile tietoa semanttisesti eikä linkitä tietoa ulkomaailmaan kuten RDF.

SKOS

Simple Knowledge Organization System (SKOS) on standardoitu tapa esittää kevytontologioita ja tesauruksia RDF-muodossa. SKOS sisältää joukon luokkia ja ominaisuuksia, joilla kevytontologia voidaan rakentaa.

  • No labels