Versio 0.93. 9.4.2015

Matias Frosterus, Markku Heinäsenaho, Minttu Hurme, Nina Hyvönen, Jukka Kervinen, Esa-Pekka Keskitalo, Mikko Lappalainen, Susanna Nykyri, Marja-Liisa Seppälä, Leena Saarinen, Osma Suominen

 

Versiohistoria

versiopvm
tekijämuutokset / kommentit
0.9 17.12.2014 kaikkiEnsimmäinen luonnosversio Kristiinan kommentoitavaksi
0.9115.1.2015OsmaSiirretty Google Docsista Kiwiin, ei sisällöllisiä muutoksia
0.924.2.2015OsmaKristiinan ehdottamia lisäyksiä mm. avoindata.fi:stä
0.939.4.2015OsmaLisätty ODI-sertifikaatti ja maininta Fennican tiedontuotannosta

Johdanto

Tässä dokumentissa kuvataan konkreettinen suunnitelma Kansalliskirjaston metatietovarantojen avaamiseksi. Suunnitelma on laadittu vuosille 2015-2017. Sisältödatan avaamisesta laaditaan erillinen suunnitelma.

Perusteet ja hyödyt

Valtionhallinnon linjaukset

Valtioneuvoston periaatepäätös 3.3.2011 linjaa tietopoliittiset periaatteet julkishallinnon digitaalisten tietoaineistojen saatavuudesta. Julkisten tietoaineistojen tulee olla avoimesti saatavilla ja uudelleenkäytettävissä yhtenäisin, selkein ja kaikille tasapuolisin ehdoin.

Toukokuussa 2013 käynnistetyllä Avoimen tiedon ohjelmalla vauhditetaan periaatepäätöksen toimeenpanoa. – Kansalliskirjasto on esittänyt opetus- ja kulttuuriministeriölle omat datanavaamislinjauksensa; tämä suunnitelma toteuttaa niitä.

Kansalliskirjaston linjaukset

“Avoin ja yhteiskäyttöinen metatieto” on yksi Kansalliskirjaston strategian keihäänkärjistä. Yhteiskunnallinen kokonaisetu toteutuu parhaiten niin, että Kansalliskirjaston tuottama metadata ja auktoriteettitieto ovat avoimesti ja maksuttomasti saatavissa mahdollisimman laajasti. Luonnollisestikin otetaan huomioon tekijänoikeuteen ja sen lähioikeuksiin, tietosuojaan ja sopimuksiin perustuvat rajoitukset. Myös kirjaston digitoimalle, tekijänoikeusvapaalle aineistolle suodaan mahdollisimman laajat käyttöoikeudet. Kirjasto myös toimii monin tavoin avoimen tieteellisen julkaisemisen puolesta.

 

Periaatepäätös Kansalliskirjaston bibliografisen datan avaamisesta on tehty jo 2013, mutta sen tiellä on ollut eräitä esteitä. Näitä ovat muiden muassa metadatan tuottamiseen liittyvät kaupalliset sopimukset; metadatan sisältämät henkilötiedot; sekä datan muuntaminen muotoon, joka on helposti käytettävissä myös kirjastosektorin ulkopuolella. Toisaalta kirjasto on myös edistynyt datan avaamisessa. ONKI-projektissa luodussa Finto-ontologiapalvelussa datan avoimuus on keskeistä. Siirtyminen RDA-malliin – ja tulevaisuudessa toivottavasti myös sitä aidosti tukeviin tietojärjestelmiin – on merkittävä askel kohti avointa linkitettyä dataa.  

 

Kansalliskirjaston digitointipolitiikassa (2010) linjataan, että kirjaston tavoitteena on saattaa digitoidut aineistot mahdollisimman laajaan käyttöön; sekä metadatan mahdollisimman vapaa käyttö. Metadatan avaaminen tukee siis digitointipolitiikan tavoitteita.

Datan avaamisen hyödyt

  • Avoin data parantaa tutkimuksen edellytyksiä ja tukee kansalaisyhteiskuntaa.

  • Kirjaston tietovarannot voivat saada uusia käyttäjiä ja uusia käyttötapoja. Kansalliskirjasto pyrkii datan käyttöluvissa sallimaan myös kaupallisen hyödyntämisen.

  • Kirjaston palveluiden näkyvyys ja merkitys tulevat esiin.

Tavoitteena viiden tähden data

 

Linkitetyn datan avaamista ohjaa niin kutsuttu viiden tähden malli (http://5stardata.info), joka määrittää datan avaamiseen liittyviä askeleita. Kansalliskirjaston datan avaamisen voi nähdä viiden tähden mallissa seuraavasti:

 

  • 1. tähti: CC0-lisenssi

  • 2. tähti: Datan avaus koneluettavassa raakamuodossa (esim. MARCXML)

  • 3. tähti: Datan avaus avoimessa muodossa (esim. Finna API)

  • 4. tähti: Pysyvät tunnisteet (esim. URN:t tai muunlaiset URI:t)

  • 5. tähti: Linkit datan sisällä

 

Kahteen tähteen päästään jo avaamalla pääsy nykymuotoisiin MARC-tietueisiin CC0-lisenssillä. Nämä eivät kuitenkaan ole helposti hyödynnettävissä kirjastomaailman ulkopuolella, joten kolmatta tähteä ei saavuteta. Finna API tulee tarjoamaan Finnan piiriin kuuluvaa dataa myös helpommin käsiteltävissä avoimissa muodoissa (JSON, XML), joten näiden aineistojen osalta saavutetaan kolmas tähti. Neljäs tähti saadaan, kun aineiston osille (käytännössä bibliografiset tietueet, mutta myös tekijät, kustantajat, julkaisusarjat ym.) annetaan pysyvät URI- tai URN-tunnisteet. Viides tähti vaatii vielä, että aineistot sisältävät linkkejä muihin aineistoihin. Esimerkiksi bibliografisessa tiedossa linkit sanastoihin, ontologioihin ja henkilö- sekä yhteisöauktoriteetteihin ovat tällaisia. RDA- ja BIBFRAME-mallinnuksessa resurssien väliset linkit ovat keskeisessä osassa. Finton sisältämien sanastojen ja auktoriteettien osalta viisi tähteä on jo saavutettu, mutta bibliografisen tiedon osalta ollaan toistaiseksi prosessin alussa.

Avoimen datan palvelun ODI-sertifikaatti

Open Data Institute on luonut avoimen datan palveluille sertifiointijärjestelmän, jossa palvelua tarkastellaan erityisesti asiakkaan näkökulmasta. Sertifikaatin voi hankkia omatoimisesti vastaamalla rehellisesti kysymyksiin datan tuotannosta, laadusta, lisensioinnista ja riskeistä. Sertifiointijärjestelmä on jaettu tasoihin:

Raw-tasolla riittää, että data on julkaistu, nimetty, asetettu saataville ja sille on määritelty avoin lisenssi. Tämä olisi saavutettavissa joillekin aineistoille jo vuoden 2015 aikana. Pilot-tasolla tulee mukaan vaatimuksia mm. datan ajantasaisuudesta, dokumentoinnista ja palautekanavan järjestämisestä. Se olisi mahdollista saavuttaa vuoden 2016 aikana. Standard-tasolla vaatimuksia tiukennetaan niin, että palvelun tulee olla luotettavaa ja saatavuus pysyvää. Sen saavuttamisen tämän suunnitelman kauden 2015-2017 loppuun mennessä voi ottaa tavoitteeksi, mutta saattaa olla, ettei sitä kyetä kaikilta osin saavuttamaan. Expert-tasolle ei ole vielä kukaan yltänyt.

Riippuvuudet ja vaikutukset muihin projekteihin ja perustoimintaan

  • Melindan datan tuotanto tulee muuttumaan URNien käytön myötä?

  • Linkittyvyys asettaa uusia paineita ja tavoitteita sisältötyölle: siirrytään kuvailusta linkittymiseen; tulee uusia käyttäjäryhmiä, jotka näkevät datan eri valossa

  • Julkaisu linkitettynä datana nostaa esiin laatuongelmia, joita ratkomalla alkuperäisten tietovarantojen laatua ja käytettävyyttä voidaan parantaa (myös ulkopuolisten toimesta)

  • käytetään Finto-projektin sanastoja, ontologioita, auktoriteetteja. Finton sisältöä tulee kehittää ja sanastoja laajentaa vastaamaan myös uudenlaisiin käyttötarpeisiin ja -ympäristöihin

  • käytetään URN-palvelun tunnisteita ja resolveria

  • tietomallityö liittyy mahdolliseen uuteen kirjastojärjestelmään

  • Finna-palvelusopimuksissa on 1.1.2014 lähtien kirjattu CC0-lisenssin käyttö Finnan metadatan lisensioinnissa.  

Yhteys datan tuotannon uudistuksiin

  • Siirtyminen RDA:han tapahtuu asteittain. Kansalliskirjasto ottaa RDAn käyttöön kuvailussaan ensin (vuonna 2016) MARC21-formaatissa. Siirtyminen RDA-käsitemallin mukaiseen kuvailurakenteeseen riippuu uuden tietomallin (esim. Bibframe) käyttöönotosta, mikä taas riippuu uuden tietojärjestelmän käyttöönoton aikataulusta.

  • RDA-määritysten käyttö avatussa datassa on perusteltavaa myös siinä tapauksessa, kun bibliografinen metatieto on luotu toisten sääntöjen (ISBD) mukaisesti. Suuria yhteentoimivuusongelmia kuvailusääntöjen (RDAn ja ISBDn) välillä ei ole. RDA-määritysten käytön etuna on kansainvälisessä yhteistyössä rakennetun RDA-sanaston (RDA Registry ja Open Metadata Registryn RDA-termit) kattavuus ja luotettavuus.

  • Jos bibliografista metatietoa avataan RDAn käsitemallin (FRBR-malli) mukaisessa rakenteessa ennen uuden tietomallin käyttöönottoa, vaatii entiteettien ja niiden välisten suhteiden määrittely ja muokkaaminen MARC21-metatiedosta kohtalaista työpanosta.  

  • Tunnisteita käytettäessä ei dataan tule muutospaineita termien muuttuessa ja lisäksi tunnisteet ovat kieliriippumattomia. Tunnistetta seuraamalla pääsee selaimella Finton käsitesivulle ihmiskäyttäjää ajatellen (esimerkiksi näin: http://urn.fi/URN:NBN:fi:au:cn:146806A). Ohjelmille Finto puolestaan tarjoilee RDF-muotoista dataa, jota ohjelma voi hyödyntää. Finton ideana on siis toimia näiden tunnisteiden, niiden taustalla olevien käsitteiden ja näihin liittyvien ominaisuuksien julkaisu- ja käyttöalustana.

 

Yhteys kokonaisarkkitehtuuriin ja palveluväylään

  • On pohdittava, onko Kansalliskirjaston kokonaisarkkitehtuurin palvelusalkku (kesken; ks. http://tinyurl.com/ox2k3to) nykyisellään selkeä, vai pitäisikö avoimen datan julkaiseminen nähdä omana palvelunaan. Tavoitetila ei tällä hetkellä tunnista avoimen datan julkaisemista erillisenä palveluna; salkku on laadittu pikemminkin sisältöjen pohjalta.

  • Suunnitelma on lisättävä Kansalliskirjaston kokonaisarkkitehtuurin projektisalkkuun.

  • Muilta osin arkkitehtuurityö on vielä kesken. Datan avaamisen prosessien, tietoarkkitehtuurin ym. kuvauksien vieminen arkkitehtuuriin on ajankohtaisia myöhemmin.

  • Kansallinen palveluväylä on tiedonvälityskerros, joka määrittää miten tietoja ja palveluja välitetään eri tietojärjestelmien välillä. Väylä on tiedonvälityspalvelu, jonka avulla julkinen hallinto ja yritykset voivat hyödyntää muita väylään liittyneitä palveluita ja tietovarantoja. – Kansalliskirjaston avoin data ei ole kansallisen palveluväylän tavanomaisten käyttötarkoitusten kannalta kaikkein kiireellisintä.

  • avoindata.fi on julkishallinnon avoimen tiedon ja yhteentoimivuuden palvelu, jonka kautta voi julkaista avoimia tietoaineistoja tai tietoja niistä. Käytännössä se toimii julkishallinnon datakatalogina sekä tiedostomuotoisten aineistojen (tietokantadumpit, Excel- ja CSV-taulukot ym.) julkaisualustana. Kansalliskirjaston aineistojen kannalta tärkeää olisi avata pääsy ajantasaisiin tietoaineistoihin. Tämä vaatii rajapintojen avaamista, missä avoindata.fi ei suoranaisesti auta. Sitä voidaan kuitenkin käyttää silloin, kun halutaan julkaista harvoin päivittyviä aineistodumppeja. Lisäksi kaikki Kansalliskirjaston avatut aineistot ja tietokannat tulisi luetteloida avoindata.fi:n datakatalogiin.

Toimintamalli

Ensiaskeleet

Ennen varsinaista linkitetyn avoimen datan palvelua voidaan avata pääsy nykyisten Voyager- ja Aleph-järjestelmien tietokantojen (Fennica, Arto, Viola, Melinda) SRU/Z39.50-rajapintoihin. Kyseiset rajapinnat ovat olemassa ja tällä hetkellä useiden poimintaluettelointisopimuksen tehneiden tahojen aktiivisessa käytössä. Käyttö on rajattu IP-rajoituksilla. IP-rajoitukset tulisi poistaa, mutta kuitenkin niin, että pääsy avataan vain bibliografisten tietueiden osalta, koska auktoriteettitietueissa on myös ei-julkista tietoa. Rajapintojen perusdokumentaatio on valmiiksi saatavilla: http://www.nationallibrary.fi/libraries/linnea/z3950.html 

 

Myös yhteistietokantojen OAI-PMH-rajapintojen avaaminen vapaaseen käyttöön voidaan tehdä helpohkosti. Se kuitenkin vaatii enemmän valmistelua kuin SRU/Z39.50 -rajapintojen avaaminen, sillä Alephin ja Voyagerin OAI-PMH -rajapintojen laajamittaisesta käytöstä ei Kansalliskirjastossa ole toistaiseksi yhtä paljon kokemusta. Rajapintojen avaamisen ohella voidaan harkita nykyisten MARC-tietueiden julkaisua ns. dumppeina eli ladattavina tiedostoina säännöllisin väliajoin, esimerkiksi kuukausittain.

 

Avoimen datan palvelu

Edellä kuvattujen rajapintojen avausten lisäksi avataan Kansalliskirjaston linkitetyn avoimen datan palvelu data.kansalliskirjasto.fi, joka on wiki- tyyppinen alusta avaamiseen liittyvälle dokumentaatiolle ja toimii myös Kansalliskirjaston datakatalogina, sisältäen paitsi bibliografisen tiedon myös kuvauksen avatuista aineistoista ja auktoriteettitiedoista. Lisäksi data.kansalliskirjasto.fi:ssä toimii bibliografisen tiedon osalta linkitetyn datan julkaisualustana (auktoriteettitiedot ja sanastot julkaistaan Finto-palvelussa ja aineistot muissa palveluissa).

 

Data.kansalliskirjasto.fi rakennetaan W3C:n Linked Data Platform -suosituksen (http://www.w3.org/TR/ldp/) mukaiseksi datan julkaisualustaksi. Datan julkaisussa hyödynnetään olemassaolevia julkaisualustaohjelmistoja, kuten Apache Marmotta ja/tai ALIADA. Tavoitteena on luoda samankaltainen datapalvelu kuin mm. Ranskan kansalliskirjastolla (http://data.bnf.fr), Saksan kansalliskirjastolla (http://www.dnb.de/EN/lds.html), Ruotsin kansalliskirjastolla (http://www.kb.se/libris/teknisk-information/Oppen-data/Open-Data/), Espanjan kansalliskirjastolla (http://datos.bne.es/) ja Britannian kansallisbibliografialla (http://bnb.data.bl.uk/). Linkitetty data julkaistaan RDF-muodossa yksittäisinä resursseina (tietueina), ladattavina RDF-dumppeina sekä myös SPARQL-rajapintana.

 

Avoimen datan palvelu avataan alkuvaiheessa prototyyppinä kokemusten ja palautteen keräämiseksi. Esimerkiksi tietomallin osalta lopullisia mallinnusratkaisuja on vaikea tehdä, koska RDA-siirtymä on kesken ja BIBFRAME-malli ei ole valmis.

Tietueiden muunnokset

Linkitetyn datan julkaisu edellyttää MARC-muotoisten bibliografisten tietueiden muunnosta RDF-muotoon. Tämä kannattaa tehdä maailmalla tähän tarkoitukseen kehitetyin työkaluin (esim. ALIADA, Catmandu, Metafacture). Mikäli mahdollista, hyödynnetään RDF-muunnoksessa jo tehtyä työtä RDA-malliin siirtymisen valmistelussa eli pyritään siihen, että julkaistava RDF-data noudattelee RDA-mallia siinä määrin kuin voidaan (mm. teos- ja manifestaatiotason erottelu). Fennican osalta ei muunneta heti koko tietokantaa, vaan valitaan aluksi (2015) jokin kiinnostava ja datan laadultaan hyvä osakokonaisuus (esimerkiksi signum 1939-44, tai maantiede tai matkailu ).

 

Muunnoksen yhteydessä tietoa voidaan myös rikastaa. Tekijä- ja julkaisijatiedot esitetään linkkeinä henkilö- ja yhteisöauktoriteetteihin, jotka julkaistaan Fintossa (Suomalaiset yhteisönimet julkaistiin Fintossa keväällä 2014, henkilöauktoriteetti julkaistaan vuoden 2015 aikana). Ensijulkaisujen jälkeen (2016-2017) kehitetään myös linkittämistä ulkopuolisiin lähteisiin, esim. eri maiden kansalliskirjastojen vastaavaan bibliografiset dataan.

 

Sisällönkuvailussa käytettyjen sanastojen termien sijaan käytetään vastaavien käsitteiden URI-tunnisteita. YSA-linkkien sijaan (tai lisäksi) muodostetaan linkit vastaaviin YSO-käsitteisiin. YSOa kehitetään kattamaan sanastoltaan ja käsitteistöltään koko julkisen sektorin (ml. ministeriöt, media) aiheenmukainen sisällönkuvailutarve nimenomaan avoimen linkitetyn datan ympäristössä. Tietovarantojen linkittyvyyttä edistää ensinnäkin se, että YSOn käsitteistö on YSAa tarkemmin määritelty ja käsitteiden ilmaisutapoja on rikastettu (ja edelleen rikastetaan), ja toisekseen se, että YSO on monikielinen (suomi, ruotsi, englanti) ja niin se kuin sillä tuotettu aiheenmukainen sisällönkuvailu siltautuu siten myös kansainvälisiin sanastoihin ja tietovarantoihin. Kirjasto- ja muistiorganisaatioiden tietovarantojen avautumisessa ja yhdistymisessä yli organisaatio- ja järjestelmätasojen on yhtenäinen metatieto keskeinen ominaisuus, ja yhdisteltävyyden toteutumista edistää siirtyminen YSOn käyttöön. (YSO on julkaistu avoimena datana Fintossa.)

Viestintä ja yhteistyöverkostot

Datan avaamiseen liittyvä viestintä tapahtuu ensisijaisesti data.kansalliskirjasto.fi:ssä, jossa julkaistaan dataan liittyvää dokumentaatiota, linjauksia ja taustatietoa. Avaukseen liittyviä uutisia (sekä oman palvelun uutisista että ulkopuolella tapahtuvasta datan käytöstä) julkaistaan myös muutoin osana Kansaliskirjaston viestintää. Julkaistut aineistot lisätään oman datakatalogin lisäksi myös avoindata.fi-palveluun ja rajapinnat API:Suomi-palveluun. Datan avaamiseen liittyviä sähköpostiyhteydenottoja varten luodaan palveluosoite. Harkitaan oman Twitter-tilin avaamista Kansalliskirjaston avoimelle datalle, koska tästä on hyviä kokemuksia Finto-palvelusta.

 

Sponsoroidaan erikoispalkinto Apps4Finland-kilpailuun. Järjestetään hackathoneja tai osallistutaan muiden järjestämiin tapahtumiin, esim. AvoinGLAM-verkoston kautta.

Onnistumisen mittarit

  • avattujen tietovarantojen / tietueiden / triplejen määrä

  • käyttömäärät

  • ulkopuoliset sovellukset, mm. Apps4Finland kilpailutyöt

  • julkaisut, esitelmät, kurssit, tapahtumat

  • maine ja kunnia (maininnat julkisuudessa, palkinnot…)

Aikataulu, työmäärä ja resurssit

Kursivoidut kohdat viittaavat muissa projekteissa tehtävään työhön (2015 jälkeen perustuu alustaviin suunnitelmiin / tiekarttoihin).

2015

 

Virtuaalipalvelimen perustaminen ja ylläpito 2015 loppuun

2 htvko

KVP

data.kansalliskirjasto.fi perustaminen

2 htvko

KVP

Tietovarantojen kuvaukset olemassaolevista datoista + aikataulutietoa jatkosta

4 htvko

Tutki

Tietovarantojen ja rajapintojen avoindata.fi ja API:suomi -luettelointi

1 htvko

Tutki

olemassaolevien SRU/Z39.50 rajapintojen avaaminen ja dokumentointi

2 htvko

KVP

Melinda-tietueille URI/URN-tunnisteet (tässä vaiheessa hallinnollinen päätös)

2 htvko

KVP

Fennica/Arto/Viola alustava RDF-muunnos

4 htvko

KVP/Tutki

RDF:n julkaisu vähintään dumppina

1 htvko

KVP

Viestintä ja tuki

2 htvko

KVP/Tutki

Yhteensä 2015

20 htvko = 5 htkk

 

Henkilöauktoriteettien julkaisu Fintossa

  
Finna API käyttöönotto  
Fintossa julkaistaan tarpeen mukaan sanastoja ja auktoriteetteja MARC- ja CSV-muodoissa  

 

2016

 

data.kansalliskirjasto.fi teknisen alustan (ml. virtuaalipalvelin ja wiki) ylläpito

2 htvko

KVP

Linked Data Platform alustan valinta, asennus ja käyttöönotto

4 htvko

KVP

Tunnisteiden vienti Melinda-tietueisiin

2 htvko

KVP

RDF-muunnoksen kehittäminen

4 htvko

KVP/Tutki

Datan avaamisen prosessien ja tietoarkkitehtuurin kuvaukset kokonaisarkkitehtuuria varten

2 htvko

KVP

Dokumentaation kehittäminen

2 htvko

Tutki

Viestintä ja tuki

4 htvko

KVP/Tutki

Yhteensä 2016

20 htvko = 5 htkk

 

Teos- ja manifestaatiotason erottelu (Kilda)

  
Kuvailussa siirrytään linkitetyn datan käyttöön (RDA, YSO)  
YSO sillataan ulkopuolisiin sanastolähteisiin  

 

2017

 

data.kansalliskirjasto.fi teknisen alustan (ml. virtuaalipalvelin ja wiki) ylläpito

2 htvko

KVP

RDF-muunnoksen jatkokehittäminen

4 htvko

KVP/Tutki

Fennican avaus kokonaisuudessaan

4 htvko

KVP

Dokumentaation kehittäminen

2 htvko

Tutki

Muu datan avaukseen liittyvä työ (täsmentyy myöhemmin)

4 htvko

KVP/Tutki

Viestintä ja tuki

4 htvko

KVP/Tutki

Yhteensä 2017

20 htvko = 5 htkk

 

 

 

Kustannukset

Datan avaamisen kustannukset muodostuvat lähes yksinomaan henkilöstökuluista. Avoimen datan palveluun tarvitaan uusi virtuaalipalvelin, mutta sen osuus kokonaispalvelinkapasiteetista tulee olemaan pieni eikä uusia laitteistohankintoja tarvita. Kaupallisille ohjelmistoille ei ole näköpiirissä tarvetta. Apps4Finland-kilpailun haastepalkinnon sponsorointi maksoi 7 000 € vuonna 2014, mutta seuraavina vuosina kilpailun ja palkintojen rakenteeseen on odotettavissa muutoksia. Mahdollinen tulonmenetys n. 16 000 € poimintaluettelointisopimuksista, jotka käyvät tarpeettomaksi, kun rajapinnat avataan.

 

Fennican tiedontuotannon järjestämisestä pitkällä tähtäimellä keskustellaan ja sitä suunnitellaan erikseen.

Resurssointi


Tulosalue/toimintayksikkö/muu rahoitus2015-2017 htkk/v
KVP/Pasy (Finto)1
KVP/Tiva1
KVP/ATT-hankerahoitus2
Tutki1





  • No labels