Versio 0.93. 9.4.2015

Matias Frosterus, Markku Heinäsenaho, Minttu Hurme, Nina Hyvönen, Jukka Kervinen, Esa-Pekka Keskitalo, Mikko Lappalainen, Susanna Nykyri, Marja-Liisa Seppälä, Leena Saarinen, Osma Suominen

 

Versiohistoria

versiopvm
tekijämuutokset / kommentit
0.9 17.12.2014 kaikkiEnsimmäinen luonnosversio Kristiinan kommentoitavaksi
0.9115.1.2015OsmaSiirretty Google Docsista Kiwiin, ei sisällöllisiä muutoksia
0.924.2.2015OsmaKristiinan ehdottamia lisäyksiä mm. avoindata.fi:stä
0.939.4.2015OsmaLisätty ODI-sertifikaatti ja maininta Fennican tiedontuotannosta

Johdanto

Tässä dokumentissa kuvataan konkreettinen suunnitelma Kansalliskirjaston metatietovarantojen avaamiseksi. Suunnitelma on laadittu vuosille 2015-2017. Sisältödatan avaamisesta laaditaan erillinen suunnitelma.

Perusteet ja hyödyt

Valtionhallinnon linjaukset

Valtioneuvoston periaatepäätös 3.3.2011 linjaa tietopoliittiset periaatteet julkishallinnon digitaalisten tietoaineistojen saatavuudesta. Julkisten tietoaineistojen tulee olla avoimesti saatavilla ja uudelleenkäytettävissä yhtenäisin, selkein ja kaikille tasapuolisin ehdoin.

Toukokuussa 2013 käynnistetyllä Avoimen tiedon ohjelmalla vauhditetaan periaatepäätöksen toimeenpanoa. – Kansalliskirjasto on esittänyt opetus- ja kulttuuriministeriölle omat datanavaamislinjauksensa; tämä suunnitelma toteuttaa niitä.

Kansalliskirjaston linjaukset

“Avoin ja yhteiskäyttöinen metatieto” on yksi Kansalliskirjaston strategian keihäänkärjistä. Yhteiskunnallinen kokonaisetu toteutuu parhaiten niin, että Kansalliskirjaston tuottama metadata ja auktoriteettitieto ovat avoimesti ja maksuttomasti saatavissa mahdollisimman laajasti. Luonnollisestikin otetaan huomioon tekijänoikeuteen ja sen lähioikeuksiin, tietosuojaan ja sopimuksiin perustuvat rajoitukset. Myös kirjaston digitoimalle, tekijänoikeusvapaalle aineistolle suodaan mahdollisimman laajat käyttöoikeudet. Kirjasto myös toimii monin tavoin avoimen tieteellisen julkaisemisen puolesta.

 

Periaatepäätös Kansalliskirjaston bibliografisen datan avaamisesta on tehty jo 2013, mutta sen tiellä on ollut eräitä esteitä. Näitä ovat muiden muassa metadatan tuottamiseen liittyvät kaupalliset sopimukset; metadatan sisältämät henkilötiedot; sekä datan muuntaminen muotoon, joka on helposti käytettävissä myös kirjastosektorin ulkopuolella. Toisaalta kirjasto on myös edistynyt datan avaamisessa. ONKI-projektissa luodussa Finto-ontologiapalvelussa datan avoimuus on keskeistä. Siirtyminen RDA-malliin – ja tulevaisuudessa toivottavasti myös sitä aidosti tukeviin tietojärjestelmiin – on merkittävä askel kohti avointa linkitettyä dataa.  

 

Kansalliskirjaston digitointipolitiikassa (2010) linjataan, että kirjaston tavoitteena on saattaa digitoidut aineistot mahdollisimman laajaan käyttöön; sekä metadatan mahdollisimman vapaa käyttö. Metadatan avaaminen tukee siis digitointipolitiikan tavoitteita.

Datan avaamisen hyödyt

Tavoitteena viiden tähden data

 

Linkitetyn datan avaamista ohjaa niin kutsuttu viiden tähden malli (http://5stardata.info), joka määrittää datan avaamiseen liittyviä askeleita. Kansalliskirjaston datan avaamisen voi nähdä viiden tähden mallissa seuraavasti:

 

 

Kahteen tähteen päästään jo avaamalla pääsy nykymuotoisiin MARC-tietueisiin CC0-lisenssillä. Nämä eivät kuitenkaan ole helposti hyödynnettävissä kirjastomaailman ulkopuolella, joten kolmatta tähteä ei saavuteta. Finna API tulee tarjoamaan Finnan piiriin kuuluvaa dataa myös helpommin käsiteltävissä avoimissa muodoissa (JSON, XML), joten näiden aineistojen osalta saavutetaan kolmas tähti. Neljäs tähti saadaan, kun aineiston osille (käytännössä bibliografiset tietueet, mutta myös tekijät, kustantajat, julkaisusarjat ym.) annetaan pysyvät URI- tai URN-tunnisteet. Viides tähti vaatii vielä, että aineistot sisältävät linkkejä muihin aineistoihin. Esimerkiksi bibliografisessa tiedossa linkit sanastoihin, ontologioihin ja henkilö- sekä yhteisöauktoriteetteihin ovat tällaisia. RDA- ja BIBFRAME-mallinnuksessa resurssien väliset linkit ovat keskeisessä osassa. Finton sisältämien sanastojen ja auktoriteettien osalta viisi tähteä on jo saavutettu, mutta bibliografisen tiedon osalta ollaan toistaiseksi prosessin alussa.

Avoimen datan palvelun ODI-sertifikaatti

Open Data Institute on luonut avoimen datan palveluille sertifiointijärjestelmän, jossa palvelua tarkastellaan erityisesti asiakkaan näkökulmasta. Sertifikaatin voi hankkia omatoimisesti vastaamalla rehellisesti kysymyksiin datan tuotannosta, laadusta, lisensioinnista ja riskeistä. Sertifiointijärjestelmä on jaettu tasoihin:

Raw-tasolla riittää, että data on julkaistu, nimetty, asetettu saataville ja sille on määritelty avoin lisenssi. Tämä olisi saavutettavissa joillekin aineistoille jo vuoden 2015 aikana. Pilot-tasolla tulee mukaan vaatimuksia mm. datan ajantasaisuudesta, dokumentoinnista ja palautekanavan järjestämisestä. Se olisi mahdollista saavuttaa vuoden 2016 aikana. Standard-tasolla vaatimuksia tiukennetaan niin, että palvelun tulee olla luotettavaa ja saatavuus pysyvää. Sen saavuttamisen tämän suunnitelman kauden 2015-2017 loppuun mennessä voi ottaa tavoitteeksi, mutta saattaa olla, ettei sitä kyetä kaikilta osin saavuttamaan. Expert-tasolle ei ole vielä kukaan yltänyt.

Riippuvuudet ja vaikutukset muihin projekteihin ja perustoimintaan

Yhteys datan tuotannon uudistuksiin

 

Yhteys kokonaisarkkitehtuuriin ja palveluväylään

Toimintamalli

Ensiaskeleet

Ennen varsinaista linkitetyn avoimen datan palvelua voidaan avata pääsy nykyisten Voyager- ja Aleph-järjestelmien tietokantojen (Fennica, Arto, Viola, Melinda) SRU/Z39.50-rajapintoihin. Kyseiset rajapinnat ovat olemassa ja tällä hetkellä useiden poimintaluettelointisopimuksen tehneiden tahojen aktiivisessa käytössä. Käyttö on rajattu IP-rajoituksilla. IP-rajoitukset tulisi poistaa, mutta kuitenkin niin, että pääsy avataan vain bibliografisten tietueiden osalta, koska auktoriteettitietueissa on myös ei-julkista tietoa. Rajapintojen perusdokumentaatio on valmiiksi saatavilla: http://www.nationallibrary.fi/libraries/linnea/z3950.html 

 

Myös yhteistietokantojen OAI-PMH-rajapintojen avaaminen vapaaseen käyttöön voidaan tehdä helpohkosti. Se kuitenkin vaatii enemmän valmistelua kuin SRU/Z39.50 -rajapintojen avaaminen, sillä Alephin ja Voyagerin OAI-PMH -rajapintojen laajamittaisesta käytöstä ei Kansalliskirjastossa ole toistaiseksi yhtä paljon kokemusta. Rajapintojen avaamisen ohella voidaan harkita nykyisten MARC-tietueiden julkaisua ns. dumppeina eli ladattavina tiedostoina säännöllisin väliajoin, esimerkiksi kuukausittain.

 

Avoimen datan palvelu

Edellä kuvattujen rajapintojen avausten lisäksi avataan Kansalliskirjaston linkitetyn avoimen datan palvelu data.kansalliskirjasto.fi, joka on wiki- tyyppinen alusta avaamiseen liittyvälle dokumentaatiolle ja toimii myös Kansalliskirjaston datakatalogina, sisältäen paitsi bibliografisen tiedon myös kuvauksen avatuista aineistoista ja auktoriteettitiedoista. Lisäksi data.kansalliskirjasto.fi:ssä toimii bibliografisen tiedon osalta linkitetyn datan julkaisualustana (auktoriteettitiedot ja sanastot julkaistaan Finto-palvelussa ja aineistot muissa palveluissa).

 

Data.kansalliskirjasto.fi rakennetaan W3C:n Linked Data Platform -suosituksen (http://www.w3.org/TR/ldp/) mukaiseksi datan julkaisualustaksi. Datan julkaisussa hyödynnetään olemassaolevia julkaisualustaohjelmistoja, kuten Apache Marmotta ja/tai ALIADA. Tavoitteena on luoda samankaltainen datapalvelu kuin mm. Ranskan kansalliskirjastolla (http://data.bnf.fr), Saksan kansalliskirjastolla (http://www.dnb.de/EN/lds.html), Ruotsin kansalliskirjastolla (http://www.kb.se/libris/teknisk-information/Oppen-data/Open-Data/), Espanjan kansalliskirjastolla (http://datos.bne.es/) ja Britannian kansallisbibliografialla (http://bnb.data.bl.uk/). Linkitetty data julkaistaan RDF-muodossa yksittäisinä resursseina (tietueina), ladattavina RDF-dumppeina sekä myös SPARQL-rajapintana.

 

Avoimen datan palvelu avataan alkuvaiheessa prototyyppinä kokemusten ja palautteen keräämiseksi. Esimerkiksi tietomallin osalta lopullisia mallinnusratkaisuja on vaikea tehdä, koska RDA-siirtymä on kesken ja BIBFRAME-malli ei ole valmis.

Tietueiden muunnokset

Linkitetyn datan julkaisu edellyttää MARC-muotoisten bibliografisten tietueiden muunnosta RDF-muotoon. Tämä kannattaa tehdä maailmalla tähän tarkoitukseen kehitetyin työkaluin (esim. ALIADA, Catmandu, Metafacture). Mikäli mahdollista, hyödynnetään RDF-muunnoksessa jo tehtyä työtä RDA-malliin siirtymisen valmistelussa eli pyritään siihen, että julkaistava RDF-data noudattelee RDA-mallia siinä määrin kuin voidaan (mm. teos- ja manifestaatiotason erottelu). Fennican osalta ei muunneta heti koko tietokantaa, vaan valitaan aluksi (2015) jokin kiinnostava ja datan laadultaan hyvä osakokonaisuus (esimerkiksi signum 1939-44, tai maantiede tai matkailu ).

 

Muunnoksen yhteydessä tietoa voidaan myös rikastaa. Tekijä- ja julkaisijatiedot esitetään linkkeinä henkilö- ja yhteisöauktoriteetteihin, jotka julkaistaan Fintossa (Suomalaiset yhteisönimet julkaistiin Fintossa keväällä 2014, henkilöauktoriteetti julkaistaan vuoden 2015 aikana). Ensijulkaisujen jälkeen (2016-2017) kehitetään myös linkittämistä ulkopuolisiin lähteisiin, esim. eri maiden kansalliskirjastojen vastaavaan bibliografiset dataan.

 

Sisällönkuvailussa käytettyjen sanastojen termien sijaan käytetään vastaavien käsitteiden URI-tunnisteita. YSA-linkkien sijaan (tai lisäksi) muodostetaan linkit vastaaviin YSO-käsitteisiin. YSOa kehitetään kattamaan sanastoltaan ja käsitteistöltään koko julkisen sektorin (ml. ministeriöt, media) aiheenmukainen sisällönkuvailutarve nimenomaan avoimen linkitetyn datan ympäristössä. Tietovarantojen linkittyvyyttä edistää ensinnäkin se, että YSOn käsitteistö on YSAa tarkemmin määritelty ja käsitteiden ilmaisutapoja on rikastettu (ja edelleen rikastetaan), ja toisekseen se, että YSO on monikielinen (suomi, ruotsi, englanti) ja niin se kuin sillä tuotettu aiheenmukainen sisällönkuvailu siltautuu siten myös kansainvälisiin sanastoihin ja tietovarantoihin. Kirjasto- ja muistiorganisaatioiden tietovarantojen avautumisessa ja yhdistymisessä yli organisaatio- ja järjestelmätasojen on yhtenäinen metatieto keskeinen ominaisuus, ja yhdisteltävyyden toteutumista edistää siirtyminen YSOn käyttöön. (YSO on julkaistu avoimena datana Fintossa.)

Viestintä ja yhteistyöverkostot

Datan avaamiseen liittyvä viestintä tapahtuu ensisijaisesti data.kansalliskirjasto.fi:ssä, jossa julkaistaan dataan liittyvää dokumentaatiota, linjauksia ja taustatietoa. Avaukseen liittyviä uutisia (sekä oman palvelun uutisista että ulkopuolella tapahtuvasta datan käytöstä) julkaistaan myös muutoin osana Kansaliskirjaston viestintää. Julkaistut aineistot lisätään oman datakatalogin lisäksi myös avoindata.fi-palveluun ja rajapinnat API:Suomi-palveluun. Datan avaamiseen liittyviä sähköpostiyhteydenottoja varten luodaan palveluosoite. Harkitaan oman Twitter-tilin avaamista Kansalliskirjaston avoimelle datalle, koska tästä on hyviä kokemuksia Finto-palvelusta.

 

Sponsoroidaan erikoispalkinto Apps4Finland-kilpailuun. Järjestetään hackathoneja tai osallistutaan muiden järjestämiin tapahtumiin, esim. AvoinGLAM-verkoston kautta.

Onnistumisen mittarit

Aikataulu, työmäärä ja resurssit

Kursivoidut kohdat viittaavat muissa projekteissa tehtävään työhön (2015 jälkeen perustuu alustaviin suunnitelmiin / tiekarttoihin).

2015

 

Virtuaalipalvelimen perustaminen ja ylläpito 2015 loppuun

2 htvko

KVP

data.kansalliskirjasto.fi perustaminen

2 htvko

KVP

Tietovarantojen kuvaukset olemassaolevista datoista + aikataulutietoa jatkosta

4 htvko

Tutki

Tietovarantojen ja rajapintojen avoindata.fi ja API:suomi -luettelointi

1 htvko

Tutki

olemassaolevien SRU/Z39.50 rajapintojen avaaminen ja dokumentointi

2 htvko

KVP

Melinda-tietueille URI/URN-tunnisteet (tässä vaiheessa hallinnollinen päätös)

2 htvko

KVP

Fennica/Arto/Viola alustava RDF-muunnos

4 htvko

KVP/Tutki

RDF:n julkaisu vähintään dumppina

1 htvko

KVP

Viestintä ja tuki

2 htvko

KVP/Tutki

Yhteensä 2015

20 htvko = 5 htkk

 

Henkilöauktoriteettien julkaisu Fintossa

  
Finna API käyttöönotto  
Fintossa julkaistaan tarpeen mukaan sanastoja ja auktoriteetteja MARC- ja CSV-muodoissa  

 

2016

 

data.kansalliskirjasto.fi teknisen alustan (ml. virtuaalipalvelin ja wiki) ylläpito

2 htvko

KVP

Linked Data Platform alustan valinta, asennus ja käyttöönotto

4 htvko

KVP

Tunnisteiden vienti Melinda-tietueisiin

2 htvko

KVP

RDF-muunnoksen kehittäminen

4 htvko

KVP/Tutki

Datan avaamisen prosessien ja tietoarkkitehtuurin kuvaukset kokonaisarkkitehtuuria varten

2 htvko

KVP

Dokumentaation kehittäminen

2 htvko

Tutki

Viestintä ja tuki

4 htvko

KVP/Tutki

Yhteensä 2016

20 htvko = 5 htkk

 

Teos- ja manifestaatiotason erottelu (Kilda)

  
Kuvailussa siirrytään linkitetyn datan käyttöön (RDA, YSO)  
YSO sillataan ulkopuolisiin sanastolähteisiin  

 

2017

 

data.kansalliskirjasto.fi teknisen alustan (ml. virtuaalipalvelin ja wiki) ylläpito

2 htvko

KVP

RDF-muunnoksen jatkokehittäminen

4 htvko

KVP/Tutki

Fennican avaus kokonaisuudessaan

4 htvko

KVP

Dokumentaation kehittäminen

2 htvko

Tutki

Muu datan avaukseen liittyvä työ (täsmentyy myöhemmin)

4 htvko

KVP/Tutki

Viestintä ja tuki

4 htvko

KVP/Tutki

Yhteensä 2017

20 htvko = 5 htkk

 

 

 

Kustannukset

Datan avaamisen kustannukset muodostuvat lähes yksinomaan henkilöstökuluista. Avoimen datan palveluun tarvitaan uusi virtuaalipalvelin, mutta sen osuus kokonaispalvelinkapasiteetista tulee olemaan pieni eikä uusia laitteistohankintoja tarvita. Kaupallisille ohjelmistoille ei ole näköpiirissä tarvetta. Apps4Finland-kilpailun haastepalkinnon sponsorointi maksoi 7 000 € vuonna 2014, mutta seuraavina vuosina kilpailun ja palkintojen rakenteeseen on odotettavissa muutoksia. Mahdollinen tulonmenetys n. 16 000 € poimintaluettelointisopimuksista, jotka käyvät tarpeettomaksi, kun rajapinnat avataan.

 

Fennican tiedontuotannon järjestämisestä pitkällä tähtäimellä keskustellaan ja sitä suunnitellaan erikseen.

Resurssointi


Tulosalue/toimintayksikkö/muu rahoitus2015-2017 htkk/v
KVP/Pasy (Finto)1
KVP/Tiva1
KVP/ATT-hankerahoitus2
Tutki1