See OAI-PMH Harvesting Interface for Finna's Index for English version.

Historia

v1.0 Ensimmäinen versio

Yleistä

OAI-PMH on yleisesti käytetty, erityisesti metadatan haravointiin suunniteltu rajapinta. Finnassa OAI-PMH:lla voi haravoida Finnasta löytyvät vapaasti käytettävät materiaalit. OAI-PMH -haravointiin tarvitaan protokollaa tukeva ohjelma, ns. harvester. Valmiita kirjastoja on saatavilla eri ohjelmointikielille runsaasti, ja myös valmiita OAI-PMH:ta tukevia ohjelmistoja löytyy. Finnassa käytetään Kansalliskirjastossa kehitettyä RecordManageria, ja openarchives.org:n sivuilta löytyy myös useita vaihtoehtoja.

OAI-PMH:ssa olennaista on, että haravointi tapahtuu erissä, esim. 1000 tietuetta kerralla. Tällöin sekä haravoija että tarjoaja voivat käsitellä pyynnön ja vastauksen kohtuullisessa ajassa. Jokaisessa vastauksessa on mukana ns. resumptionToken, jolla saa pyydettyä seuraavan erän tietueita, kunnes enempää tietueita ei ole enää tarjolla. Suosittelemme käyttämään haravoijaa, joka osaa yrittää pyyntöä uudelleen hetken kuluttua, jos se katkeaa esim. verkkovirheeseen. Lisäksi on huomioitava, että yksittäinenkin vastaus voi olla melko suuri tietueiden sisällöstä riippuen, ja esim. libxml2-pohjaista parseria käytettäessä voi tarvita XML_PARSE_HUGE-optiota.

Finnan OAI-PMH -rajapinta löytyy osoitteesta https://api.finna.fi/OAI/Server.

Rajoitukset

  • Haravoitava kokonaisuus voidaan rajata käyttämällä tarjoajan määrittelemiä settejä. OAI-PMH:ssa ei ole hakusanoja tai muita suodatustapoja.

  • Finna ei tue poistettujen tietueiden raportointia.
  • Haravoijan on raportoitava User-Agent, jota ei tulkita botiksi. Finna käyttää tähän Crawler-Detect -moduulia. Muuten vastauksena on status-koodi 403 (Forbidden). On suositeltavaa käyttää palvelukohtaista User-Agentia.

Finnan metadataformaatit

Finnassa on metadataa useissa eri formaateissa. OAI-PMH:lla on mahdollista haravoida kaikki tietyn lähtöformaatin tietueet, perustiedot Dublin Core -muodossa tai erityistä yhdistelmäformaattia, johon on mapattu Finnassa käsiteltyä metadataa. Taulukon kokoelmalistaus-linkit vievät Finnan hakurajapinnan puolelle.

PrefiksiFormaattiKattavuusKuvaus
oai_dcDublin CoreKaikki sisältöPerusformaatti, jossa voi haravoida kaikki tietueet (kokoelmalistaus)
oai_vufind_jsonFinnan omaKaikki sisältöYhdistelmä Dublin Core -perustietueesta ja lisätiedoista JSON-muodossa oai_vufind_json:metadata-elementin sisällä. Kuvaus tarjottavien kenttien sisällöstä löytyy Finnan hakurajapinnan dokumentaatiosta. Tarjolla on kuitenkin vain osa hakurajapinnan kentistä. Sisältö vaihtelee lähtöformaatista riippuen, eikä kaikissa tietueissa ole sisältöä kaikissa kentissä.
marc21MARCXMLLähinnä kirjastojen aineistoa (kirjastoluettelot)Erityisesti kirjastoaineiston kuvailussa käytetty metadataformaatti (kokoelmalistaus)
oai_eadEADArkistojen aineistoaArkistoaineiston kuvailuun tarkoitettu formaatti, vanha versio (kokoelmalistaus)
oai_ead3EAD3
Arkistoaineiston kuvailuun tarkoitettu formaatti, uusi versio (kokoelmalistaus)
oai_forwardFORWARDKansallisen audiovisuaalisen instituutin aineistoEN15907-standardiin pohjautuva esitysmuoto audiovisuaaliselle aineistolle (kokoelmalistaus)
oai_lidoLIDOMuseoiden aineistoaErityisesti museoaineiston kuvailussa käytetty metadataformaatti (kokoelmalistaus)
oai_qdcQualified Dublin CoreJulkaisuarkistoja, opinnäytteitä, kirjastojen aineistojaDublin Corea laajempi muoto, jota käytetään usein mm. julkaisuarkistoissa (kokoelmalistaus)

Finnan setit

Pyytämällä tietueet ilman settimääritystä saa edustavat tietueet Finnan deduplikoidusta kokonaisuudesta. Tarjolla on myös seuraavat setit:

SettiKuvaus
non_dedupDeduplikoimaton kokonaisuus. Suurempi kuin perussetti, eli sisältää kaikki duplikaatit.
  • No labels