Tavoitteet

Keskeisiä automaattisen kuvailun tavoitteita vuonna 2021 sekä niiden yhteys työpaketteihin:

Jatketaan Annif-työkalun kehitystä erityisesti sisällönkuvailun laadun näkökulmasta. Annifin tuottama sisällönkuvailu toimii sisällönkuvailun tukena eri sanastoilla (YSOn lisäksi YKL, KAUNO ja Thema), eri tyyppisillä aineistoilla ja eri kielillä (suomi, ruotsi ja englanti). Etsitään parhaiten toimivia käytäntöjä miten automaattinen sisällönkuvailu kannattaa toteuttaa eri tyyppisille dokumenteille. AK1, AK2
Kehitetään Finto AI -palvelua parantamalla tarjolla olevien sanastojen ja mallien valikoimaa ja ajantasaisuutta sekä tuetaan sen käyttöönottoa eri järjestelmissä. AK3
Edistetään sisällönkuvailun ja bibliografisen kuvailun automatisointia Kansalliskirjaston omissa järjestelmissä. AK4
Viestitään aktiivisesti automaattisen kuvailun kehityksestä ja pyritään rakentamaan yhteistyötä kotimaassa ja kansainvälisesti. AK5, AK6

AK1. Aineistot, laatutyö ja arviointi

AK1.1. Yleisten kirjastojen koulutus- ja arviointiaineistot

Kerätään yleisten kirjastojen eri järjestelmistä (esim. Kysy kirjastonhoitajalta -palvelu, Kirjasampo, Kirjastokaista) automaattisen sisällönkuvailun testaukseen soveltuvia aineistoja, muunnetaan ne Annif-korpuksiksi ja kokeillaan niiden pohjalta, miten hyvin Annifin algoritmit soveltuvat näille aineistoille.

AK1.2. Kaunokirjallisuuden sisällönkuvailun koulutus- ja arviointiaineistot

Kerätään KAUNO-ontologialla kuvailtuja kaunokirjallisuusaineistoja eri bibliografisista tietokannoista (esim. Finna, Melinda) ja niihin liittyviä tekstiaineistoja (esim. Kirjavälityksen esittelytekstit, e-vapaakappaleet). Näistä muodostetaan Annif-korpukset, joilla kokeillaan, miten hyvin Annifin algoritmit soveltuvat kaunokirjallisuuden automaattisen sisällönkuvailuun.

AK1.3. Automaattisen YKL-luokituksen jatkokehitys

Jatketaan automaattisen YKL-luokituksen testausta ja kehittämistä. Koulutetaan mallit uusimman YKL:n perusteella. Koulutetaan myös neuroverkkomalli, jonka on tarkoitus sisältyä Annifin versioon 0.51. Selvitetään, mitkä mallesita ovat parhaat ja julkaistaan ne annif.org:issa (testipalvelu). Tämän jälkeen luokituksen laatua arvioidaan ja edetään työpaketin AK4.3. mukaan, tarkoituksena YKL-luokituksen tarjoaminen Finto AI:n kautta.

AK1.4. Automaattisen Thema-luokituksen testaus

Kirjavälitys Oy toimittaa kirjaesittelyaineiston, jossa on Thema-luokkia sekä itse Thema-luokituksen. Nämä muunnetaan Annifille sopivaan korpusmuotoon. Tämän jälkeen kokeillaan, miten hyvin Annifin algoritmit soveltuvat automaattiseen Thema-luokitukseen.

AK1.5. Laatuanalyysi Kirjavälityksen Annif-käyttödatan pohjalta

Kirjavälitys Oy on käyttänyt Annifia (sittemmin Finto AI:ta) kesästä 2019 alkaen. He toimittavat aineiston, josta käy ilmi Annifin antamat asiasanaehdotukset sekä kuvailijan valitsemat lopulliset asiasanat. Näitä (sekä soveltuvin osin Fennican asiasanoja) vertailemalla tutkitaan, miten suuri osa Annifin ehdotuksista on päätynyt lopulliseen kuvailuun eri aikakausina ja eri mallisukupolvien aikana.

AK1.6. Vertailu dokumentin laajuden vaikutuksesta automaattiseen sisällönkuvailuun

Selvitetään, mikä on dokumentin laajuuden vaikutus automaattisen sisällönkuvailun laatuun vertailemalla tuloksia, jotka perustuvat seuraaviin dokumentin osiin:

pelkkä nimeke
nimeke + tiivistelmä/kuvausteksti
kokotekstin alkuosa
kokoteksti kokonaisuudessaan

Laaditaan aiheesta systemaattinen katsaus, jonka perusteella voidaan suositella sopivimpia menetelmiä eri käyttötilanteisiin.

AK1.7. Vertailu dokumentin eri kieliversioiden vaikutuksesta automaattiseen sisällönkuvailuun

Selvitetään, miten monikielisten dokumenttien osalta eri kieliversioiden tai konekäännöksen pohjalta tuotetun automaattisen sisällönkuvailun tulokset vertautuvat keskenään.

Konekäännöstyökaluja:

Fiskmö-projekti suomi-ruotsi-suomi-käännöksiin: https://blogs.helsinki.fi/fiskmo-project/?lang=fi
Euroopan komission eTranslation-palvelu. https://ec.europa.eu/info/resources-partners/machine-translation-public-administrations-etranslation_en
Suomen EU-puheenjohtajuuskaudelle tehty käännöspalvelu (EU-kielille) on myös edelleen käytettävissä: https://fi.presidencymt.eu/#/text

AK1.8. Palautteesta oppimisen arviointi

Osaa Annifin algoritmeista voi jatkokouluttaa käytön aikana siten, että ne oppivat palautteesta. Teknisesti tämä ominaisuus on ollut olemassa jo jonkin aikaa. Selvitetään, voidaanko palautteesta oppimalla parantaa Annifin antamien tulosten laatua eri aineistoilla, esimerkiksi tilanteessa jossa mallit on koulutettu eri aineistoilla kuin mihin niitä sovelletaan.

AK1.9. Analyysi arviointituloksista yksittäisten käsitteiden näkökulmasta

Tutkitaan millainen Annifin ehdotusten käsitekohtainen laadun jakauma on, ja miten se riippuu kunkin käsitteen esiintyvyydestä koulutusaineistossa. Käyttäjäkokemusten mukaan erityisesti ruotsinkielisten mallien ehdotukset sisältävät hyvin usein tiettyjä vääriä käsitteitä. Tämä olisi hyödyllistä havaita numeerisilla mittareilla. Analyysissa voidaan hyödyntää Annifin tuottamaa raporttia käsitekohtaisista laatumittareista.

AK1.10. Analyysi koulutusaineiston määrän vaikutuksesta automaattiseen sisällönkuvailuun ja määrän kasvattamisen mahdollisuuksista

Selvitetään, miten sisällönkuvailun laatu riippuu koulutusaineiston määrästä Annifin eri malleilla. Tutkitaan mahdollisuuksia kasvattaa koulutusaineiston määrää esimerkiksi kääntämällä koneellisesti muiden kielien aineistoja koulutettavan projektin kielelle.

AK1.11. Laatuarviointien automatisoinnin parantaminen

Rakennetaan automatisoitu testipenkki, jossa arvioidaan sisällönkuvailun laatua eri aineistoilla ja tuotetaan numeerisia mittareita, joista voidaan piirtää kaaviokuvia. Tätä työtä on tehty jo pitkään, mutta kehitetään työkaluja niin, että laatuarviot voidaan tuottaa pienemmällä vaivalla ja käsityöllä.

AK1.12. Annifin vertailu muihin vastaaviin työkaluihin

Koostetaan raportti, jossa vertaillaan Annifia muihin automaattisen sisällönkuvailun työkaluihin ja kaupallisiin tuotteisiin. Raportin tekemisessä hyödynnetään muita vastaavia selvityksiä, esimerkiksi Hollannin kansalliskirjaston raporttia, Ylen tekemää Leiki-Annif-vertailua, DNB:n Annif-Averbis-vertailua sekä Kavissa tehtyä työtä ja artikkelia.

AK1.13. Valmiiksi koulutettujen mallien jakelu

Annifin käyttämät YSO-pohjaiset mallit asetetaan yleisesti saataville niin että käyttäjät voivat ladata ne helposti omalle koneelleen.

AK2. Ohjelmisto- ja järjestelmäkehitys

AK2.1. Uudet algoritmit ja Mauin korvaaminen

Toteutetaan ja/tai integroidaan Annifiin uusia algoritmeja sitä mukaa kun lupaavia tulee vastaan. Tavoitteena on erityisesti löytää korvaaja Mauille, joka antaa kyllä melko hyviä tuloksia, mutta on teknisesti hankala käyttää. Mahdollisia kandidaatteja uusiksi algoritmeiksi:

ZBW:n kehittämä stwfsa-algoritmi
vapaita asiasanoja tekstistä ehdottava Yake
oma uudelleentoteutus Mauin algoritmista MLLM
High-performance Digitisation -hankkeen yhdeydessä tuotettujen X-Transformer-mallien hyödynnettävyyden jatkoarviointi

AK2.2. Annifin tekninen kehitystyö

Jatketaan Annifin kehitystä ja julkaistaan säännöllisesti uusia Annif-työkalun versioita. Kehitykseen kuuluu mm.

hyperparametrien optimoinnin laajentaminen koskemaan useampia algoritmeja
suorituskyvyn parantaminen esimerkiksi rinnakkaisprosessointia hyödyntämällä
resurssikulutuksen vähentäminen esim. muistinkäyttöä optimoimalla
web-käyttöliittymän ja REST-rajapinnan jatkokehitys lisäämällä niihin uusia toiminnallisuuksia

AK2.3. Konttisovellusten siirto yliopiston OpenShift-ympäristöön

Finto AI ja Annifin koerajapinta (api.annif.org) on toteutettu Kansalliskirjaston Docker-konttialustan pohjalle. Kevään 2021 aikana tästä alustasta luovutaan ja tilalle tulee HY:n Tietotekniikkakeskuksen ylläpitämä OpenShift-pohjainen konttialusta. Annifin ja Finto AI:n kontit sovitetaan OpenShift-alustaa varten ja siirretään uudelle alustalle ennen vanhan alasajoa.

AK2.4. Mahdollinen siirtyminen uuteen automaattiseen testauspalveluun

Annifin kehityksessä käytetään Travis CI -testauspalvelua, joka on tähän asti ollut ilmainen avoimen lähdekoodin projekteille. Marraskuussa 2020 Travis CI ilmoitti uudesta hinnoittelumallista, joka saattaa tehdä sen käytöstä maksullista. Siirrytään tarvittaessa toiseen vastaavaan palveluun (esim. GitHub Actions).

AK3. Automaattisen kuvailun palvelut

AK3.1. Finto AI:n jatkokehittäminen

Finto AI:ta kehitetään esille tulevien tarpeiden pohjalta ja laajennetaan Finto AI:ssa käytettävissä olevien sanastojen valikoimaa esimerkiksi YKL:llä ja KAUNO-ontologialla.

Lisätään tuki YKL-luokitukselle julkisiin Annif-palvelurajapintoihin ja tiedotetaan käyttäjille. YKL-luokitukseen liittyvä dokumentaatio lisätään Finton asiakaswikiin.

AK3.2. Säännölliset aineisto-, sanasto- ja mallipäivitykset

Huolehditaan siitä, että Finto AI:ssä on käytössä ajantasaiset sanastot ja mallit on koulutettu mahdollisimman tuoreilla aineistoilla. Tämän varmistamiseksi muodostetaan säännöllisesti uudet Finna-koulutusaineistot ja koulutetaan niiden pohjalta uudet mallit. Mallien laatu arvioidaan ennen niiden käyttöönottoa.

AK3.3. Palautteesta oppiminen rajapintapalveluihin

Avataan rajapinta, jonka kautta Annifin käyttäjät voivat kouluttaa malleja paremmiksi käytön aikana.

AK3.4. Finto AI:n käyttöönottojen tukeminen

Tuetaan Finto AI:n käyttöönottoa eri järjestelmissä.

AK4. Automaattisen kuvailun edistäminen KK:n järjestelmissä

AK4.1. Finto AI:n käytön edistäminen Melinda-kuvailussa

Selvitetään, miten Finto AI:n käyttöä nykyisen Melinda-kuvailutyökalun (Aleph client) kanssa voisi helpottaa, esimerkiksi web-käyttöliittymän kopiointinappulalla, jolla asiasanaehdotukset saa suoraan oikeassa muodossa. Osallistutaan myös seuraavan sukupolven Melindan suunnittelutyöhön automaattisen kuvailun osalta.

AK4.2. Finto AI:n hyödyntäminen Finnassa

Tuetaan Finnan uusien suosittelutoiminnallisuuksien kehitystä, jossa voisi hyödyntää Finto AI:n antamia asiasanaehdotuksia.

AK4.3. Automaattisen YKL-luokituksen hyödyntäminen Kansalliskirjastossa

Kun uusimmat ja testatut YKL-mallit on tehty ja julkaistu annif.org-testipalvelussa (AK1.3), asiasta tiedotetaan ja samalla pyydetään käyttäjiltä palautetta (siskuv asiantuntijaryhmä, YKL-ryhmä, Kirjastopalvelu). Samassa yhteydessä selvitetään tarkemmin, kuinka automaattista YKL-luokitusta voitaisiin hyödyntää Kansalliskirjastossa.

AK4.4. Automaattisen bibliografisen kuvailun testaus

Seurataan ja tutkitaan automaattisten ratkaisujen kehitystä. Automaattisen bibliografisen kuvailun ratkaisuja tutkitaan lisää myös Kansalliskirjaston sisällä. Pyritään tunnistamaan tarkemmin ne prosessit KK:n sisällä, jotka hyötyisivät automatisoinnista eniten ja tehdään yhteistyötä niistä vastaavien tahojen kanssa. Kansainvälisessä yhteistyössä pidetään automaattisen biblografisen kuvailun asia esillä ja pyritään löytämään yhteistyömahdollisuuksia ja synergiaetuja.

AK4.5. Raportti automaattisesta bibliografisesta kuvailusta

Tuotetaan raportti automaattisen biblografisen kuvailun testauksesta ja mahdollisuuksista KK:n sisällä sekä kansainvälisestä mahdollisuuksista. Raportissa kartoitetaan ajankohtainen kansainvälinen tilanne sekä käsitellään automaattisen bibliografisen kuvailun ratkaisujen toimivuutta Kansalliskirjaston järjestelmissä.

AK5. Tapahtumat, koulutukset, viestintä ja verkostotyö

AK5.1. Automaattisen kuvailun verkosto

Automaattisen kuvailun verkoston toimintaan osallistutaan aktiivisesti. Pyritään tarvittaessa ylläpitämään ja koordinoimaan verkoston toimintaa.

AK5.2. Artikkeli

Julkaistaan vertaisarvioitu, avoimesti julkaistu artikkeli Annifin ja Finto AI:n kehityksestä.

AK5.3. Annif-koulutukset/tutorial

Annifin käytöstä on koostettu avoimesti saatavilla oleva koulutusmateriaali joka toimii periaatteessa itseopiskeltavana verkkokurssina (https://github.com/NatLibFi/Annif-tutorial). Verkkomateriaalia voidaan hyödyntää myös muissa yhteyksissä, esim. webinaareissa, erilaisten seminaarien yhteydessä, työpajoissa jne.

Uudistetaan tarpeen mukaan koulutusmateriaalia ja järjestetään materiaalin pohjalta Annif-koulutuksia sopivissa yhteyksissä, esim. konferenssien ohessa.

AK5.4. Finto AI -koulutus

Järjestetään yhdessä Finton, Melindan ja mahdollisesti muiden ryhmien (esim. sisällönkuvailun asiantuntijaryhmä) kanssa koulutus Finto AI:n käytöstä sisällönkuvailutyössä.

AK5.5. Työpaja Kirjastoverkkopäivillä

Järjestetään automaattisen kuvailun laatuun liittyvä työpaja Kirjastoverkkopäivillä 2021, kuten on tehty vuosina 2019 ja 2017. Työpajan tuloksista julkaistaan raportti.

AK5.6. DCMI Interest Group

Dublin Core Metadata Initiativen alaisuuteen on perustettu automaattisen kuvailun intressiryhmä, jossa pyritään vaihtamaan kokemuksia automaattisesta kuvailusta ja siihen soveltuvista työkaluista. Herätellään henkiin ryhmän sähköpostilista ja kutsutaan mukaan kiinnostuneita henkilöitä ja organisaatioita. Järjestetään ryhmän kesken esim. verkkokokouksia ja webinaareja.

AK5.7. Finto AI:n maksullisen palvelun valmistelu

Kehitetään Finto-palvelun maksullisen palvelun mallia niin, että myös Finto AI:n ympärille voidaan tulevaisuudessa tarjota maksullisia palveluita sellaisille organisaatioille, jotka eivät ole OKM:n rahoituksen piirissä.

AK6. Tutkimusyhteistyö

Tähän työpakettiin on koottu yhteyksiä tutkimusprojekteihin, joissa hyödynnetään Annifia ja/tai Finto AI:ta. Joidenkin projektien osalta on vielä epävarmaa toteutuvatko ne, koska esimerkiksi rahoituspäätökset eivät ole vielä selvillä.