Keskeisiä automaattisen kuvailun tavoitteita vuonna 2021 sekä niiden yhteys työpaketteihin:
Kerätään yleisten kirjastojen eri järjestelmistä (esim. Kysy kirjastonhoitajalta -palvelu, Kirjasampo, Kirjastokaista) automaattisen sisällönkuvailun testaukseen soveltuvia aineistoja, muunnetaan ne Annif-korpuksiksi ja kokeillaan niiden pohjalta, miten hyvin Annifin algoritmit soveltuvat näille aineistoille.
Kerätään KAUNO-ontologialla kuvailtuja kaunokirjallisuusaineistoja eri bibliografisista tietokannoista (esim. Finna, Melinda) ja niihin liittyviä tekstiaineistoja (esim. Kirjavälityksen esittelytekstit, e-vapaakappaleet). Näistä muodostetaan Annif-korpukset, joilla kokeillaan, miten hyvin Annifin algoritmit soveltuvat kaunokirjallisuuden automaattisen sisällönkuvailuun.
Jatketaan automaattisen YKL-luokituksen testausta ja kehittämistä. Koulutetaan mallit uusimman YKL:n perusteella. Koulutetaan myös neuroverkkomalli, jonka on tarkoitus sisältyä Annifin versioon 0.51. Selvitetään, mitkä mallesita ovat parhaat ja julkaistaan ne annif.org:issa (testipalvelu). Tämän jälkeen luokituksen laatua arvioidaan ja edetään työpaketin AK4.3. mukaan, tarkoituksena YKL-luokituksen tarjoaminen Finto AI:n kautta.
Kirjavälitys Oy toimittaa kirjaesittelyaineiston, jossa on Thema-luokkia sekä itse Thema-luokituksen. Nämä muunnetaan Annifille sopivaan korpusmuotoon. Tämän jälkeen kokeillaan, miten hyvin Annifin algoritmit soveltuvat automaattiseen Thema-luokitukseen.
Kirjavälitys Oy on käyttänyt Annifia (sittemmin Finto AI:ta) kesästä 2019 alkaen. He toimittavat aineiston, josta käy ilmi Annifin antamat asiasanaehdotukset sekä kuvailijan valitsemat lopulliset asiasanat. Näitä (sekä soveltuvin osin Fennican asiasanoja) vertailemalla tutkitaan, miten suuri osa Annifin ehdotuksista on päätynyt lopulliseen kuvailuun eri aikakausina ja eri mallisukupolvien aikana.
Selvitetään, mikä on dokumentin laajuuden vaikutus automaattisen sisällönkuvailun laatuun vertailemalla tuloksia, jotka perustuvat seuraaviin dokumentin osiin:
Laaditaan aiheesta systemaattinen katsaus, jonka perusteella voidaan suositella sopivimpia menetelmiä eri käyttötilanteisiin.
Selvitetään, miten monikielisten dokumenttien osalta eri kieliversioiden tai konekäännöksen pohjalta tuotetun automaattisen sisällönkuvailun tulokset vertautuvat keskenään.
Konekäännöstyökaluja:
Osaa Annifin algoritmeista voi jatkokouluttaa käytön aikana siten, että ne oppivat palautteesta. Teknisesti tämä ominaisuus on ollut olemassa jo jonkin aikaa. Selvitetään, voidaanko palautteesta oppimalla parantaa Annifin antamien tulosten laatua eri aineistoilla, esimerkiksi tilanteessa jossa mallit on koulutettu eri aineistoilla kuin mihin niitä sovelletaan.
Tutkitaan millainen Annifin ehdotusten käsitekohtainen laadun jakauma on, ja miten se riippuu kunkin käsitteen esiintyvyydestä koulutusaineistossa. Käyttäjäkokemusten mukaan erityisesti ruotsinkielisten mallien ehdotukset sisältävät hyvin usein tiettyjä vääriä käsitteitä. Tämä olisi hyödyllistä havaita numeerisilla mittareilla. Analyysissa voidaan hyödyntää Annifin tuottamaa raporttia käsitekohtaisista laatumittareista.
Selvitetään, miten sisällönkuvailun laatu riippuu koulutusaineiston määrästä Annifin eri malleilla. Tutkitaan mahdollisuuksia kasvattaa koulutusaineiston määrää esimerkiksi kääntämällä koneellisesti muiden kielien aineistoja koulutettavan projektin kielelle.
Rakennetaan automatisoitu testipenkki, jossa arvioidaan sisällönkuvailun laatua eri aineistoilla ja tuotetaan numeerisia mittareita, joista voidaan piirtää kaaviokuvia. Tätä työtä on tehty jo pitkään, mutta kehitetään työkaluja niin, että laatuarviot voidaan tuottaa pienemmällä vaivalla ja käsityöllä.
Koostetaan raportti, jossa vertaillaan Annifia muihin automaattisen sisällönkuvailun työkaluihin ja kaupallisiin tuotteisiin. Raportin tekemisessä hyödynnetään muita vastaavia selvityksiä, esimerkiksi Hollannin kansalliskirjaston raporttia, Ylen tekemää Leiki-Annif-vertailua, DNB:n Annif-Averbis-vertailua sekä Kavissa tehtyä työtä ja artikkelia.
Annifin käyttämät YSO-pohjaiset mallit asetetaan yleisesti saataville niin että käyttäjät voivat ladata ne helposti omalle koneelleen.
Toteutetaan ja/tai integroidaan Annifiin uusia algoritmeja sitä mukaa kun lupaavia tulee vastaan. Tavoitteena on erityisesti löytää korvaaja Mauille, joka antaa kyllä melko hyviä tuloksia, mutta on teknisesti hankala käyttää. Mahdollisia kandidaatteja uusiksi algoritmeiksi:
Jatketaan Annifin kehitystä ja julkaistaan säännöllisesti uusia Annif-työkalun versioita. Kehitykseen kuuluu mm.
Finto AI ja Annifin koerajapinta (api.annif.org) on toteutettu Kansalliskirjaston Docker-konttialustan pohjalle. Kevään 2021 aikana tästä alustasta luovutaan ja tilalle tulee HY:n Tietotekniikkakeskuksen ylläpitämä OpenShift-pohjainen konttialusta. Annifin ja Finto AI:n kontit sovitetaan OpenShift-alustaa varten ja siirretään uudelle alustalle ennen vanhan alasajoa.
Annifin kehityksessä käytetään Travis CI -testauspalvelua, joka on tähän asti ollut ilmainen avoimen lähdekoodin projekteille. Marraskuussa 2020 Travis CI ilmoitti uudesta hinnoittelumallista, joka saattaa tehdä sen käytöstä maksullista. Siirrytään tarvittaessa toiseen vastaavaan palveluun (esim. GitHub Actions).
Finto AI:ta kehitetään esille tulevien tarpeiden pohjalta ja laajennetaan Finto AI:ssa käytettävissä olevien sanastojen valikoimaa esimerkiksi YKL:llä ja KAUNO-ontologialla.
Lisätään tuki YKL-luokitukselle julkisiin Annif-palvelurajapintoihin ja tiedotetaan käyttäjille. YKL-luokitukseen liittyvä dokumentaatio lisätään Finton asiakaswikiin.
Huolehditaan siitä, että Finto AI:ssä on käytössä ajantasaiset sanastot ja mallit on koulutettu mahdollisimman tuoreilla aineistoilla. Tämän varmistamiseksi muodostetaan säännöllisesti uudet Finna-koulutusaineistot ja koulutetaan niiden pohjalta uudet mallit. Mallien laatu arvioidaan ennen niiden käyttöönottoa.
Avataan rajapinta, jonka kautta Annifin käyttäjät voivat kouluttaa malleja paremmiksi käytön aikana.
Tuetaan Finto AI:n käyttöönottoa eri järjestelmissä.
Selvitetään, miten Finto AI:n käyttöä nykyisen Melinda-kuvailutyökalun (Aleph client) kanssa voisi helpottaa, esimerkiksi web-käyttöliittymän kopiointinappulalla, jolla asiasanaehdotukset saa suoraan oikeassa muodossa. Osallistutaan myös seuraavan sukupolven Melindan suunnittelutyöhön automaattisen kuvailun osalta.
Tuetaan Finnan uusien suosittelutoiminnallisuuksien kehitystä, jossa voisi hyödyntää Finto AI:n antamia asiasanaehdotuksia.
Kun uusimmat ja testatut YKL-mallit on tehty ja julkaistu annif.org-testipalvelussa (AK1.3), asiasta tiedotetaan ja samalla pyydetään käyttäjiltä palautetta (siskuv asiantuntijaryhmä, YKL-ryhmä, Kirjastopalvelu). Samassa yhteydessä selvitetään tarkemmin, kuinka automaattista YKL-luokitusta voitaisiin hyödyntää Kansalliskirjastossa.
Seurataan ja tutkitaan automaattisten ratkaisujen kehitystä. Automaattisen bibliografisen kuvailun ratkaisuja tutkitaan lisää myös Kansalliskirjaston sisällä. Pyritään tunnistamaan tarkemmin ne prosessit KK:n sisällä, jotka hyötyisivät automatisoinnista eniten ja tehdään yhteistyötä niistä vastaavien tahojen kanssa. Kansainvälisessä yhteistyössä pidetään automaattisen biblografisen kuvailun asia esillä ja pyritään löytämään yhteistyömahdollisuuksia ja synergiaetuja.
Tuotetaan raportti automaattisen biblografisen kuvailun testauksesta ja mahdollisuuksista KK:n sisällä sekä kansainvälisestä mahdollisuuksista. Raportissa kartoitetaan ajankohtainen kansainvälinen tilanne sekä käsitellään automaattisen bibliografisen kuvailun ratkaisujen toimivuutta Kansalliskirjaston järjestelmissä.
Automaattisen kuvailun verkoston toimintaan osallistutaan aktiivisesti. Pyritään tarvittaessa ylläpitämään ja koordinoimaan verkoston toimintaa.
Julkaistaan vertaisarvioitu, avoimesti julkaistu artikkeli Annifin ja Finto AI:n kehityksestä.
Annifin käytöstä on koostettu avoimesti saatavilla oleva koulutusmateriaali joka toimii periaatteessa itseopiskeltavana verkkokurssina (https://github.com/NatLibFi/Annif-tutorial). Verkkomateriaalia voidaan hyödyntää myös muissa yhteyksissä, esim. webinaareissa, erilaisten seminaarien yhteydessä, työpajoissa jne.
Uudistetaan tarpeen mukaan koulutusmateriaalia ja järjestetään materiaalin pohjalta Annif-koulutuksia sopivissa yhteyksissä, esim. konferenssien ohessa.
Järjestetään yhdessä Finton, Melindan ja mahdollisesti muiden ryhmien (esim. sisällönkuvailun asiantuntijaryhmä) kanssa koulutus Finto AI:n käytöstä sisällönkuvailutyössä.
Järjestetään automaattisen kuvailun laatuun liittyvä työpaja Kirjastoverkkopäivillä 2021, kuten on tehty vuosina 2019 ja 2017. Työpajan tuloksista julkaistaan raportti.
Dublin Core Metadata Initiativen alaisuuteen on perustettu automaattisen kuvailun intressiryhmä, jossa pyritään vaihtamaan kokemuksia automaattisesta kuvailusta ja siihen soveltuvista työkaluista. Herätellään henkiin ryhmän sähköpostilista ja kutsutaan mukaan kiinnostuneita henkilöitä ja organisaatioita. Järjestetään ryhmän kesken esim. verkkokokouksia ja webinaareja.
Kehitetään Finto-palvelun maksullisen palvelun mallia niin, että myös Finto AI:n ympärille voidaan tulevaisuudessa tarjota maksullisia palveluita sellaisille organisaatioille, jotka eivät ole OKM:n rahoituksen piirissä.
Tähän työpakettiin on koottu yhteyksiä tutkimusprojekteihin, joissa hyödynnetään Annifia ja/tai Finto AI:ta. Joidenkin projektien osalta on vielä epävarmaa toteutuvatko ne, koska esimerkiksi rahoituspäätökset eivät ole vielä selvillä.