Keskeisimmät tavoitteet 2022 sekä niiden yhteys työpaketteihin

  1. Parannetaan automaattisen kuvailun laatua mm. hyödyntämällä koneoppimista ja kieliteknologiaa sekä tekemällä yhteistyötä. AK1, AK2, AK5, AK6
  2. Laajennetaan automaattista sisällönkuvailua luokituksiin ja kaunokirjallisuuteen. AK1, AK3
  3. Kehitetään Finto AI -palvelun toiminnallisuuksia, käytettävyyttä ja saavutettavuutta. AK2, AK3
  4. Edistetään automaattisen kuvailun käyttöönottoja Suomessa ja maailmalla. AK3, AK4

AK1. Aineistot, laatutyö ja arviointi

AK1.1. Uusien koulutus- ja arviointiaineistojen kerääminen

Kerätään yleisten kirjastojen eri järjestelmistä (alustavasti Kirjasampo ja Kirjastokaista) sekä julkaisuarkistoista automaattisen sisällönkuvailun testaukseen soveltuvia aineistoja ja muunnetaan ne Annif-korpuksiksi, jotta voidaan kokeilla niiden pohjalta, miten hyvin Annifin algoritmit soveltuvat näille aineistoille tehtävissä AK1.2-1.4 sekä AK3.2.

AK1.2. Kaunokirjallisuuden automaattisen sisällönkuvailun testaus

Kerätään KAUNO-ontologialla kuvailtuja kaunokirjallisuusaineistoja eri bibliografisista tietokannoista (esim. Finna, Melinda) ja niihin liittyviä tekstiaineistoja (esim. Kirjavälityksen esittelytekstit, Kirjasampo, e-vapaakappaleet). Näistä muodostetaan Annif-korpukset, joilla kokeillaan, miten hyvin Annifin algoritmit soveltuvat kaunokirjallisuuden automaattisen sisällönkuvailuun. Parhaat mallit julkaistaan annif.org:issa (testipalvelu) ja pyydetään keskeisiltä käyttäjäryhmiltä palautetta (esim. yleiset kirjastot). Tämän jälkeen edetään kohdan AK3.1. mukaan, tarkoituksena KAUNO-sisällönkuvailun tarjoaminen Finto AI:n kautta.

AK1.3. Automaattisen YKL-luokituksen jatkokehitys

Jatketaan automaattisen YKL-luokituksen testausta ja kehittämistä. Koulutetaan mallit uusimman YKL:n perusteella niillä aineistoilla, jotka tarkoitukseen soveltuvat (Kirjavälitys Oy:n kirjaesittelyt, Makupalat). Parhaat mallit julkaistaan annif.org:issa (testipalvelu) ja pyydetään keskeisiltä käyttäjäryhmiltä palautetta (sisällönkuvailun asiantuntijaryhmä, YKL-ryhmä, Kirjastopalvelu). Tämän jälkeen edetään kohdan AK3.1. mukaan, tarkoituksena YKL-luokituksen tarjoaminen Finto AI:n kautta.

AK1.4. Automaattisen Thema-luokituksen testaus

Kirjavälitys Oy on toimittanut kirjaesittelyaineiston, jossa on Thema-luokkia sekä itse Thema-luokituksen. Nämä on jo vuonna 2021 muunnettu Annifille sopivaan korpusmuotoon. Vuoden 2022 aikana kokeillaan, miten hyvin Annifin algoritmit soveltuvat automaattiseen Thema-luokitukseen. Parhaat mallit julkaistaan annif.org:issa (testipalvelu) ja pyydetään keskeisiltä käyttäjäryhmiltä palautetta (esim. Kirjavälitys Oy). Tämän jälkeen edetään kohdan AK3.1. mukaan, tarkoituksena Thema-luokituksen tarjoaminen Finto AI:n kautta.

AK1.5. Laatuseuranta Annif-käyttödatan pohjalta

Kerätään Finto AI:n rajapintapalvelua jo jonkin aikaa käyttäneistä järjestelmistä (alustavasti Kirjavälitys Oy, eKirjasto, JYX, muut DSpace-julkaisuarkistot) tiedot, joista käy ilmi Annifin antamat asiasanaehdotukset sekä kuvailijan valitsemat lopulliset asiasanat. Näitä (sekä soveltuvin osin mm. Fennican asiasanoja) vertailemalla tutkitaan, miten suuri osa Annifin ehdotuksista on päätynyt lopulliseen kuvailuun eri aikakausina ja eri mallisukupolvien aikana.

AK1.6. Tekstin esikäsittelymenetelmien vertailu

Tehdään vertailu, jonka tarkoituksena on selvittää, miten erilaiset esikäsittelymenetelmät (analyzer) soveltuvat Annifin eri algoritmien käyttöön. Vertailussa on mukana sekä Annifissa jo toteutettuja menetelmiä (simple, snowball, Voikko, spaCy) että mahdollisia tulevia (Lingsoftin työkalu, Stanza, TNPP?). Vertailu toteutetaan yhteistyössä Lingsoft Oy:n kanssa ja tulokset julkaistaan esimerkiksi Code4Lib Journalissa.

AK1.7. Vertailu dokumentin eri kieliversioiden vaikutuksesta automaattiseen sisällönkuvailuun

Jatketaan vuonna 2021 aloitettua selvitystyötä siitä, miten monikielisten dokumenttien osalta eri kieliversioiden tai konekäännöksen pohjalta tuotetun automaattisen sisällönkuvailun tulokset vertautuvat keskenään.

Konekäännöstyökaluja:

AK1.8. Synonyymien vaikutus automaattiseen sisällönkuvailuun

Selvitetään, voisiko YSO-pohjaisen automaattisen sisällönkuvailun laatua parantaa rikastamalla YSOa synonyymitermeillä, joita on poimittu olemassaolevista synonyymikorpuksista (esim. Kotuksen aineistot ja WordNet). YSOsta muodostetaan synonyymein rikastettu versio ja sitä käyttämällä koulutetaan leksikaalisia Annif-projekteja (esim. MLLM-algoritmilla), joiden laatua verrataan rikastamattomalla YSOlla saavutettuun laatutasoon.

AK1.9. Parannukset PDF-tiedostojen käsittelyssä

Selvitetään tapoja PDF-tiedostoista puretun raakatekstin käsittelyyn ja korjailuun (esim. kansilehden poisto,  tiivistelmän poiminta, rivityksen katkomien sanojen takaisin yhdistäminen) ja arvioidaan niiden vaikutusta automaattisen sisällönkuvailun laatuun. Tällaisia menetelmiä on kehitetty esim. Turun yliopiston ja KK:n kielimalli-projektin yhteydessä, ks. https://github.com/spyysalo/pdftools ja https://github.com/spyysalo/clean-pdf-extract. Rivityksen katkomien sanojen vaikutusta voidaan arvioida muodostamalla (yhtenäisten sanojen) testikorpuksesta versio, jossa sanoja katkotaan, ja vertaamalla siihen ja alkuperäiseen korpukseen perustuvan sisällönkuvailun tuloksia.

AK1.10. Annifin vertailu muihin vastaaviin työkaluihin

Jatketaan vuonna 2021 aloitettua työtä ja julkaistaan raportti, jossa vertaillaan Annifia muihin automaattisen sisällönkuvailun työkaluihin ja kaupallisiin tuotteisiin. Raportin tekemisessä hyödynnetään muita vastaavia selvityksiä, esimerkiksi Hollannin kansalliskirjaston raporttia, Ylen tekemää Leiki-Annif-vertailua, DNB:n Annif-Averbis-vertailua sekä Kavissa tehtyä työtä ja artikkelia.

AK2. Ohjelmisto- ja järjestelmäkehitys

AK2.1. Annifin tekninen kehitystyö

Jatketaan Annifin kehitystä ja julkaistaan säännöllisesti uusia Annif-työkalun versioita. Kehitystä tehdään ketterällä prosessilla, jota ohjaavat Annifin ja Finto AI:n käyttäjien toiveet sekä mallien kehityksestä nousevat tarpeet. Mahdollisia kehityskohteita ovat esimerkiksi:

  • web-käyttöliittymän ja REST-rajapinnan jatkokehitys lisäämällä niihin uusia toiminnallisuuksia (esim. kielentunnistus)
  • automaattinen suggest-kutsujen ohjaus oikealle projektille tunnistetun kielen perusteella
  • käsite-ehdotusten automaattinen poimiminen Annifille syötettävistä dokumenteista esim. Yake-algoritmin avulla
  • hyperparametrien optimoinnin laajentaminen koskemaan nykyistä useampia algoritmeja
  • suorituskyvyn parantaminen esimerkiksi rinnakkaisprosessointia hyödyntämällä
  • resurssikulutuksen vähentäminen esim. muistinkäyttöä optimoimalla
  • parempi yhteensopivuus Data Version Control -työkalujen kanssa (kts. AK2.4.)

AK2.2. Finto AI:n tekninen kehitystyö

Finto AI:n käyttöliittymäkoodia ja konfiguraatioinhallintaa varten perustetaan itsenäinen, julkinen GitHub-säilö, jonka Issues-osio toimii myös Finto AI:n kehityksen työjonona. Finto AI:n mahdollisia kehityskohteita ovat esimerkiksi:

  • mahdollisuus PDF-tiedostojen syöttöön (vedä-ja-pudota ja/tai latausvalikko)
  • kopiointinappuloiden jatkokehitys, esimerkiksi useiden ehdotusten kopiointi kerralla (kaikien tai erikseen valittujen) mm. Melinda-käyttöä ajatellen
  • uusien sanastojen (esim. YKL) vaatimat muutokset käyttöliittymään
  • saavutettavuusparannukset

AK2.3. Konttisovellusten vienti yliopiston OpenShift-ympäristöön

Finto AI ja Annifin koerajapinta (api.annif.org) on toteutettu Kansalliskirjaston Docker-konttialustan pohjalle. Vanhasta alustasta ollaan luopumassa vuoden 2022 aikana ja tilalle tulee HY:n Tietotekniikkakeskuksen ylläpitämä OpenShift-pohjainen konttialusta. Annifin ja Finto AI:n kontit on jo vuonna 2021 sovitettu OpenShift-alustaa varten ja testiasennukset ovat käytössä. Tuotantojärjestelmät siirretään uudelle alustalle ennen vanhan alasajoa.

AK2.4. Koneoppimismallien versionhallinnan ja automatisoinnin kehitys

Tutustutaan MLOps-menetelmään ja siihen liittyvään Data Version Control -työkaluun (DVC). Otetaan mahdollisuuksien mukaan käyttöön näiden mahdollistamat työnkulut koneoppimismallien koulutukseen, arviointiin ja vertailuun. Menetelmä mahdollistaa systemaattisemman mallien kehityksen ja vähentää käsityötä.

AK3. Automaattisen kuvailun palvelut

AK3.1. Finto AI:n sanastotuen laajentaminen

Laajennetaan Finto AI:ssa käytettävissä olevien sanastojen valikoimaa esimerkiksi YKL:llä, Themalla ja KAUNO-ontologialla sitä mukaa kuin näillä saavutetaan riittävän hyvä automaattisen sisällönkuvailun laatu. Uusista sanastoista tiedotetaan käyttäjille ja niihin liittyvä dokumentaatio lisätään Finton asiakaswikiin.

AK3.2. Säännölliset aineisto-, sanasto- ja mallipäivitykset

Huolehditaan siitä, että Finto AI:ssä on käytössä ajantasaiset sanastot ja mallit on koulutettu ja arvioitu mahdollisimman tuoreilla ja kattavilla aineistoilla, mukaan lukien tehtävän AK1.1 uudet aineistot. Tämän varmistamiseksi muodostetaan säännöllisesti uudet Finna-koulutusaineistot ja koulutetaan niiden pohjalta uudet mallit. Mallien laatu arvioidaan ennen niiden käyttöönottoa.

AK4. Automaattisen kuvailun edistäminen KK:n järjestelmissä

AK4.1. Annif kansallisen julkaisuperinnön kuvailussa -katsaus 

Tuotetaan katsaus siitä, miten Annifia jo käytetään kansallisen julkaisuperinnön kuvailussa. Katsaus jatkaa HPD-hankkeessa julkaistun ns. POC-raportin "Automaattisen kuvailun palvelun integroiminen Kansalliskirjaston järjestelmäkokonaisuuteen - tietovirrat ja prosessit" teemoja nykytilanteeseen perustuen. Katsaus julkaistaan esimerkiksi raporttina Doriassa tai artikkelina Tietolinjassa.

AK4.2. Automaattisen bibliografisen kuvailun testaus

Tutkitaan ja testataan automaattisen bibliografisen kuvailun ratkaisuja yhteistyössä Lingsoft Oy:n kanssa. Pyritään tunnistamaan tarkemmin ne prosessit KK:n sisällä, jotka hyötyisivät automatisoinnista eniten ja tehdään yhteistyötä niistä vastaavien tahojen kanssa. Kansainvälisessä yhteistyössä pidetään automaattisen biblografisen kuvailun asia esillä ja pyritään löytämään yhteistyömahdollisuuksia ja synergiaetuja.

AK4.3. Raportti automaattisesta bibliografisesta kuvailusta

Viimeistellään raportti automaattisen biblografisen kuvailun testauksesta ja mahdollisuuksista KK:n sisällä sekä kansainvälisestä mahdollisuuksista. Raportissa kartoitetaan ajankohtainen kansainvälinen tilanne sekä käsitellään automaattisen bibliografisen kuvailun ratkaisujen toimivuutta Kansalliskirjaston järjestelmissä.

AK5. Tapahtumat, koulutukset, viestintä ja verkostotyö

AK5.1. Automaattisen kuvailun verkosto

Automaattisen kuvailun verkoston toimintaan osallistutaan aktiivisesti. Pyritään tarvittaessa ylläpitämään ja koordinoimaan verkoston toimintaa.

AK5.2. Annif-koulutukset/tutorial

Annifin käytöstä on koostettu avoimesti saatavilla oleva koulutusmateriaali joka toimii itseopiskeltavana verkkokurssina (https://github.com/NatLibFi/Annif-tutorial). Verkkomateriaalia voidaan hyödyntää myös muissa yhteyksissä, esim. webinaareissa, erilaisten seminaarien yhteydessä, työpajoissa jne.

Uudistetaan tarpeen mukaan koulutusmateriaalia ja järjestetään materiaalin pohjalta Annif-koulutuksia sopivissa yhteyksissä, esim. konferenssien ohessa.

AK5.3. Finto AI:n maksullisen palvelun valmistelu

Jatketaan Finto-palvelun maksullisen palvelun mallin kehittämistä niin, että myös Finto AI:n ympärille voidaan tulevaisuudessa tarjota maksullisia palveluita sellaisille organisaatioille, jotka eivät ole OKM:n rahoituksen piirissä.

AK5.4. Annifin asiakaswikin ylläpito sekä yleinen tiedotus ja viestintä

Annifin viestintäsuunnitelman mukaisesti tiedotetaan uusista versioista, tapahtumista jne. s-postilistoilla, Twitterissä ja asiakaswikissä. Kolmikielinen (suomi, ruotsi, englanti) asiakaswiki pidetään ajan tasalla ja sen sisältö tarkistetaan. Annifin ja Finto AI:n viestintää koordinoidaan tarpeen mukaan Kansalliskirjaston viestintäyksikön sekä muiden palveluiden, esimerkiksi Finton ja Melindan kanssa. Annifia ja Finto AI:ta koskevia uutisia julkaistaan Kansalliskirjaston uutiskirjeissä sekä Finton mahdollisessa yleisessä uutiskatsauksessa. Osallistutaan myös tarpeen mukaan Melindan järjestämiin Talonmiehen tuokioihin.

AK5.5. Finto AI:n käyttöönottojen tukeminen

Tuetaan Finto AI:n käyttöönottoa eri järjestelmissä Kansalliskirjaston sisällä ja muissa organisaatioissa ilmenevien tarpeiden perusteella, esimerkiksi:

  • Edistetään Finto AI:n käyttöä Melinda-kuvailutyökalun (Aleph client) kanssa, esimerkiksi jatkokehittämällä web-käyttöliittymän kopiointinappuloita (kts. AK2.2) ja tiedottamalla Finto AI:sta Melinda-käyttäjille esim. Melindan talonmiestuokioissa. Osallistutaan myös seuraavan sukupolven Melindan suunnittelutyöhön automaattisen kuvailun osalta.
  • Tuetaan Finnan uusien suosittelutoiminnallisuuksien kehitystä, jossa voisi hyödyntää Finto AI:n antamia asiasanaehdotuksia.
  • Tuetaan ja edistetään automaattisen YKL-luokituksen hyödyntämistä Kansalliskirjastossa.
  • Järjestetään yhdessä Finton, Melindan ja mahdollisesti muiden ryhmien (esim. sisällönkuvailun asiantuntijaryhmä) kanssa koulutus Finto AI:n käytöstä sisällönkuvailutyössä. 
  • Tuetaan Finto AI:n itsenäistä käyttöä esim. opiskelijoiden keskuudessa tuottamalla Finto AI:n käyttöä koskevaa ohjeistusta yhdessä Sisällönkuvailun asiantuntijaryhmän kanssa

AK6. Tutkimusyhteistyö

Tähän työpakettiin on koottu yhteyksiä tutkimusprojekteihin, joissa hyödynnetään Annifia ja/tai Finto AI:ta. Joidenkin projektien osalta on vielä epävarmaa toteutuvatko ne, koska esimerkiksi rahoituspäätökset eivät ole vielä selvillä.

AK6.1. Arkkiveisut - "Vallattomat veisut tekoälyn tuomiolla"

"Kun Annifia on koulutettu tutkijoiden tuottamilla sanastoilla, Annifin annetaan tuottaa koneellisesti uutta kuvailevaa asiasanoitusta tuoreelle arkkiveisuaineistolle."

Syyskuussa 2020 lähetetty hankehakemus ei saanut rahoitusta. Mahdollista uutta hakemusta selvitetään yhdessä SKS:n kanssa ja se voitaisiin jättää vuoden 2022 aikana. Varsinainen työ alkaisi kuitenkin todennäköisesti aikaisintaan vuonna 2023.

AK6.2. DHL-FI

"This will be complemented by training and evaluating the adaptive Annif tool from NLF for initial automated genre classification and keyword augmentation."

Hakemus Suomen Akatemialle lähetetty syyskuussa 2021, päätöstä odotetaan maalis-huhtikuussa 2022. Hakemukseen sisältyy Annifin hyödyntämistä ja työ ajoittuu vuosille 2022-2026. Jos hanke toteutuu, tarvitaan tutkimushankkeen henkilöstölle neuvoja ja tukea Annifin käyttöön.

AK6.3. Yhteistyö Linné-yliopiston kanssa

Professori Koraljka Golubin Digital Humanities Initiative -tutkimusryhmä Linné-yliopistossa Ruotsissa on tutkinut pitkään automaattista sisällönkuvailua ja luokitusta, erityisesti laadun arvioinnin näkökulmasta. Yhteistyössä heidän kanssaan tutkitaan

  • Annifin soveltuvuutta Ruotsissa käytössä olevalle DDC-kirjastoluokitukselle (samankaltainen kuin YKL, joka pohjautuu DDC:hen)
  • Sanaston rakenteen (esim. termistön rikkaus, hierarkia, temaattiset ryhmät) vaikutusta automaattisen kuvailun laatuun

Työ kytkeytyy vahvasti muihin tehtäviin tässä suunnitelmissa.

AK6.4. CSC-yhteistyö ja NordTextAI-hanke

CSC:n kanssa toteutettu High-Performance Digitisation -hanke päättyi vuoden 2020 loppuun. Jatketaan yhteydenpitoa CSC:n koneoppimisasiantuntijoiden kanssa ja pyritään löytämään jatkorahoitusta saman tyyppiselle yhteistyöprojektille, esim. NeIC/Nordforsk kautta. Jatkohakemus NeIC:ille (NordTextAI) jätettiin maaliskuussa 2021, mutta se ei saanut rahoitusta. Pyritään tekemään uusi hakemus vuoden 2022 alussa.

  • No labels