Kerätään yleisten kirjastojen eri järjestelmistä (alustavasti Kirjasampo ja Kirjastokaista) sekä julkaisuarkistoista automaattisen sisällönkuvailun testaukseen soveltuvia aineistoja ja muunnetaan ne Annif-korpuksiksi, jotta voidaan kokeilla niiden pohjalta, miten hyvin Annifin algoritmit soveltuvat näille aineistoille tehtävissä AK1.2-1.4 sekä AK4.1.
Kerätään KAUNO-ontologialla kuvailtuja kaunokirjallisuusaineistoja eri bibliografisista tietokannoista (esim. Finna, Melinda) ja niihin liittyviä tekstiaineistoja (esim. Kirjavälityksen esittelytekstit, Kirjasampo, e-vapaakappaleet). Näistä muodostetaan Annif-korpukset, joilla kokeillaan, miten hyvin Annifin algoritmit soveltuvat kaunokirjallisuuden automaattisen sisällönkuvailuun. Parhaat mallit julkaistaan annif.org:issa (testipalvelu) ja pyydetään keskeisiltä käyttäjäryhmiltä palautetta (esim. yleiset kirjastot). Tämän jälkeen edetään kohdan AK3.1. mukaan, tarkoituksena KAUNO-sisällönkuvailun tarjoaminen Finto AI:n testipalvelun ai.dev.finto.fi:n kautta.
Jatketaan automaattisen YKL-luokituksen testausta ja kehittämistä. Koulutetaan mallit uusimman YKL:n perusteella niillä aineistoilla, jotka tarkoitukseen soveltuvat (Kirjavälitys Oy:n kirjaesittelyt, Makupalat). Parhaat mallit on julkaistu annif.org:issa ja ai.dev.finto.fi:ssä (testipalvelu) ja pyydetään keskeisiltä käyttäjäryhmiltä palautetta (sisällönkuvailun asiantuntijaryhmä, YKL-ryhmä, Kirjastopalvelu). Tämän jälkeen edetään kohdan AK3.1. mukaan, tarkoituksena YKL-luokituksen tarjoaminen Finto AI:n kautta.
Kirjavälitys Oy on toimittanut kirjaesittelyaineiston, jossa on Thema-luokkia sekä itse Thema-luokituksen. Nämä on jo vuonna 2021 muunnettu Annifille sopivaan korpusmuotoon. Vuoden 2022 aikanaon kokeiltu, miten hyvin Annifin algoritmit soveltuvat automaattiseen Thema-luokitukseen. Parhaat mallit on julkaistu annif.org:issa. Tänä vuonna kerätään palautetta keskeisiltä käyttäjäryhmiltä (esim. Kirjavälitys Oy). Tämän jälkeen edetään kohdan AK4.1. mukaan, tarkoituksena Thema-luokituksen tarjoaminen testipalvelun ai.dev.finto.fi:n kautta.
Jatketaan Annifin kehitystä ja julkaistaan säännöllisesti uusia Annif-työkalun versioita. Kehitystä tehdään ketterällä prosessilla, jota ohjaavat Annifin ja Finto AI:n käyttäjien toiveet sekä mallien kehityksestä nousevat tarpeet. Mahdollisia kehityskohteita ovat esimerkiksi:
Finto AI:n käyttöliittymäkoodia ja konfiguraatioinhallintaa varten on olemassa itsenäinen, julkinen GitHub-säilö, jonka Issues-osio toimii myös Finto AI:n kehityksen työjonona. Finto AI:n mahdollisia kehityskohteita ovat esimerkiksi:
Uusitaan virtuaalipalvelimia, joiden käyttöjärjestelmä vanhenee keväällä 2023. Valmistaudutaan myös uusimaan automaattisen kuvailun projektin käytössä oleva kehityspalvelin, jonka käyttöikä päättyy vuonna 2024.
Työpaketti sisältää mielenkiintoisia ja hyödyllisiä ideoita, joita voidaan toteuttaa resurssien salliessa.
Kerätään Finto AI:n rajapintapalvelua jo jonkin aikaa käyttäneistä järjestelmistä (alustavasti Kirjavälitys Oy, eKirjasto, JYX, muut DSpace-julkaisuarkistot) tiedot, joista käy ilmi Annifin antamat asiasanaehdotukset sekä kuvailijan valitsemat lopulliset asiasanat. Näitä (sekä soveltuvin osin mm. Fennican asiasanoja) vertailemalla tutkitaan, miten suuri osa Annifin ehdotuksista on päätynyt lopulliseen kuvailuun eri aikakausina ja eri mallisukupolvien aikana.
Jatketaan vuonna 2021 aloitettua selvitystyötä siitä, miten monikielisten dokumenttien osalta eri kieliversioiden tai konekäännöksen pohjalta tuotetun automaattisen sisällönkuvailun tulokset vertautuvat keskenään.
Konekäännöstyökaluja:
Selvitetään, voisiko YSO-pohjaisen automaattisen sisällönkuvailun laatua parantaa rikastamalla YSOa synonyymitermeillä, joita on poimittu olemassaolevista synonyymikorpuksista (esim. Kotuksen aineistot ja WordNet). YSOsta muodostetaan synonyymein rikastettu versio ja sitä käyttämällä koulutetaan leksikaalisia Annif-projekteja (esim. MLLM-algoritmilla), joiden laatua verrataan rikastamattomalla YSOlla saavutettuun laatutasoon.
Selvitetään tapoja PDF-tiedostoista puretun raakatekstin käsittelyyn ja korjailuun (esim. kansilehden poisto, tiivistelmän poiminta, rivityksen katkomien sanojen takaisin yhdistäminen) ja arvioidaan niiden vaikutusta automaattisen sisällönkuvailun laatuun. Tällaisia menetelmiä on kehitetty esim. Turun yliopiston ja KK:n kielimalli-projektin yhteydessä, ks. https://github.com/spyysalo/pdftools ja https://github.com/spyysalo/clean-pdf-extract. Rivityksen katkomien sanojen vaikutusta voidaan arvioida muodostamalla (yhtenäisten sanojen) testikorpuksesta versio, jossa sanoja katkotaan, ja vertaamalla siihen ja alkuperäiseen korpukseen perustuvan sisällönkuvailun tuloksia.
Toteutetaan yhteistyössä Saamelaiskielten tuki digitaalisissa palveluissa -hankkeen kanssa. Kerätään materiaalia ja tutkitaan mahdollisuuksia saamenkielisten materiaalien automaattiseen kuvailuun.
SWIB22-konferenssissa oli hyvä esitys siitä, miten monikielistä BERT-mallia oli käytetty automaattiseen luokitukseen. GitHubissa on X-Transformer (tai oikeastaan XR-Transformer) backendista PR, jota voi vielä katsoa. Pyritään hyödyntämään tässä työssä HY:n tarjoamia suurteholaskennan palveluita https://wiki.helsinki.fi/x/wxkaDg.
Laajennetaan Finto AI:ssa käytettävissä olevien sanastojen valikoimaa esimerkiksi YKL:llä, Themalla ja KAUNO-ontologialla sitä mukaa kuin näillä saavutetaan riittävän hyvä automaattisen sisällönkuvailun laatu. Uusista sanastoista tiedotetaan käyttäjille ja niihin liittyvä dokumentaatio lisätään Finton asiakaswikiin.
Huolehditaan siitä, että Finto AI:ssä on käytössä ajantasaiset sanastot ja mallit on koulutettu ja arvioitu mahdollisimman tuoreilla ja kattavilla aineistoilla, mukaan lukien tehtävän AK1.1 uudet aineistot. Tämän varmistamiseksi muodostetaan säännöllisesti uudet Finna-koulutusaineistot ja koulutetaan niiden pohjalta uudet mallit. Mallien laatu arvioidaan ennen niiden käyttöönottoa.
Finton, eristyisesti finto.fi -sivuston visuaalinen ilme uudistuu vuoden 2023 aikana. Muutokset heijastuvat myös Finto AI:hin. Laadulliset muutokset suunnittellaan yhdessä Finton ja ulkopuolisen graafisen suunnitteljan (Hahmo Design Oy) kanssa ja niiden vaatima tekninen toteutus sisältyy työpakettiin AK2.2.
Tutkitaan ja testataan automaattisen bibliografisen kuvailun ratkaisuja mahdollisessa yhteistyössä Lingsoft Oy:n kanssa. Pyritään tunnistamaan tarkemmin ne prosessit KK:n sisällä, jotka hyötyisivät automatisoinnista eniten ja tehdään yhteistyötä niistä vastaavien tahojen kanssa. Kansainvälisessä yhteistyössä pidetään automaattisen biblografisen kuvailun asia esillä ja pyritään löytämään yhteistyömahdollisuuksia ja synergiaetuja.
Automaattisen kuvailun verkoston toimintaan osallistutaan aktiivisesti. Pyritään tarvittaessa ylläpitämään ja koordinoimaan verkoston toimintaa. Pyrkimys on myös lisätä verkoston itseohjautuvuutta ja järjestää tilanteen salliessa myös läsnätapahtumia.
Annifin käytöstä on yhdessä ZBW:n kanssa koostettu avoimesti saatavilla oleva koulutusmateriaali joka toimii itseopiskeltavana verkkokurssina (https://github.com/NatLibFi/Annif-tutorial). Verkkomateriaalia voidaan hyödyntää myös muissa yhteyksissä, esim. webinaareissa, erilaisten seminaarien yhteydessä, työpajoissa jne. Uudistetaan tarpeen mukaan koulutusmateriaalia ja järjestetään materiaalin pohjalta Annif-koulutuksia sopivissa yhteyksissä, esim. konferenssien ohessa.
Kirjastoverkkopäivillä 2023 pyritään järjestämään työpaja kaunokirjallisuuden automaattisesta kuvailusta. Kaunokirjallisuuden automaattista kuvailua käsittelevä työpaja järjestetään interaktiivisena ja osallistujilta kerätään palautetta automaattisesti tuotetun kuvailun laadusta. Mikäli em. kaltaisen työpajan järjestäminen ei syystä tai toisesta onnistu, voidaan Kirjastoverkkopäiville tarjota myös vaikkapa Annifin käyttökoulutusta perustuen esimerkiksi Annif-tutoriaaliin, ks. työpaketti 6.2.
Jatketaan Finto-palvelun maksullisen palvelun mallin kehittämistä niin, että myös Finto AI:n ympärille voidaan tulevaisuudessa tarjota maksullisia palveluita sellaisille organisaatioille, jotka eivät ole OKM:n rahoituksen piirissä. Alustava suunnitelma on valmis. Odotellaan ilmeneekö kiinnostusta, ei markkinoida maksullisen palvelun mallia kovin aktiivisesti.
Annifin viestintäsuunnitelman mukaisesti tiedotetaan uusista versioista, tapahtumista jne. s-postilistoilla, Twitterissä ja asiakaswikissä. Kolmikielinen (suomi, ruotsi, englanti) asiakaswiki pidetään ajan tasalla ja sen sisältö tarkistetaan. Annifin ja Finto AI:n viestintää koordinoidaan tarpeen mukaan Kansalliskirjaston viestintäyksikön sekä muiden palveluiden, esimerkiksi Finton ja Melindan kanssa. Annifia ja Finto AI:ta koskevia uutisia julkaistaan Kansalliskirjaston uutiskirjeissä sekä Finton mahdollisessa yleisessä uutiskatsauksessa. Osallistutaan myös tarpeen mukaan Melindan järjestämiin Talonmiehen tuokioihin.
Tuetaan Finto AI:n käyttöönottoa eri järjestelmissä Kansalliskirjaston sisällä ja muissa organisaatioissa ilmenevien tarpeiden perusteella, esimerkiksi:
Tähän työpakettiin on koottu yhteyksiä tutkimusprojekteihin, joissa hyödynnetään Annifia ja/tai Finto AI:ta. Joidenkin projektien osalta on vielä epävarmaa toteutuvatko ne, koska esimerkiksi rahoituspäätökset eivät ole vielä selvillä. Kartoitetaan muita mahdollisuuksia tutkimusyhteistyöhön.
Suomen Akatemian rahoittamaan projektiin sisältyy Annifin hyödyntämistä, työ ajoittuu vuosille 2022-2026. Hankkeessa mm. sovelletaan Annifia digitoidulle 1800-luvun kaunokirjallisuudelle. Käytännössä hallinnollisen työn lisäksi tarvitaan tutkimushankkeen henkilöstölle neuvoja ja tukea Annifin käyttöön sekä muuhun tutkimustyöhön osallistumista.
CSC:n kanssa toteutettu High-Performance Digitisation -hanke päättyi vuonna 2020. Tämän hankkeen inspiroima jatkohakemus NeIC:ille (NordTextAI) jätettiin maaliskuussa 2021, mutta se ei saanut rahoitusta. Uusi hakemus tehtiin vuoden 2022 alussa. Helmikuussa 2023 NeIC tiedotti, että rahoitusta ei voida myöntää millekään hankkeelle johtuen NordForskin tilanteesta. Jatketaan joka tapauksessa yhteydenpitoa CSC:n koneoppimisasiantuntijoiden kanssa ja pyritään löytämään jatkorahoitusta saman tyyppiselle yhteistyöprojektille mikäli mahdollista.
Olemme tehneet paljon yhteistyötä ZBW:n (Leibniz Information Centre for Economics, Saksan taloustieteen kansalliskirjasto) kanssa aiemmin. ZBW:n asiantuntijat ovat mm. osallistuneet Annifin kehitystyöhön sekä Annif-tutoriaalin koostamiseen. Mahdollisuuksien mukaan tätä yhteistyötä jatketaan ja kehitetään tuleavaisuudessakin.
CENL:n (eurooppalaisten kansalliskirjastojen yhteistyöelin) AI-työryhmä on 2 vuoden aikana tehnyt mm. raportin kirjastojen AI-ratkaisuista, kokoelman AI-reseptejä eri käyttötarkoituksiin sekä Awesome AI in Libraries -listan. Annifkin on joissain näissä mainittu. Ryhmän uusi toimikausi alkaa 2023. Seurataan ryhmän toimintaa ja osallistutaan siihen mahdollisuuksien mukaan.