Sisällysluettelo

Johdanto

Vuoden 2024 automaattisen kuvailun toimintasuunnitelma sisältää viisi suurempaa työpakettia, jotka on jaettu alakohtiin. Työpakettien päätavoitteet tiivistettynä automaattisen kuvailun ylläpito ja kehitystyö (sekä laadullinen että tekninen), viestintä ja sidosryhmätyö sekä tutkimusyhteistyö ja ideointi. Suunnitelma pyrkii ottamaan huomioon suurten kielimallien kehityksen sekä keskeisen ohjelmiston, Annifin, version 1.0 julkaisun syyskuussa 2023.

Keskeisimmät tavoitteet / prioriteetit 2024 sekä niiden yhteys työpaketteihin

  1. Automaattisen kuvailun, sekä automaattisen kuvailun palveluiden, laadun ylläpito ja kehitys hyödyntäen myös kielimalleja (AK1.1, AK1.4, AK1.5, AK2)
  2. Laajennetaan automaattista sisällönkuvailua mm. bibliografiseen kuvailuun sekä laajennetaan sanastotarjontaa (AK1.2, AK1.3)
  3. Edistetään automaattisen kuvailun käyttöönottoja sekä yhteistyötä aiheen ympärillä Suomessa ja maailmalla (AK4)

Työpaketit

AK1. Automaattisen kuvailun palvelun sisällöllinen jatkokehitys ja laadunvarmistus

AK1.1. Koulutus- ja arviointiaineistojen kerääminen ja päivittäminen

Annifin ja Finto AI:n ylläpito edellyttää säännöllisiä koneoppimismallien uudelleenkoulutuksia uusilla sanastoversioilla ja tuoreemmalla sekä päivitetyllä koulutusaineistolla. Lisäaineistoa kerätään mm. Finnasta. Annifin ja Finto AI:n jatkokehitys, ks. esim. työpaketit AK1.2.-1.5., edellyttää myös koulutusaineiston keräämistä.

Valmiin määritelmä: Säännölliset mallipäivityskierrokset on tehty YSO:n (https://finto.fi/yso/fi/) päivittymisen mukaan. Uusien sanastojen käyttöönottoa varten on kerätty tarvittava aineisto.

AK1.2. KOKO-ontologian käyttöönotto Finto AI:ssa

Kartoitetaan KOKO:n (https://finto.fi/koko/fi/) käyttäjien tarpeita automatisoinnille. Pyritään KOKO-ontologian käyttöönottoon Finto AI:ssa. Tätä varten tarvitaan koulutusaineistoa esim. YLE:ltä ja/tai museo- & arkistopuolelta. Järjetetään tapaamisia kiinnostuneiden tahojen ja potentiaalisten hyödyntäjien kesken.

Valmiin määritelmä: Tarvittavat kokoukset on järjestetty hyödyntäjätahojen kanssa. KOKO:n käyttäjien tarpeet autoamaatiolle on kartoitettu, tarvittava aineisto on kerätty ja KOKO-ontologiaa tarjotaan käyttöön vähintään kehityspalvelimella.

AK1.3. Automaattinen bibliografinen kuvailu

Kehitystyö ja menetelmien testaus jatkuu yhteistyössä esim. Norjan kansalliskirjaston kanssa. Metadatan poimimiseen julkaisuista voidaan käyttää kielimalleja. FinGreyLit-aineisto (https://github.com/NatLibFi/FinGreyLit) on kerätty tekoäly-/kielimallien kouluttamista varten juuri autom. bib. kuvailun tarpeisiin – tätä aineistoa voi täydentää ja jatkojalostaa.

  • FinGreyLit-aineiston jatkokehitys, esim. synkronointi julkaisuissa mainittuihin metatietoihin ja mahdollinen laajentaminen
  • arviointimenetelmien kehittäminen, jotta voidaan vertailla eri lähestymistapoja keskenään yhteistyössä Norjan kansalliskirjaston kanssa
  • eri menetelmien testaus, mm. Norjan kansalliskirjaston Meteor-työkalu ja kielimallipohjaiset lähestymistavat (sekä rajapintapalveluihin että paikallisiin kielimalleihin tukeutuen)
    • HY:n tarjoaman CurreChat-palvelun (ja Azure-instanssin) hyödyntämistä automaattisessa bibliografisessa kuvailussa tutkitaan.
  • PDF-tiedostojen rakenteen hyödyntäminen bibliografisten tietojen poiminnassa
  • tavoitteena Finto AI:n kaltaisen interaktiivisen työkalun ja/tai rajapintapalvelun kehittäminen, joka voidaan integroida esim. julkaisuarkistojärjestelmiin

Valmiin määritelmä: on kehitetty arviointikriteereitä eteenpäin ja testattu eri menetelmiä.

AK1.4. Kaunokirjallisuuden automaattisen sisällönkuvailun jatkokehitys

Kaunokirjallisuuden automaattisen sisällönkuvailun kehitys ja laadunvarmistus jatkuu. Tarkempia testejä tehdään kokotekstiaineistolla (e-vapaat tai digitoitu muu materiaali)

Valmiin määritelmä: Kaunokirjallisuuden kuvailua on testattu ja raportoitu kokotekstiaineistoa hyödyntäen.

AK1.5. YKL:n käytön jatkokehitys

Fennicassa valmistellaan luopumista (lähes) kokonaan UDK:sta ja siirtymistä systemaattiseen YKL:n käyttöön. Tämä tarkoittaa esim. sitä, että YKL:ää aletaan käyttää aiempaa enemmän myös tieteelliselle aineistolle. Tästä voi aiheutua kehitystarpeita myös Annifin / Finto AI:n YKL-malleille, jotka perustuvat tällä hetkellä aika pitkälti vain kirjaesittelyaineistoihin. Mahdollisesti siis tarvitaan Annifin YKL-mallien uudelleenkouluttamista uudentyyppisellä aineistolla.

Valmiin määritelmä: jatkokehitystarpeet on vähintään tunnistettu, tehty kehitystyö on raportoitu.

AK1.6. Kuntien e-kirjaston tarpeet

Kuntien e-kirjasto aloittaa toimintansa Kansalliskirjastossa alkuvuodesta 2024. Selvitetään, tarvitseeko uusi yksikkö toiminnassaan automaattista kuvailua, missä määrin ja millä tavalla. Kuvailua saadaan aika paljon valmiinakin, mutta aiemmin e-kirjastossa autom. kuvailua on hyödynnetty engl. kielisen aineiston kohdalla. Lisäksi tutkitaan, onko e-kirjastolla muita tarpeita, joihin voisimme vastata, metatiedon laadun parantaminen voisi olla yksi kohde.

Valmiin määritelmä: Kuntien e-kirjaston tarpeet on vähintään tunnistettu.

AK2. Ohjelmisto- ja järjestelmäkehitys sekä ylläpito

AK2.1. Annifin tekninen kehitystyö

Jatketaan Annifin kehitystä ja julkaistaan säännöllisesti uusia Annif-työkalun versioita. Kehitystä tehdään ketterällä prosessilla, jota ohjaavat Annifin ja Finto AI:n käyttäjien toiveet sekä mallien kehityksestä nousevat tarpeet. Kehityksessä huomioidaan Annifin version 1.0 julkaisun jälkeen erityisesti taaksepäin yhteensopivuus. Mahdollisia kehityskohteita ovat esimerkiksi:

  • uusien algoritmien kehitys ja integrointi osaksi Annifia
  • joustavuutta sanastojen käyttöön, esim. mahdollisuus sulkea pois käsitteitä tai yhdistellä osasanastoja
  • Reconciliation APIn toteutus/jatkokehitys
  • hyperparametrien optimoinnin mahdollisuus useampiin algoritmeihin
  • suorituskykyoptimoinnin mahdollisuuksien ja potentiaalin tutkiminen
  • ohjelmiston päivittäinen ylläpito, esim. yhteensopivuuden säilyttäminen ja tietoturvan varmistaminen

AK2.2. Finto AI:n tekninen kehitystyö

Finto AI:n käyttöliittymäkoodia varten on olemassa itsenäinen, julkinen GitHub-säilö (https://github.com/NatLibFi/FintoAI), jonka Issues-osio toimii myös Finto AI:n kehityksen työjonona. Finto AI:n mahdollisia kehityskohteita ovat esimerkiksi:

  • kopiointipainikkeiden jatkokehitys, esimerkiksi ehdotusten kopiointi myös Alma-ympäristöön
  • valvontatoimintojen kehitys vikatilanteiden ja suorituskykyongelmien havaitsemiseksi
  • palvelun toiminnan yleinen ylläpito, esim. yhteensopivuuden säilyttäminen ja tietoturvan varmistaminen

AK2.3. Laskentainfrastruktuuri

Algoritmilaskentaan käyttämämme palvelimen elinkaari päättyy vuoden 2024 aikana ja sen käytölle on löydettävä korvaava ratkaisu. Myös kielimalleihin liittyvä toiminta edellyttää laskentaresursseja, erityisesti GPU-laskentaa. Selvitetään eri vaihtoehtoja riittävän laskentakapasiteetin valmistamiseen joko omilla laitteistohankinnoilla, Helsingin yliopiston suurteholaskentaympäristöä hyödyntämällä, CSC-yhteistyön kautta tai pilvipalvelun tyyppisillä ratkaisuilla. Tarvittaessa on ostettava lisenssejä pilvipalveluihin.

Valmiin määritelmä: Laskentapalvelin on korvattu uudella ratkaisulla. Kielimallien parissa tehtävä työ onnistuu. Tarvittava raportointi on tehty.

AK2.4. Kielimallien hyödyntäminen Annifin tuottamassa automaattisessa kuvailussa

Selvitetään mahdollisuuksia kehittää kielimalleihin perustuvia automaattisen sisällönkuvailun menetelmiä ja testataan niistä lupaavimpia, esimerkiksi XR-Transformer (Pecos) josta on jo olemassa ZBW:n kehittämä alustava Annif-backend-toteutus, sekä HuggingFacen SetFit, joka saattaisi sopia automaattiseen monikieliseen luokitteluun. Hyödynnetään tässä työssä HY:n tarjoamia suurteholaskennan palveluita, ks. https://wiki.helsinki.fi/x/wxkaDg.

Valmiin määritelmä: kielimalleilla on tehty kokeita automaattiseen kuvailuun liittyen. Niiden soveltuvuus käytännön työhön on selvitetty ja raportoitu.

AK3. Testit ja kokeilut

Työpaketti sisältää mielenkiintoisia ja hyödyllisiä ideoita sekä ideoita, joita voidaan toteuttaa resurssien salliessa. Työpaketin sisältö voi muuttua tai tarkentua ja osatyöpaketteja voi tulla lisää vuoden aikana.

Työpaketin yleinen valmiin määritelmä: Mielenkiitoisia ideoita ja niiden toteuttamista on tutkittu ja raportoitu (esim. esitys, artikkeli, blogikirjoitus).

AK3.1. Monikielisyyden tuki

Kielimallien yleinen kehitys mahdollistaa saman esim. luokittelussa käytettävän algoritmin toiminnan usealla kielellä (ks. AK 2.4.). Voidaan selvittää tämän toiminnallisuuden soveltuvuutta ja verrata sen suorituskykyä esim. konekäännettyjen dokumenttien asiasanoitukseen.

Valmiin määritelmä: Verrattu useita mahdollisia ratkaisuja monikieliseen asiasanoitukseen ja/tai luokitteluun ja tulokset on raportoitu.

AK3.2. Saamen kielet

Saamen kielten automaattisen kuvailun mahdollisuuksien ja tarpeiden kartoittamista jatketaan yhteistyössä Saamelaiskielten tuki digitaalisissa palveluissa -hankkeen kanssa. Mahdollisesti voidaan olla yhteydessä Norjan kansalliskirjastoon myös Saamen kieliin liittyvän kieliteknologisen kehitystyön jne. tiimoilta.

Valmiin määritelmä: Saamelaiskielten tuki digitaalisissa palveluissa -hankkeen etenemistä ja saamenkielisen kieliteknologian kehitystä seurattu. Osallistuminen tarvittaessa.

AK3.3. Tekoälymallien julkaisu

Selvitetään mahdollisuuksia ja hyötyjä Annif-mallien ja niiden koulutusaineistojen julkaisusta Hugging Face -palvelussa. Mahdollisia julkaisuja varten voidaan perustaa palveluun Kansalliskirjaston organisaatiotili.

Valmiin määritelmä: selvitys on tehty ja mallien julkaisu suunniteltu, mikäli selvitys sitä puoltaa.

AK3.4. Nimettyjen entiteettien tunnistus ja linkitys

Selvitetään tarpeita ja mahdollisuuksia tarjota palvelua nimettyjen entiteettien tunnistukseen (NER) ja linkitykseen (NEL) käyttäen esim. TurkuNLP:n työkalua.

Valmiin määritelmä: selvitys on tehty ja NER:in ja NEL:in käyttöön syvennytty.

AK4. Tapahtumat, koulutukset, viestintä ja verkostotyö

AK4.1. Automaattisen kuvailun verkosto

Tuetaan automaattisen kuvailun verkoston toimintaa, tarvittaessa ylläpitäen ja koordinoiden. Tuetaan eritysesti verkoston itseohjautuvuutta ja järjestetään tilanteen salliessa myös läsnätapahtumia. Verkoston toimintaa kehitetään yhdessä mm. Sisällönkuvailun asiantuntijaryhmän kanssa. Pyritään saamaan mukaan kuvailutyötä tekeviä henkilöitä ja uusia organisaatioita.

Valmiin määritelmä: Verkoston puitteissa on järjestetty vähintään kaksi tapaamista, ja sen toiminnan jatkoa on suunniteltu.

AK4.2. Annif-esitykset, -koulutukset ja -tutorial

Annifin käytöstä on yhdessä ZBW:n kanssa koostettu avoimesti saatavilla oleva koulutusmateriaali, joka toimii itseopiskeltavana verkkokurssina (https://github.com/NatLibFi/Annif-tutorial). Verkkomateriaalia voidaan hyödyntää myös muissa yhteyksissä, esim. webinaareissa, erilaisten seminaarien yhteydessä, työpajoissa jne. Uudistetaan tarpeen mukaan koulutusmateriaalia. Järjestetään kotimaiselle yleisölle koulutusta Finto AI:sta ja sen käytöstä. Annif-tutorialin verkkomateriaalia pidetään yllä, harkitaan Annif-koulutuksia sopivissa yhteyksissä ja toteutetaan niitä tarpeen mukaan. Pidetään mahdollisuuksien mukaan tutoriaali vuoden 2024 virtuaalisessa SWIB-konferenssissa. Annif-tutoriaalia on tarjottu pidettäväksi myös Open Repositories -konferenssiin (Göteborg 3.-6.6.2024)

Valmiin määritelmä: ainakin jotkut tilaisuudet ovat toteutuneet sunnitellusti.

AK4.3. Tekoäly-yhteistyö kulttuuriperintöorganisaatioissa

Osallistutaan tekoälykahveille, jotta pysytään ajan tasalla kultturiperintöorganisaatioiden tekoälyprojekteista. Esiinnytään itse tarvittaessa. Osallistutaan myös muuhun kulttuuriperintöorganisaatioiden tekoäly-yhteistyöhön ja -tapahtumiin.

Valmiin määritelmä: tekoälykahveille on osallistuttu.

AK4.4. Annifin asiakaswikin ylläpito sekä yleinen tiedotus ja viestintä

Annifin viestintäsuunnitelman mukaisesti tiedotetaan uusista versioista, tapahtumista jne. s-postilistoilla, X:ssä (ent. Twitter) ja asiakaswikissä. Kolmikielinen (suomi, ruotsi, englanti) asiakaswiki pidetään ajan tasalla. Annifin ja Finto AI:n viestintää koordinoidaan tarpeen mukaan Kansalliskirjaston viestintäyksikön sekä muiden palveluiden, esimerkiksi Finton ja Melindan kanssa. Osallistutaan kvp-some -ryhmän toimintaan, joka auttaa sosiaalisen median viestinnän tuottamisessa ja koordinoinnissa.  Annifia ja Finto AI:ta koskevia uutisia julkaistaan Kansalliskirjaston uutiskirjeissä sekä Finton mahdollisessa yleisessä uutiskatsauksessa. Osallistutaan myös tarpeen mukaan Melindan järjestämiin Talonmiehen tuokioihin. Viestipalvelu X:n ja muiden sosiaalisen median palveluiden suhteen seurataan Kansalliskirjaston yleisiä linjauksia. Osallistutaan myös Kansalliskirjaston käyttäjäkyselyyn.

Valmiin määritelmä: Tiedotus on hoidettu viestintäsuunnitelman mukaisesti. Asiakaswiki ja verkkosivut ovat ajan tasalla.

AK4.5. Annifin keskeisten käyttäjien kansainvälinen tapaaminen

Tapaamisen ideana on koota mahdollisimman monta suurta kansainvälistä Annifin käyttäjätahoa yhteen, tavoitteena synergiaetujen luominen, tiedon välittäminen ja keskustelu. Tapaaminen voidaan pyrkiä järjestämään esim. SWIB:in yhteydessä ZBW:n avustamana, tarvittaessa virtuaalisena.

Valmiin määritelmä: Tapaaminen on järjestetty

AK4.6. Finto AI:n käytön tukeminen, edistäminen ja yhteistyö kirjastokentän kanssa

Tuetaan Finto AI:n käyttöönottoa eri järjestelmissä Kansalliskirjaston sisällä ja muissa organisaatioissa ilmenevien tarpeiden perusteella, esimerkiksi:

  • Edistetään Finto AI:n käyttöä Melinda-kuvailutyökalun (Aleph client) sekä Alman kanssa, esimerkiksi jatkokehittämällä web-käyttöliittymän kopiointinappuloita (kts. AK2.2.) ja tiedottamalla Finto AI:sta Melinda-käyttäjille esim. Melindan talonmiestuokioissa. Osallistutaan myös seuraavan sukupolven Melindan suunnittelutyöhön automaattisen kuvailun osalta.
  • Tuetaan Finnan uusien suosittelutoiminnallisuuksien kehitystä, jossa voisi hyödyntää Finto AI:n antamia asiasanaehdotuksia (ks. myös MeSH on Demand).
  • Tuetaan Finto AI:n itsenäistä käyttöä esim. opiskelijoiden keskuudessa ja ylläpidetään Finto AI:n käyttöopasta.
  • Finto AI:n maksullisen palvelun malli on valmiina, jos sitä tarvitaan.

AK4.7.  Finto AI:n esittelyvideo

Tuotetaan uusi Finto AI:n esittelyvideo, jossa esitellään myös uudet käyttöliittymän ominaisuudet (esim. tiedoston lataus).

Valmiin määritelmä: Video on julkaistu ja siitä on tiedotettu

AK4.8. Johdatustilaisuus Finto AI:n käytöstä

Järjestetään yhdessä Finton, Melindan ja mahdollisesti muiden ryhmien (esim. sisällönkuvailun asiantuntijaryhmä) kanssa johdatustilaisuus Finto AI:n käytöstä sisällönkuvailutyössä. 

Valmiin määritelmä: Tilaisuus on järjestetty

AK4.9. Kysely Finto AI:n käytöstä

Toteutetaan oma käyttäjäkysely Finto AI:n ja/tai Annifin nykyisestä käytöstä ja tarpeista.

Valmiin määritelmä: Kysely on tehty, tulokset on analysoitu ja raportoitu

AK5. Tutkimusyhteistyö

Tähän työpakettiin on koottu tutkimusprojekteja, joilla on yhteyksiä automaattiseen kuvailuun ja/tai Annifiin & Finto AI:hin. Joidenkin projektien tai yhteistyösuunnitelmien osalta on vielä epävarmaa toteutuvatko ne, koska esimerkiksi rahoituspäätökset eivät ole vielä selvillä tai suunnitelmat tarkentuvat vielä. Vuoden aikana kartoitetaan muita mahdollisuuksia tutkimusyhteistyöhön.

AK5.1. DHL-FI

Suomen Akatemian rahoittamaan projektiin Digitaaliset menetelmät kotimaisen kirjallisuushistorian uudistajina (DHL-FI) sisältyy Annifin hyödyntämistä, työ ajoittuu vuosille 2022-2026. Hankkeessa mm. sovelletaan Annifia digitoidulle 1800-luvun kaunokirjallisuudelle. Käytännössä hallinnollisen työn lisäksi tarvitaan tutkimushankkeen henkilöstölle neuvoja ja tukea Annifin käyttöön sekä muuhun tutkimustyöhön osallistumista.

AK5.2. Yhteistyö ZBW:n ja DNB:n kanssa

Saksan taloustieteen kansalliskirjasto ZBW sekä Saksan kansalliskirjasto DNB ovat olleet yhteistyökumppaneitamme pitkään sekä Annifin merkittäviä käyttäjätahoja. Jatketaan tiivistä yhteydenpitoa heidän kanssaan ja pyritään edistämään yhteisiä päämääriä, mm. Annif-tutorialin, algoritmien ja automaattisen sisällönkuvailun prosessien kehittämistä.

AK5.3. Yhteistyö Linné-yliopiston kanssa

Linné-yliopistossa Ruotsissa opetetaan ja tutkitaan automaattista sisällönkuvailua. Heidän kanssaan on tehty yhteistyötä mm. webinaarien muodossa. Yhteistyömahdollisuuksia ovat mm.

AK5.4. Yhteistyö TurkuNLP:n kanssa

TurkuNLP-tutkimusryhmä kehittää mm. suomenkielisiä GPT- ja Poro-kielimalleja. Heidän osaamistaan pyritään hyödyntämään työpaketeissa, joissa tarvitaan kielimalleja. TurkuNLP puolestaan on toivonut Kansalliskirjastolta lisää aineistoa kielimallien kouluttamiseen.

AK5.5. Yhteistyö Viron kansalliskirjaston kanssa

Viron kansalliskirjasto edistää EU-rahoituksella automaattista kuvailua ja tekoälyn käyttöä. Osallistutaan ja tehdään yhteistyötä tarpeen vaatiessa.

  • No labels