Sisällysluettelo
Johdanto
Vuoden 2024 automaattisen kuvailun toimintasuunnitelma sisältää viisi suurempaa työpakettia, jotka on jaettu alakohtiin. Työpakettien päätavoitteet tiivistettynä automaattisen kuvailun ylläpito ja kehitystyö (sekä laadullinen että tekninen), viestintä ja sidosryhmätyö sekä tutkimusyhteistyö ja ideointi. Suunnitelma pyrkii ottamaan huomioon suurten kielimallien kehityksen sekä keskeisen ohjelmiston, Annifin, version 1.0 julkaisun syyskuussa 2023.
Keskeisimmät tavoitteet / prioriteetit 2024 sekä niiden yhteys työpaketteihin
- Automaattisen kuvailun, sekä automaattisen kuvailun palveluiden, laadun ylläpito ja kehitys hyödyntäen myös kielimalleja (AK1.1, AK1.4, AK1.5, AK2)
- Laajennetaan automaattista sisällönkuvailua mm. bibliografiseen kuvailuun sekä laajennetaan sanastotarjontaa (AK1.2, AK1.3)
- Edistetään automaattisen kuvailun käyttöönottoja sekä yhteistyötä aiheen ympärillä Suomessa ja maailmalla (AK4)
Työpaketit
AK1. Automaattisen kuvailun palvelun sisällöllinen jatkokehitys ja laadunvarmistus
AK1.1. Koulutus- ja arviointiaineistojen kerääminen ja päivittäminen
Annifin ja Finto AI:n ylläpito edellyttää säännöllisiä koneoppimismallien uudelleenkoulutuksia uusilla sanastoversioilla ja tuoreemmalla sekä päivitetyllä koulutusaineistolla. Lisäaineistoa kerätään mm. Finnasta. Annifin ja Finto AI:n jatkokehitys, ks. esim. työpaketit AK1.2.-1.5., edellyttää myös koulutusaineiston keräämistä.
Valmiin määritelmä: Säännölliset mallipäivityskierrokset on tehty YSO:n (https://finto.fi/yso/fi/) päivittymisen mukaan. Uusien sanastojen käyttöönottoa varten on kerätty tarvittava aineisto.
AK1.2. KOKO-ontologian käyttöönotto Finto AI:ssa
Kartoitetaan KOKO:n (https://finto.fi/koko/fi/) käyttäjien tarpeita automatisoinnille. Pyritään KOKO-ontologian käyttöönottoon Finto AI:ssa. Tätä varten tarvitaan koulutusaineistoa esim. YLE:ltä ja/tai museo- & arkistopuolelta. Järjetetään tapaamisia kiinnostuneiden tahojen ja potentiaalisten hyödyntäjien kesken.
Valmiin määritelmä: Tarvittavat kokoukset on järjestetty hyödyntäjätahojen kanssa. KOKO:n käyttäjien tarpeet autoamaatiolle on kartoitettu, tarvittava aineisto on kerätty ja KOKO-ontologiaa tarjotaan käyttöön vähintään kehityspalvelimella.
AK1.3. Automaattinen bibliografinen kuvailu
Kehitystyö ja menetelmien testaus jatkuu yhteistyössä esim. Norjan kansalliskirjaston kanssa. Metadatan poimimiseen julkaisuista voidaan käyttää kielimalleja. FinGreyLit-aineisto (https://github.com/NatLibFi/FinGreyLit) on kerätty tekoäly-/kielimallien kouluttamista varten juuri autom. bib. kuvailun tarpeisiin – tätä aineistoa voi täydentää ja jatkojalostaa.
- FinGreyLit-aineiston jatkokehitys, esim. synkronointi julkaisuissa mainittuihin metatietoihin ja mahdollinen laajentaminen
- arviointimenetelmien kehittäminen, jotta voidaan vertailla eri lähestymistapoja keskenään yhteistyössä Norjan kansalliskirjaston kanssa
- Tätä yhteistyöta varten on jo perustettu GitHub-säilö (https://github.com/NationalLibraryOfNorway/metametrics)
- Tätä yhteistyöta varten on jo perustettu GitHub-säilö (https://github.com/NationalLibraryOfNorway/metametrics)
- eri menetelmien testaus, mm. Norjan kansalliskirjaston Meteor-työkalu ja kielimallipohjaiset lähestymistavat (sekä rajapintapalveluihin että paikallisiin kielimalleihin tukeutuen)
- HY:n tarjoaman CurreChat-palvelun (ja Azure-instanssin) hyödyntämistä automaattisessa bibliografisessa kuvailussa tutkitaan.
- PDF-tiedostojen rakenteen hyödyntäminen bibliografisten tietojen poiminnassa
- tavoitteena Finto AI:n kaltaisen interaktiivisen työkalun ja/tai rajapintapalvelun kehittäminen, joka voidaan integroida esim. julkaisuarkistojärjestelmiin
Valmiin määritelmä: on kehitetty arviointikriteereitä eteenpäin ja testattu eri menetelmiä.
AK1.4. Kaunokirjallisuuden automaattisen sisällönkuvailun jatkokehitys
Kaunokirjallisuuden automaattisen sisällönkuvailun kehitys ja laadunvarmistus jatkuu. Tarkempia testejä tehdään kokotekstiaineistolla (e-vapaat tai digitoitu muu materiaali)
Valmiin määritelmä: Kaunokirjallisuuden kuvailua on testattu ja raportoitu kokotekstiaineistoa hyödyntäen.
AK1.5. YKL:n käytön jatkokehitys
Fennicassa valmistellaan luopumista (lähes) kokonaan UDK:sta ja siirtymistä systemaattiseen YKL:n käyttöön. Tämä tarkoittaa esim. sitä, että YKL:ää aletaan käyttää aiempaa enemmän myös tieteelliselle aineistolle. Tästä voi aiheutua kehitystarpeita myös Annifin / Finto AI:n YKL-malleille, jotka perustuvat tällä hetkellä aika pitkälti vain kirjaesittelyaineistoihin. Mahdollisesti siis tarvitaan Annifin YKL-mallien uudelleenkouluttamista uudentyyppisellä aineistolla.
Valmiin määritelmä: jatkokehitystarpeet on vähintään tunnistettu, tehty kehitystyö on raportoitu.
AK1.6. Kuntien e-kirjaston tarpeet
Kuntien e-kirjasto aloittaa toimintansa Kansalliskirjastossa alkuvuodesta 2024. Selvitetään, tarvitseeko uusi yksikkö toiminnassaan automaattista kuvailua, missä määrin ja millä tavalla. Kuvailua saadaan aika paljon valmiinakin, mutta aiemmin e-kirjastossa autom. kuvailua on hyödynnetty engl. kielisen aineiston kohdalla. Lisäksi tutkitaan, onko e-kirjastolla muita tarpeita, joihin voisimme vastata, metatiedon laadun parantaminen voisi olla yksi kohde.
Valmiin määritelmä: Kuntien e-kirjaston tarpeet on vähintään tunnistettu.
AK2. Ohjelmisto- ja järjestelmäkehitys sekä ylläpito
AK2.1. Annifin tekninen kehitystyö
Jatketaan Annifin kehitystä ja julkaistaan säännöllisesti uusia Annif-työkalun versioita. Kehitystä tehdään ketterällä prosessilla, jota ohjaavat Annifin ja Finto AI:n käyttäjien toiveet sekä mallien kehityksestä nousevat tarpeet. Kehityksessä huomioidaan Annifin version 1.0 julkaisun jälkeen erityisesti taaksepäin yhteensopivuus. Mahdollisia kehityskohteita ovat esimerkiksi:
- uusien algoritmien kehitys ja integrointi osaksi Annifia
- joustavuutta sanastojen käyttöön, esim. mahdollisuus sulkea pois käsitteitä tai yhdistellä osasanastoja
- Reconciliation APIn toteutus/jatkokehitys
- hyperparametrien optimoinnin mahdollisuus useampiin algoritmeihin
- suorituskykyoptimoinnin mahdollisuuksien ja potentiaalin tutkiminen
- ohjelmiston päivittäinen ylläpito, esim. yhteensopivuuden säilyttäminen ja tietoturvan varmistaminen
AK2.2. Finto AI:n tekninen kehitystyö
Finto AI:n käyttöliittymäkoodia varten on olemassa itsenäinen, julkinen GitHub-säilö (https://github.com/NatLibFi/FintoAI), jonka Issues-osio toimii myös Finto AI:n kehityksen työjonona. Finto AI:n mahdollisia kehityskohteita ovat esimerkiksi:
- kopiointipainikkeiden jatkokehitys, esimerkiksi ehdotusten kopiointi myös Alma-ympäristöön
- valvontatoimintojen kehitys vikatilanteiden ja suorituskykyongelmien havaitsemiseksi
- palvelun toiminnan yleinen ylläpito, esim. yhteensopivuuden säilyttäminen ja tietoturvan varmistaminen
AK2.3. Laskentainfrastruktuuri
Algoritmilaskentaan käyttämämme palvelimen elinkaari päättyy vuoden 2024 aikana ja sen käytölle on löydettävä korvaava ratkaisu. Myös kielimalleihin liittyvä toiminta edellyttää laskentaresursseja, erityisesti GPU-laskentaa. Selvitetään eri vaihtoehtoja riittävän laskentakapasiteetin valmistamiseen joko omilla laitteistohankinnoilla, Helsingin yliopiston suurteholaskentaympäristöä hyödyntämällä, CSC-yhteistyön kautta tai pilvipalvelun tyyppisillä ratkaisuilla. Tarvittaessa on ostettava lisenssejä pilvipalveluihin.
Valmiin määritelmä: Laskentapalvelin on korvattu uudella ratkaisulla. Kielimallien parissa tehtävä työ onnistuu. Tarvittava raportointi on tehty.
AK2.4. Kielimallien hyödyntäminen Annifin tuottamassa automaattisessa kuvailussa
Selvitetään mahdollisuuksia kehittää kielimalleihin perustuvia automaattisen sisällönkuvailun menetelmiä ja testataan niistä lupaavimpia, esimerkiksi XR-Transformer (Pecos) josta on jo olemassa ZBW:n kehittämä alustava Annif-backend-toteutus, sekä HuggingFacen SetFit, joka saattaisi sopia automaattiseen monikieliseen luokitteluun. Hyödynnetään tässä työssä HY:n tarjoamia suurteholaskennan palveluita, ks. https://wiki.helsinki.fi/x/wxkaDg.
Valmiin määritelmä: kielimalleilla on tehty kokeita automaattiseen kuvailuun liittyen. Niiden soveltuvuus käytännön työhön on selvitetty ja raportoitu.
AK3. Testit ja kokeilut
Työpaketti sisältää mielenkiintoisia ja hyödyllisiä ideoita sekä ideoita, joita voidaan toteuttaa resurssien salliessa. Työpaketin sisältö voi muuttua tai tarkentua ja osatyöpaketteja voi tulla lisää vuoden aikana.
Työpaketin yleinen valmiin määritelmä: Mielenkiitoisia ideoita ja niiden toteuttamista on tutkittu ja raportoitu (esim. esitys, artikkeli, blogikirjoitus).
AK3.1. Monikielisyyden tuki
Kielimallien yleinen kehitys mahdollistaa saman esim. luokittelussa käytettävän algoritmin toiminnan usealla kielellä (ks. AK 2.4.). Voidaan selvittää tämän toiminnallisuuden soveltuvuutta ja verrata sen suorituskykyä esim. konekäännettyjen dokumenttien asiasanoitukseen.
Valmiin määritelmä: Verrattu useita mahdollisia ratkaisuja monikieliseen asiasanoitukseen ja/tai luokitteluun ja tulokset on raportoitu.
AK3.2. Saamen kielet
Saamen kielten automaattisen kuvailun mahdollisuuksien ja tarpeiden kartoittamista jatketaan yhteistyössä Saamelaiskielten tuki digitaalisissa palveluissa -hankkeen kanssa. Mahdollisesti voidaan olla yhteydessä Norjan kansalliskirjastoon myös Saamen kieliin liittyvän kieliteknologisen kehitystyön jne. tiimoilta.
Valmiin määritelmä: Saamelaiskielten tuki digitaalisissa palveluissa -hankkeen etenemistä ja saamenkielisen kieliteknologian kehitystä seurattu. Osallistuminen tarvittaessa.
AK3.3. Tekoälymallien julkaisu
Selvitetään mahdollisuuksia ja hyötyjä Annif-mallien ja niiden koulutusaineistojen julkaisusta Hugging Face -palvelussa. Mahdollisia julkaisuja varten voidaan perustaa palveluun Kansalliskirjaston organisaatiotili.
Valmiin määritelmä: selvitys on tehty ja mallien julkaisu suunniteltu, mikäli selvitys sitä puoltaa.
AK3.4. Nimettyjen entiteettien tunnistus ja linkitys
Selvitetään tarpeita ja mahdollisuuksia tarjota palvelua nimettyjen entiteettien tunnistukseen (NER) ja linkitykseen (NEL) käyttäen esim. TurkuNLP:n työkalua.
Valmiin määritelmä: selvitys on tehty ja NER:in ja NEL:in käyttöön syvennytty.
AK4. Tapahtumat, koulutukset, viestintä ja verkostotyö
AK4.1. Automaattisen kuvailun verkosto
Tuetaan automaattisen kuvailun verkoston toimintaa, tarvittaessa ylläpitäen ja koordinoiden. Tuetaan eritysesti verkoston itseohjautuvuutta ja järjestetään tilanteen salliessa myös läsnätapahtumia. Verkoston toimintaa kehitetään yhdessä mm. Sisällönkuvailun asiantuntijaryhmän kanssa. Pyritään saamaan mukaan kuvailutyötä tekeviä henkilöitä ja uusia organisaatioita.
Valmiin määritelmä: Verkoston puitteissa on järjestetty vähintään kaksi tapaamista, ja sen toiminnan jatkoa on suunniteltu.
AK4.2. Annif-esitykset, -koulutukset ja -tutorial
Annifin käytöstä on yhdessä ZBW:n kanssa koostettu avoimesti saatavilla oleva koulutusmateriaali, joka toimii itseopiskeltavana verkkokurssina (https://github.com/NatLibFi/Annif-tutorial). Verkkomateriaalia voidaan hyödyntää myös muissa yhteyksissä, esim. webinaareissa, erilaisten seminaarien yhteydessä, työpajoissa jne. Uudistetaan tarpeen mukaan koulutusmateriaalia. Järjestetään kotimaiselle yleisölle koulutusta Finto AI:sta ja sen käytöstä. Annif-tutorialin verkkomateriaalia pidetään yllä, harkitaan Annif-koulutuksia sopivissa yhteyksissä ja toteutetaan niitä tarpeen mukaan. Pidetään mahdollisuuksien mukaan tutoriaali vuoden 2024 virtuaalisessa SWIB-konferenssissa. Annif-tutoriaalia on tarjottu pidettäväksi myös Open Repositories -konferenssiin (Göteborg 3.-6.6.2024)
Valmiin määritelmä: ainakin jotkut tilaisuudet ovat toteutuneet sunnitellusti.
AK4.3. Tekoäly-yhteistyö kulttuuriperintöorganisaatioissa
Osallistutaan tekoälykahveille, jotta pysytään ajan tasalla kultturiperintöorganisaatioiden tekoälyprojekteista. Esiinnytään itse tarvittaessa. Osallistutaan myös muuhun kulttuuriperintöorganisaatioiden tekoäly-yhteistyöhön ja -tapahtumiin.
Valmiin määritelmä: tekoälykahveille on osallistuttu.
AK4.4. Annifin asiakaswikin ylläpito sekä yleinen tiedotus ja viestintä
Annifin viestintäsuunnitelman mukaisesti tiedotetaan uusista versioista, tapahtumista jne. s-postilistoilla, X:ssä (ent. Twitter) ja asiakaswikissä. Kolmikielinen (suomi, ruotsi, englanti) asiakaswiki pidetään ajan tasalla. Annifin ja Finto AI:n viestintää koordinoidaan tarpeen mukaan Kansalliskirjaston viestintäyksikön sekä muiden palveluiden, esimerkiksi Finton ja Melindan kanssa. Osallistutaan kvp-some -ryhmän toimintaan, joka auttaa sosiaalisen median viestinnän tuottamisessa ja koordinoinnissa. Annifia ja Finto AI:ta koskevia uutisia julkaistaan Kansalliskirjaston uutiskirjeissä sekä Finton mahdollisessa yleisessä uutiskatsauksessa. Osallistutaan myös tarpeen mukaan Melindan järjestämiin Talonmiehen tuokioihin. Viestipalvelu X:n ja muiden sosiaalisen median palveluiden suhteen seurataan Kansalliskirjaston yleisiä linjauksia. Osallistutaan myös Kansalliskirjaston käyttäjäkyselyyn.
Valmiin määritelmä: Tiedotus on hoidettu viestintäsuunnitelman mukaisesti. Asiakaswiki ja verkkosivut ovat ajan tasalla.
AK4.5. Annifin keskeisten käyttäjien kansainvälinen tapaaminen
Tapaamisen ideana on koota mahdollisimman monta suurta kansainvälistä Annifin käyttäjätahoa yhteen, tavoitteena synergiaetujen luominen, tiedon välittäminen ja keskustelu. Tapaaminen voidaan pyrkiä järjestämään esim. SWIB:in yhteydessä ZBW:n avustamana, tarvittaessa virtuaalisena.
Valmiin määritelmä: Tapaaminen on järjestetty
AK4.6. Finto AI:n käytön tukeminen, edistäminen ja yhteistyö kirjastokentän kanssa
Tuetaan Finto AI:n käyttöönottoa eri järjestelmissä Kansalliskirjaston sisällä ja muissa organisaatioissa ilmenevien tarpeiden perusteella, esimerkiksi:
- Edistetään Finto AI:n käyttöä Melinda-kuvailutyökalun (Aleph client) sekä Alman kanssa, esimerkiksi jatkokehittämällä web-käyttöliittymän kopiointinappuloita (kts. AK2.2.) ja tiedottamalla Finto AI:sta Melinda-käyttäjille esim. Melindan talonmiestuokioissa. Osallistutaan myös seuraavan sukupolven Melindan suunnittelutyöhön automaattisen kuvailun osalta.
- Tuetaan Finnan uusien suosittelutoiminnallisuuksien kehitystä, jossa voisi hyödyntää Finto AI:n antamia asiasanaehdotuksia (ks. myös MeSH on Demand).
- Tuetaan Finto AI:n itsenäistä käyttöä esim. opiskelijoiden keskuudessa ja ylläpidetään Finto AI:n käyttöopasta.
- Finto AI:n maksullisen palvelun malli on valmiina, jos sitä tarvitaan.
AK4.7. Finto AI:n esittelyvideo
Tuotetaan uusi Finto AI:n esittelyvideo, jossa esitellään myös uudet käyttöliittymän ominaisuudet (esim. tiedoston lataus).
Valmiin määritelmä: Video on julkaistu ja siitä on tiedotettu
AK4.8. Johdatustilaisuus Finto AI:n käytöstä
Järjestetään yhdessä Finton, Melindan ja mahdollisesti muiden ryhmien (esim. sisällönkuvailun asiantuntijaryhmä) kanssa johdatustilaisuus Finto AI:n käytöstä sisällönkuvailutyössä.
Valmiin määritelmä: Tilaisuus on järjestetty
AK4.9. Kysely Finto AI:n käytöstä
Toteutetaan oma käyttäjäkysely Finto AI:n ja/tai Annifin nykyisestä käytöstä ja tarpeista.
Valmiin määritelmä: Kysely on tehty, tulokset on analysoitu ja raportoitu
AK5. Tutkimusyhteistyö
Tähän työpakettiin on koottu tutkimusprojekteja, joilla on yhteyksiä automaattiseen kuvailuun ja/tai Annifiin & Finto AI:hin. Joidenkin projektien tai yhteistyösuunnitelmien osalta on vielä epävarmaa toteutuvatko ne, koska esimerkiksi rahoituspäätökset eivät ole vielä selvillä tai suunnitelmat tarkentuvat vielä. Vuoden aikana kartoitetaan muita mahdollisuuksia tutkimusyhteistyöhön.
AK5.1. DHL-FI
Suomen Akatemian rahoittamaan projektiin Digitaaliset menetelmät kotimaisen kirjallisuushistorian uudistajina (DHL-FI) sisältyy Annifin hyödyntämistä, työ ajoittuu vuosille 2022-2026. Hankkeessa mm. sovelletaan Annifia digitoidulle 1800-luvun kaunokirjallisuudelle. Käytännössä hallinnollisen työn lisäksi tarvitaan tutkimushankkeen henkilöstölle neuvoja ja tukea Annifin käyttöön sekä muuhun tutkimustyöhön osallistumista.
AK5.2. Yhteistyö ZBW:n ja DNB:n kanssa
Saksan taloustieteen kansalliskirjasto ZBW sekä Saksan kansalliskirjasto DNB ovat olleet yhteistyökumppaneitamme pitkään sekä Annifin merkittäviä käyttäjätahoja. Jatketaan tiivistä yhteydenpitoa heidän kanssaan ja pyritään edistämään yhteisiä päämääriä, mm. Annif-tutorialin, algoritmien ja automaattisen sisällönkuvailun prosessien kehittämistä.
AK5.3. Yhteistyö Linné-yliopiston kanssa
Linné-yliopistossa Ruotsissa opetetaan ja tutkitaan automaattista sisällönkuvailua. Heidän kanssaan on tehty yhteistyötä mm. webinaarien muodossa. Yhteistyömahdollisuuksia ovat mm.
- Annifin ja/tai Finto AI:n käyttö saamelaiskulttuuriin liittyvän arkistomateriaalin automaattiseen asiasanoitukseen projektissa Artificial Intelligence as a risk and opportunity for the authenticity of archives
- Queerlit-tietokannan automaattinen asiasanoitus Annifilla. Kysymyksessä on siis ruotsinkielinen LGBTQ-teemaisen kaunokirjallisuuden kokoelma, jonka kuvailussa on käytetty ruotsalaista versiota Homosaurus-sanastosta.
AK5.4. Yhteistyö TurkuNLP:n kanssa
TurkuNLP-tutkimusryhmä kehittää mm. suomenkielisiä GPT- ja Poro-kielimalleja. Heidän osaamistaan pyritään hyödyntämään työpaketeissa, joissa tarvitaan kielimalleja. TurkuNLP puolestaan on toivonut Kansalliskirjastolta lisää aineistoa kielimallien kouluttamiseen.
AK5.5. Yhteistyö Viron kansalliskirjaston kanssa
Viron kansalliskirjasto edistää EU-rahoituksella automaattista kuvailua ja tekoälyn käyttöä. Osallistutaan ja tehdään yhteistyötä tarpeen vaatiessa.