Sisällysluettelo



Keskeisimmät tavoitteet 2023 sekä niiden yhteys työpaketteihin

  1. Jatketaan automaattisen kuvailun laadun parantamista mm. hyödyntämällä koneoppimista ja kieliteknologiaa sekä tekemällä yhteistyötä. AK1, AK2, AK3, AK6, AK7
  2. Laajennetaan automaattista sisällönkuvailua luokituksiin ja kaunokirjallisuuteen. AK1, AK4
  3. Kehitetään Finto AI -palvelun toiminnallisuuksia, käytettävyyttä ja saavutettavuutta.  AK2, AK3, AK4
  4. Edistetään automaattisen kuvailun käyttöönottoja Suomessa ja maailmalla. AK4, AK5

Työpaketit

AK1. Aineistot, laatutyö ja arviointi 

AK1.1. Koulutus- ja arviointiaineistojen kerääminen ja päivittäminen

Kerätään yleisten kirjastojen eri järjestelmistä (alustavasti Kirjasampo ja Kirjastokaista) sekä julkaisuarkistoista automaattisen sisällönkuvailun testaukseen soveltuvia aineistoja ja muunnetaan ne Annif-korpuksiksi, jotta voidaan kokeilla niiden pohjalta, miten hyvin Annifin algoritmit soveltuvat näille aineistoille tehtävissä AK1.2-1.4 sekä AK4.1.

AK1.2. Kaunokirjallisuuden automaattisen sisällönkuvailun testaus

Kerätään KAUNO-ontologialla kuvailtuja kaunokirjallisuusaineistoja eri bibliografisista tietokannoista (esim. Finna, Melinda) ja niihin liittyviä tekstiaineistoja (esim. Kirjavälityksen esittelytekstit, Kirjasampo, e-vapaakappaleet). Näistä muodostetaan Annif-korpukset, joilla kokeillaan, miten hyvin Annifin algoritmit soveltuvat kaunokirjallisuuden automaattisen sisällönkuvailuun. Parhaat mallit julkaistaan annif.org:issa (testipalvelu) ja pyydetään keskeisiltä käyttäjäryhmiltä palautetta (esim. yleiset kirjastot). Tämän jälkeen edetään kohdan AK3.1. mukaan, tarkoituksena KAUNO-sisällönkuvailun tarjoaminen Finto AI:n testipalvelun ai.dev.finto.fi:n kautta.

AK1.3. Automaattisen YKL-luokituksen jatkokehitys

Jatketaan automaattisen YKL-luokituksen testausta ja kehittämistä. Koulutetaan mallit uusimman YKL:n perusteella niillä aineistoilla, jotka tarkoitukseen soveltuvat (Kirjavälitys Oy:n kirjaesittelyt, Makupalat). Parhaat mallit on julkaistu annif.org:issa ja ai.dev.finto.fi:ssä (testipalvelu) ja pyydetään keskeisiltä käyttäjäryhmiltä palautetta (sisällönkuvailun asiantuntijaryhmä, YKL-ryhmä, Kirjastopalvelu). Tämän jälkeen edetään kohdan AK3.1. mukaan, tarkoituksena YKL-luokituksen tarjoaminen Finto AI:n kautta.

AK1.4. Automaattisen Thema-luokituksen testaus

Kirjavälitys Oy on toimittanut kirjaesittelyaineiston, jossa on Thema-luokkia sekä itse Thema-luokituksen. Nämä on jo vuonna 2021 muunnettu Annifille sopivaan korpusmuotoon. Vuoden 2022 aikanaon kokeiltu, miten hyvin Annifin algoritmit soveltuvat automaattiseen Thema-luokitukseen. Parhaat mallit on julkaistu annif.org:issa. Tänä vuonna kerätään palautetta keskeisiltä käyttäjäryhmiltä (esim. Kirjavälitys Oy). Tämän jälkeen edetään kohdan AK4.1. mukaan, tarkoituksena Thema-luokituksen tarjoaminen testipalvelun ai.dev.finto.fi:n kautta.


AK2. Ohjelmisto- ja järjestelmäkehitys

AK2.1. Annifin tekninen kehitystyö

Jatketaan Annifin kehitystä ja julkaistaan säännöllisesti uusia Annif-työkalun versioita. Kehitystä tehdään ketterällä prosessilla, jota ohjaavat Annifin ja Finto AI:n käyttäjien toiveet sekä mallien kehityksestä nousevat tarpeet. Mahdollisia kehityskohteita ovat esimerkiksi:

  • web-käyttöliittymän ja REST-rajapinnan jatkokehitys lisäämällä niihin uusia toiminnallisuuksia (esim. kielentunnistus)
  • automaattinen suggest-kutsujen ohjaus oikealle projektille tunnistetun kielen perusteella
  • käsite-ehdotusten automaattinen poimiminen Annifille syötettävistä dokumenteista esim. Yake-algoritmin avulla
  • hyperparametrien optimoinnin laajentaminen koskemaan nykyistä useampia algoritmeja
  • suorituskyvyn parantaminen esimerkiksi rinnakkaisprosessointia hyödyntämällä
  • resurssikulutuksen vähentäminen esim. muistinkäyttöä optimoimalla
  • parannetaan yhteensopivuutta Data Version Control -työkalujen kanssa
  • Julkaistaan Annifin versio 1.0

AK2.2. Finto AI:n tekninen kehitystyö

Finto AI:n käyttöliittymäkoodia ja konfiguraatioinhallintaa varten on olemassa itsenäinen, julkinen GitHub-säilö, jonka Issues-osio toimii myös Finto AI:n kehityksen työjonona. Finto AI:n mahdollisia kehityskohteita ovat esimerkiksi:

  • kopiointinappuloiden jatkokehitys, esimerkiksi useiden ehdotusten kopiointi kerralla (kaikien tai erikseen valittujen) mm. Melinda-käyttöä ajatellen
  • uusien sanastojen (esim. YKL) vaatimat muutokset käyttöliittymään
  • Visuaalisen ilmeen uudistamiseen liittyvät tekniset toimenpiteet
  • Hakutulosten termien kääntämisen yksinkertaistaminen luopumalla Finton rajapinnan käytöstä

AK2.3. Palvelinuudistukset

Uusitaan virtuaalipalvelimia, joiden käyttöjärjestelmä vanhenee keväällä 2023. Valmistaudutaan myös uusimaan automaattisen kuvailun projektin käytössä oleva kehityspalvelin, jonka käyttöikä päättyy vuonna 2024.

AK3 Testit ja kokeilut

Työpaketti sisältää mielenkiintoisia ja hyödyllisiä ideoita, joita voidaan toteuttaa resurssien salliessa.

AK3.1. Laatuseuranta Annif-käyttödatan pohjalta

Kerätään Finto AI:n rajapintapalvelua jo jonkin aikaa käyttäneistä järjestelmistä (alustavasti Kirjavälitys Oy, eKirjasto, JYX, muut DSpace-julkaisuarkistot) tiedot, joista käy ilmi Annifin antamat asiasanaehdotukset sekä kuvailijan valitsemat lopulliset asiasanat. Näitä (sekä soveltuvin osin mm. Fennican asiasanoja) vertailemalla tutkitaan, miten suuri osa Annifin ehdotuksista on päätynyt lopulliseen kuvailuun eri aikakausina ja eri mallisukupolvien aikana.

AK3.2. Vertailu dokumentin eri kieliversioiden vaikutuksesta automaattiseen sisällönkuvailuun

Jatketaan vuonna 2021 aloitettua selvitystyötä siitä, miten monikielisten dokumenttien osalta eri kieliversioiden tai konekäännöksen pohjalta tuotetun automaattisen sisällönkuvailun tulokset vertautuvat keskenään.

Konekäännöstyökaluja:

AK3.3. Synonyymien vaikutus automaattiseen sisällönkuvailuun

Selvitetään, voisiko YSO-pohjaisen automaattisen sisällönkuvailun laatua parantaa rikastamalla YSOa synonyymitermeillä, joita on poimittu olemassaolevista synonyymikorpuksista (esim. Kotuksen aineistot ja WordNet). YSOsta muodostetaan synonyymein rikastettu versio ja sitä käyttämällä koulutetaan leksikaalisia Annif-projekteja (esim. MLLM-algoritmilla), joiden laatua verrataan rikastamattomalla YSOlla saavutettuun laatutasoon.

AK3.4. Parannukset PDF-tiedostojen käsittelyssä

Selvitetään tapoja PDF-tiedostoista puretun raakatekstin käsittelyyn ja korjailuun (esim. kansilehden poisto,  tiivistelmän poiminta, rivityksen katkomien sanojen takaisin yhdistäminen) ja arvioidaan niiden vaikutusta automaattisen sisällönkuvailun laatuun. Tällaisia menetelmiä on kehitetty esim. Turun yliopiston ja KK:n kielimalli-projektin yhteydessä, ks. https://github.com/spyysalo/pdftools ja https://github.com/spyysalo/clean-pdf-extract. Rivityksen katkomien sanojen vaikutusta voidaan arvioida muodostamalla (yhtenäisten sanojen) testikorpuksesta versio, jossa sanoja katkotaan, ja vertaamalla siihen ja alkuperäiseen korpukseen perustuvan sisällönkuvailun tuloksia.

AK3.5. Saamen kielet

Toteutetaan yhteistyössä Saamelaiskielten tuki digitaalisissa palveluissa -hankkeen kanssa. Kerätään materiaalia ja tutkitaan mahdollisuuksia saamenkielisten materiaalien automaattiseen kuvailuun.

AK3.6. Kielimallien hyödyntäminen automaattisessa sisällönkuvailussa

SWIB22-konferenssissa oli hyvä esitys siitä, miten monikielistä BERT-mallia oli käytetty automaattiseen luokitukseen. GitHubissa on X-Transformer (tai oikeastaan XR-Transformer) backendista PR, jota voi vielä katsoa. Pyritään hyödyntämään tässä työssä HY:n tarjoamia suurteholaskennan palveluita https://wiki.helsinki.fi/x/wxkaDg.

AK4. Automaattisen kuvailun palvelut

AK4.1. Finto AI:n sanastotuen laajentaminen

Laajennetaan Finto AI:ssa käytettävissä olevien sanastojen valikoimaa esimerkiksi YKL:llä, Themalla ja KAUNO-ontologialla sitä mukaa kuin näillä saavutetaan riittävän hyvä automaattisen sisällönkuvailun laatu. Uusista sanastoista tiedotetaan käyttäjille ja niihin liittyvä dokumentaatio lisätään Finton asiakaswikiin.

AK4.2. Säännölliset aineisto-, sanasto- ja mallipäivitykset

Huolehditaan siitä, että Finto AI:ssä on käytössä ajantasaiset sanastot ja mallit on koulutettu ja arvioitu mahdollisimman tuoreilla ja kattavilla aineistoilla, mukaan lukien tehtävän AK1.1 uudet aineistot. Tämän varmistamiseksi muodostetaan säännöllisesti uudet Finna-koulutusaineistot ja koulutetaan niiden pohjalta uudet mallit. Mallien laatu arvioidaan ennen niiden käyttöönottoa.

AK4.3. Finto AI:n visuaalisen ilmeen uudistaminen

Finton, eristyisesti finto.fi -sivuston visuaalinen ilme uudistuu vuoden 2023 aikana. Muutokset heijastuvat myös Finto AI:hin. Laadulliset muutokset suunnittellaan yhdessä Finton ja ulkopuolisen graafisen suunnitteljan (Hahmo Design Oy) kanssa ja niiden vaatima tekninen toteutus sisältyy työpakettiin AK2.2.

AK5. Automaattisen kuvailun edistäminen KK:n järjestelmissä

AK5.1. Automaattisen bibliografisen kuvailun testaus

Tutkitaan ja testataan automaattisen bibliografisen kuvailun ratkaisuja mahdollisessa yhteistyössä Lingsoft Oy:n kanssa. Pyritään tunnistamaan tarkemmin ne prosessit KK:n sisällä, jotka hyötyisivät automatisoinnista eniten ja tehdään yhteistyötä niistä vastaavien tahojen kanssa. Kansainvälisessä yhteistyössä pidetään automaattisen biblografisen kuvailun asia esillä ja pyritään löytämään yhteistyömahdollisuuksia ja synergiaetuja.

AK6. Tapahtumat, koulutukset, viestintä ja verkostotyö

AK6.1. Automaattisen kuvailun verkosto

Automaattisen kuvailun verkoston toimintaan osallistutaan aktiivisesti. Pyritään tarvittaessa ylläpitämään ja koordinoimaan verkoston toimintaa. Pyrkimys on myös lisätä verkoston itseohjautuvuutta ja järjestää tilanteen salliessa myös läsnätapahtumia.

AK6.2. Annif-koulutukset ja -tutorial

Annifin käytöstä on yhdessä ZBW:n kanssa koostettu avoimesti saatavilla oleva koulutusmateriaali joka toimii itseopiskeltavana verkkokurssina (https://github.com/NatLibFi/Annif-tutorial). Verkkomateriaalia voidaan hyödyntää myös muissa yhteyksissä, esim. webinaareissa, erilaisten seminaarien yhteydessä, työpajoissa jne. Uudistetaan tarpeen mukaan koulutusmateriaalia ja järjestetään materiaalin pohjalta Annif-koulutuksia sopivissa yhteyksissä, esim. konferenssien ohessa.

AK6.3. Kirjastoverkkopäivät

Kirjastoverkkopäivillä 2023 pyritään järjestämään työpaja kaunokirjallisuuden automaattisesta kuvailusta. Kaunokirjallisuuden automaattista kuvailua käsittelevä työpaja järjestetään interaktiivisena ja osallistujilta kerätään palautetta automaattisesti tuotetun kuvailun laadusta. Mikäli em. kaltaisen työpajan järjestäminen ei syystä tai toisesta onnistu, voidaan  Kirjastoverkkopäiville tarjota myös vaikkapa Annifin käyttökoulutusta perustuen esimerkiksi Annif-tutoriaaliin, ks. työpaketti 6.2.

AK6.4. Finto AI:n maksullisen palvelun valmistelu

Jatketaan Finto-palvelun maksullisen palvelun mallin kehittämistä niin, että myös Finto AI:n ympärille voidaan tulevaisuudessa tarjota maksullisia palveluita sellaisille organisaatioille, jotka eivät ole OKM:n rahoituksen piirissä. Alustava suunnitelma on valmis. Odotellaan ilmeneekö kiinnostusta, ei markkinoida maksullisen palvelun mallia kovin aktiivisesti.

AK6.5. Annifin asiakaswikin ylläpito sekä yleinen tiedotus ja viestintä

Annifin viestintäsuunnitelman mukaisesti tiedotetaan uusista versioista, tapahtumista jne. s-postilistoilla, Twitterissä ja asiakaswikissä. Kolmikielinen (suomi, ruotsi, englanti) asiakaswiki pidetään ajan tasalla ja sen sisältö tarkistetaan. Annifin ja Finto AI:n viestintää koordinoidaan tarpeen mukaan Kansalliskirjaston viestintäyksikön sekä muiden palveluiden, esimerkiksi Finton ja Melindan kanssa. Annifia ja Finto AI:ta koskevia uutisia julkaistaan Kansalliskirjaston uutiskirjeissä sekä Finton mahdollisessa yleisessä uutiskatsauksessa. Osallistutaan myös tarpeen mukaan Melindan järjestämiin Talonmiehen tuokioihin.

AK6.6. Finto AI:n käyttöönottojen tukeminen

Tuetaan Finto AI:n käyttöönottoa eri järjestelmissä Kansalliskirjaston sisällä ja muissa organisaatioissa ilmenevien tarpeiden perusteella, esimerkiksi:

  • Edistetään Finto AI:n käyttöä Melinda-kuvailutyökalun (Aleph client) kanssa, esimerkiksi jatkokehittämällä web-käyttöliittymän kopiointinappuloita (kts. AK2.2) ja tiedottamalla Finto AI:sta Melinda-käyttäjille esim. Melindan talonmiestuokioissa. Osallistutaan myös seuraavan sukupolven Melindan suunnittelutyöhön automaattisen kuvailun osalta.
  • Tuetaan Finnan uusien suosittelutoiminnallisuuksien kehitystä, jossa voisi hyödyntää Finto AI:n antamia asiasanaehdotuksia (ks. myös MeSH on Demand).
  • Tuetaan ja edistetään automaattisen YKL-luokituksen hyödyntämistä Kansalliskirjastossa.
  • Järjestetään yhdessä Finton, Melindan ja mahdollisesti muiden ryhmien (esim. sisällönkuvailun asiantuntijaryhmä) kanssa koulutus Finto AI:n käytöstä sisällönkuvailutyössä. 
  • Tuetaan Finto AI:n itsenäistä käyttöä esim. opiskelijoiden keskuudessa ja ylläpidetään Finto AI:n käyttöopasta.
  • Tuotetaan uusi Finto AI:n esittelyvideo, jossa esitellään myös uudet käyttöliittymän ominaisuudet (esim. tiedoston lataus).

AK7. Tutkimusyhteistyö

Tähän työpakettiin on koottu yhteyksiä tutkimusprojekteihin, joissa hyödynnetään Annifia ja/tai Finto AI:ta. Joidenkin projektien osalta on vielä epävarmaa toteutuvatko ne, koska esimerkiksi rahoituspäätökset eivät ole vielä selvillä. Kartoitetaan muita mahdollisuuksia tutkimusyhteistyöhön.

AK7.1. DHL-FI

Suomen Akatemian rahoittamaan projektiin sisältyy Annifin hyödyntämistä, työ ajoittuu vuosille 2022-2026. Hankkeessa mm. sovelletaan Annifia digitoidulle 1800-luvun kaunokirjallisuudelle. Käytännössä hallinnollisen työn lisäksi tarvitaan tutkimushankkeen henkilöstölle neuvoja ja tukea Annifin käyttöön sekä muuhun tutkimustyöhön osallistumista.

AK7.2. CSC-yhteistyö ja NordTextAI-hanke

CSC:n kanssa toteutettu High-Performance Digitisation -hanke päättyi vuonna 2020. Tämän hankkeen inspiroima jatkohakemus NeIC:ille (NordTextAI) jätettiin maaliskuussa 2021, mutta se ei saanut rahoitusta. Uusi hakemus tehtiin vuoden 2022 alussa. Helmikuussa 2023 NeIC tiedotti, että rahoitusta ei voida myöntää millekään hankkeelle johtuen NordForskin tilanteesta. Jatketaan joka tapauksessa yhteydenpitoa CSC:n koneoppimisasiantuntijoiden kanssa ja pyritään löytämään jatkorahoitusta saman tyyppiselle yhteistyöprojektille mikäli mahdollista.

AK7.3. ZBW-yhteistyö

Olemme tehneet paljon yhteistyötä ZBW:n (Leibniz Information Centre for Economics, Saksan taloustieteen kansalliskirjasto) kanssa aiemmin. ZBW:n asiantuntijat ovat mm. osallistuneet Annifin kehitystyöhön sekä Annif-tutoriaalin koostamiseen. Mahdollisuuksien mukaan tätä yhteistyötä jatketaan ja kehitetään tuleavaisuudessakin.

AK7.4. CENL:n tekoälyryhmä

CENL:n (eurooppalaisten kansalliskirjastojen yhteistyöelin) AI-työryhmä on 2 vuoden aikana tehnyt mm. raportin kirjastojen AI-ratkaisuista, kokoelman AI-reseptejä eri käyttötarkoituksiin sekä Awesome AI in Libraries -listan. Annifkin on joissain näissä mainittu. Ryhmän uusi toimikausi alkaa 2023. Seurataan ryhmän toimintaa ja osallistutaan siihen mahdollisuuksien mukaan.

  • No labels