Automaattinen asiasanoittaja Annif on päässyt testattavaksi sekä vertaisarvioidussa artikkelissa että pro gradu -työssä! Annif on Kansalliskirjastossa kehitettävä avoimen lähdekoodin työkalu, joka kieliteknologiaan ja koneoppimiseen nojaten määrittelee teksteille niiden sisältöä kuvaavia asiasanoja halutusta sanastosta. Annifista voi lukea lisää (englanniksi) verkkosivuilta os. https://annif.org tai asiakaswikistä os. https://www.kiwi.fi/x/F4T6Bg

Osma Suomisen ja Ilkka Koskenniemen artikkeli Annif Analyzer Shootout Comparing text lemmatization methods for automated subject indexing julkaistiin Code4Lib Journal -lehdessä (https://journal.code4lib.org/articles/16719). Artikkelissa vertaillaan erilaisten tekstin esikäsittelyssä käytettävien lemmatisointi- eli perusmuotoistamismenetelmien vaikutusta automaattisen asiasanoituksen laatuun. Tällaiset kieliteknologiset esikäsittelymenetelmät ovat tärkeitä, sillä ne auttavat automaattisen asiasanoituksen algoritmeja hahmottamaan paremmin eri kielten rakennetta ja sitä kautta edistävät monikielisyyttä.

Anne Maunun (2022) ansiokkaassa pro gradu -tutkielmassa (https://urn.fi/URN:NBN:fi:tuni-202206195730) pureudutaan automaattiseen asiasanoitukseen ja sen menetelmiin käyttäen esimerkkinä Annifia. Testiaineistona toimii Tietoarkiston säilyttämä tutkimusaineisto, ja erityisesti tutkimusaineistossa esiintyvät muuttujat (esim. tutkimuksessa käytetyt mittarit / kysymykset saateteksteineen).