Blog

Annif 0.59 julkaistu

Annif 0.59 on julkaistu! Tähän julkaisuun sisältyy suuria monikielisyyttä helpottavia muutoksia sanastojen käsittelyyn. Erikieliset projektit voivat käyttää samaa sanastoa samalla vocabulary id -tunnuksella ilman erillistä kielitunnistetta (esim. pelkästään yso eikä vaikkapa yso-fi). Sanastosta haluttava kieli määräytyy projektin kieliasetuksen perusteella, mutta tämän oletusasetuksen voi halutessaan kiertää. 

Sanaston lataamisessa käytetään uutta komentoa `load-vocab`, jolle annetaan argumentiksi ladattavan sanaston eikä projektin nimi. Käytettävissä olevat sanastot voi listata komennolla `list-vocabs`. Tiedot Annifi komentorivikomennoista siirtyvät pois Annifin GitHub-wikistä ReadTheDocs-sivulle (https://annif.readthedocs.io/en/stable/source/commands.html).
Annifin kehitysasennuksissa on siirrytty käyttämään Poetryä (https://python-poetry.org/) Python-riippuvuuksien hallinnassa.

Olemme myös valmistautumassa Annif 1.0 -version julkaisuun! Käyttäjät voivat keskustella GitHubissa semanttisesta versionumeroinnista ja odotuksistaan Annifin versioiden taaksepäin yhteensopivuudesta (https://github.com/NatLibFi/Annif/issues/616). 

YSOon 70 uutta käsitettä

Jatkamme YSO-kokousten sadon läpikäyntiä Finton blogissa, jotta toimitustyömme olisi seurattavampaa ja avoimempaa aiheesta kiinnostuneille. Vuoden kolmas YSO-kokous kokoontui tiistaina 13.9.2022. Osallistujia oli 14. Asialistalla oli 236 käsitettä, joista käsiteltiin 187. Uusia käsitteitä otettiin 70, erilaisia sulkutarkenteita lisättiin 7 ja termiehdotukseksi jätettiin 19 ehdotusta. Poistettuja käsitteitä kertyi neljä. Erilaisia muutoksia oli hyvin paljon. Muutokset koskivat muun muassa ohjaustermejä, käännöksiä sekä linkityksiä muihin ontologioihin.

Uusia käsitteitä tuli laajalti eri aiheista. Esimerkiksi uusia musiikin käsitteitä ovat gangsta rap, kellopeli ja kosketinsoitinmusiikki. Uusia yhteiskunnallisia käsitteitä puolestaan ovat vertaileva politiikan tutkimus, sosiaalisen läpäisyn teoria sekä tietopyynnöt (julkisuuslaki). Eläinkunnan saralta kokouksessa hyväksyttiin käsitteiksi muun muassa aasiannorsu, afrikannorsut, löytökoirat ja löytökissat.

Poistetut termit liittyivät joko uusien käsitteiden käyttöönottoon tai useamman käsitteen yhdistämiseen. Esimerkkinä poistoista voidaan mainita käsitteiden tarinat ja kertomukset yhdistäminen, jolloin kertomukset valittiin päätermiksi ja tarinat ohjaustermiksi. Tällaisia muutoksia tehtiin tällä kertaa ensisijaisesti sen perusteella, että käsitteiden nykyinen kuvailukäyttö ei ole riittävän selkeästi toisistaan erotettavissa.

Kahdessa tapauksessa käsitteille otettiin määritelmät muista lähteistä. Käsitteen kellopeli määritelmä otetaan SEKOn huomautuksesta ja käsitteen hätärahat määritelmä Tieteen termipankista. Tätä kautta erikoisontologioiden tai eri tieteenalojen sanastojen asiantuntijoiden tarkat kuvaukset auttavat myös YSOn käyttäjiä.

Seuraava YSO-kokous on joulukuussa.


Valotamme tällä tekstillä hieman tarkemmin mitä YSO-kokouksissa tapahtuu, jatkaen viime toukokuun kokouksen katsauksen linjoilla. Vuoden 2022 toinen hankalampiin käsitemuutoksiin keskittyvä YSO-kokous pidettiin aamupäivällä 1.9.2022. Osallistujia oli 15. Asialistalla oli 37 ehdotusta, joista käsittelyyn otettiin tässä kokouksessa 28. Nämä kaikki tiedettiin lähtökohtaisesti haastaviksi muutoksiksi. Kokonaan uusia käsite-ehdotuksia oli käsittelyssä 6, muiden ehdotusten sisältäessä erilaisia muutoksia. Kokouksessa käsiteltiin 19 käsitettä, joten käsittelemättä jäi vielä kaikkiaan 18. Uusia hyväksyttyjä käsitteitä ovat muun muassa pölynsidonta, vihkiminen käyttöön sekä manipulaatio (psykologia). Muutokset koskivat usein tarkenteita, esimerkiksi käsite soidin rajattiin muotoon soidin (linnut), ja muissa tapauksissa ohjeistetaan käyttämään käsitettä lisääntymiskäyttäytyminen. Käsitteet transsendentalismi ja transsendentaalifilosofia täsmennettiin muotoihin amerikkalainen transsendentalismi sekä  transsendentaalinen idealismi.

Kokouksessa poistettuja käsitteitä ovat emigrantit, kansalaismedia ja kohdentaminen. Hierarkian muutoksia aiheitui käsitteestä opiaatit, joka siirrettiin opioidien alakäsitteeksi. Käsitteen avaruusteleskoopit yläkäsite kaukoputket muutettiin muotoon kaukoputket ja teleskoopit. Osa käsitteistä tai niiden tarkenteista jäi vielä myöhempään harkintaan, tällainen oli esimerkiksi seuraavaan ongelmakokoukseen siirretty vihkiminen tehtävään.

Seuraava YSO-kokous on syyskuun puolivälissä.

Automaattinen asiasanoittaja Annif on päässyt testattavaksi sekä vertaisarvioidussa artikkelissa että pro gradu -työssä! Annif on Kansalliskirjastossa kehitettävä avoimen lähdekoodin työkalu, joka kieliteknologiaan ja koneoppimiseen nojaten määrittelee teksteille niiden sisältöä kuvaavia asiasanoja halutusta sanastosta. Annifista voi lukea lisää (englanniksi) verkkosivuilta os. https://annif.org tai asiakaswikistä os. https://www.kiwi.fi/x/F4T6Bg

Osma Suomisen ja Ilkka Koskenniemen artikkeli Annif Analyzer Shootout Comparing text lemmatization methods for automated subject indexing julkaistiin Code4Lib Journal -lehdessä (https://journal.code4lib.org/articles/16719). Artikkelissa vertaillaan erilaisten tekstin esikäsittelyssä käytettävien lemmatisointi- eli perusmuotoistamismenetelmien vaikutusta automaattisen asiasanoituksen laatuun. Tällaiset kieliteknologiset esikäsittelymenetelmät ovat tärkeitä, sillä ne auttavat automaattisen asiasanoituksen algoritmeja hahmottamaan paremmin eri kielten rakennetta ja sitä kautta edistävät monikielisyyttä.

Anne Maunun (2022) ansiokkaassa pro gradu -tutkielmassa (https://urn.fi/URN:NBN:fi:tuni-202206195730) pureudutaan automaattiseen asiasanoitukseen ja sen menetelmiin käyttäen esimerkkinä Annifia. Testiaineistona toimii Tietoarkiston säilyttämä tutkimusaineisto, ja erityisesti tutkimusaineistossa esiintyvät muuttujat (esim. tutkimuksessa käytetyt mittarit / kysymykset saateteksteineen).

Kansalliskirjaston Finto-palvelu on julkaissut uuden version Finto.fi:n taustaohjelmisto Skosmoksesta.


Skosmoksen uusi versio 2.15 tuo päivityksiä erityisesti selainpuolen kirjastoihin, ja vaikuttaa esimerkiksi sivuston HTML- ja CSS-rakenteisiin. Omien Skosmos-asennusten CSS-tyylit kannattaakin tarkistaa päivityksen yhteydessä. Selainpuolen päivitysten lisäksi

  • ohjelmistoon on lisätty tukea uudemmille PHP-versioille, ja tuki PHP:n versiolle 7.2 on lakkautettu
  • Skosmoksen testiympäristö on päivitetty PHPUnit:in versioon 9
  • osa Skosmoksen käyttämistä ikoneista on päivitetty Font Awesome Free -ikonikirjaston ikoneihin
  • Skosmoksen SKOS-XL-tukea on parannettu ja käyttöliittymän tuettuihin kieliin on lisätty latvia.

Myös Finto.fi:n sanastokohtaisia widgettejä tai "ikkunoita" (finnawidget, karttawidget, wikipediawidget, KANTOn kansallisbibliografiawidget) on päivitetty uuden Skosmos-version päivityksen yhteydessä. Jos huomaat widgeteissä häiriöitä tai muuta erikoista, olethan yhteydessä Finton palvelupostiin: finto-posti@helsinki.fi


Tarkemmat tiedot uudesta julkaisusta löydät Skosmoksen Github-sivulta: https://github.com/NatLibFi/Skosmos/releases/tag/v2.15

Githubin wiki-sivulta löydät ohjeet uuden version asennukseen ja päivitykseen: https://github.com/NatLibFi/Skosmos/wiki.


Skosmos 2.15 on saatavilla avoimena lähdekoodina MIT-lisenssillä.

Uutta Skosmos-versiota koskevaa palautetta voi lähettää osoitteeseen finto-posti@helsinki.fi, ja aiheeseen liittyvään keskusteluun voi osallistua skosmos-users -listalla.


Skosmos-ohjelmiston kehitystä tehdään kuukausittaisissa sprinteissä. Skosmoksen koko kehitysjonon ja aktiivisena olevien sprinttien kehitysjonot löydät täältä: https://github.com/NatLibFi/Skosmos/projects

Annif 0.58 julkaistu

Annifin versio 0.58 on julkaistu! Tässä julkaisussa on Annif saa uudeksi tekstin esikäsittelytyökaluksi Simplemman, jonka avulla voi perusmuotoistaa tekstin sanoja. Simplemma tukee 38 eri kieltä. Annifin projektien asetukset voi tästä lähtien jakaa useampaan eri tiedostoon, jotka sijaitsevat samassa hakemistossa (oletusnimeltään projects.d). Tämä uudistus helpottaa konfiguraationhallintaa silloin, kun käytössä on useita erilaisia projekteja. Version 0.58 julkaisun myötä Annifissa otetaan käyttöön Python 3.10 -tuki ja Python 3.7:stä luovutaan. Aiemmin koulutettuja malleja ei pitäisi joutua kouluttamaan uudelleen Python-päivityksen vuoksi. Annifin päivitykseen sisältyy myös pienempiä bugikorjauksia jne., ks. lisätietoja (englanniksi): https://github.com/NatLibFi/Annif/releases/tag/v0.58.0

finto.fi toimintahäiriö

finto.fi -palvelussa todettiin perjantai-iltapäivällä käytön estävä toimintahäriö.

Korjaus on odotettavissa maanantaina 11.7.2022.

Pahoittelemme käyttäjille aiheutuvaa haittaa.


KOKO päivitetty

Yleisontologia YSO:n ja erikoisontologiat yhdistävästä ontologiapilvi KOKO:sta on julkaistu uusi versio.

http://finto.fi/koko/

KOKOn rakentamislogiikkaa on paranneltu mm. käsittelemään paremmin vanhojen YSO-versioiden sisältämiä käsitehierarkioita - joskaan nämä uudistukset eivät ole tässä versiossa vielä täysin valmiina. Jos teillä on kysyttävää tai kommentoitavaa KOKO:sta, otamme palautetta mieluusti vastaan sähköpostitse finto-posti@helsinki.fi .

Tässä päivityksessä uudet KOKOn käsitteet ovat peräisin uudistetusta YSOsta, KAUNOsta ja LIIKOsta. Tarkempi muutosloki löytyy täältä.

YSO-aika julkaistu

https://finto.fi/yso-aika/

YSO-aika on kaksikielinen yleiskäyttöinen aikakäsitteistö, joka on tarkoitettu käytettäväksi sisällönkuvailussa. Se sisältää ajanjaksot ajanlaskun alun jälkeen vuosikymmenen tarkkuudella vuoteen 3000 asti, ja ennen ajanlaskun alkua vuosisadan tarkkuudella vuoteen 3000 eaa. asti.


Kulttuuris-kontekstuaalisesti aikaa kuvaavat asiasanat (esim. autonomian aika, varhaiskeskiaika) sisältyvät YSO-ontologiaan. YSO-aika on rakenteeltaan hierarkkinen kokonaisuus, joka perustuu käsitteiden välisille osa-kokonaisuus-suhteille. Käytettävien termimuotojen lisäksi sanasto sisältää ohjaustermejä, sekä ajanjaksojen alku- ja loppupäivät.


Sanaston ylläpidosta vastaa Sisällönkuvailun asiantuntijaryhmä ja Finto-palvelu. Lisätietoja mirja.anttila@helsinki.fi.

Finto haluaa kiittää OMA-ontologian toteutuksesta vastaavaa M-cultia hienosti alkaneesta yhteistyöstä. OMA-ontologia rikastaa mediataiteen kenttää ja me Fintossa olemme iloisia voidessamme tarjota ontologialle julkaisukanavan. 

OMA - Mediataiteen ontologia on YSO-pohjainen ja kolmikielinen (suomi, ruotsi, englanti) mediataiteen erikoisontologia. OMA kattaa mediataiteen alalajit ja rinnakkaiset taiteenalat sekä alan tekniikkaan, materiaaleihin ja estetiikkaan liittyvät käsitteet. Ontologian tietolähteinä ovat olleet mediataiteen kansainväliset sanastot, alan kirjallisuus ja teosten sisällönkuvailut sekä mediataiteen erityisalojen asiantuntijat.

OMA-ontologian toteutuksesta on vastannut Mediakulttuuriyhdistys M-cult ry osana Suomen Mediataideverkoston MEHI – Mediataiteen historia Suomessa -hanketta vuosina 2021-2022. 

http://finto.fi/oma/fi/

Finto AI:n automaattisessa asiasanoituksessa käyttämät koneoppimismallit on päivitetty. Päivityksessä on käytetty laajempaa ja tuoreempaa aineistoa mallien koulutuksessa. Uutta aineistoa on hankittu mm. Finnasta ja mukaan on saatu myös ruotsin- ja englanninkielistä lisäaineistoa Åbo Akademin julkaisuarkistosta. Lisäksi käytössä on tästä lähtien uusin YSO:n versio 2022.1.Filolaos (ml. YSO-paikat). 

Finto AI:n käyttämät, valmiiksi koulutetut mallit tarjotaan ladattavina tiedostoina niille, jotka haluavat pystyttää vastaavan palvelun paikallisesti, ks. https://annif.org/download/models/.

Uusi versio YKL:stä

Yleisten kirjastojen luokitusjärjestelmästä (YKL) on julkaistu uusi versio. Sen hakemistoa ja käyttöhuomautuksia on täydennetty useiden luokkien osalta. Luokan 32.3+ hierarkiaa ja luokkaotsikoita on uudistettu.

https://finto.fi/ykl/fi

Vuoden 2022 toinen YSO-kokous pidettiin 12.5.  Osallistujia oli 13 ja asialistalla oli kaikkiaan 217 ehdotusta. Uusia käsite-ehdotuksia oli 91, joista hyväksyttiin 60, hylättiin 14, sekä 3 siirrettiin jatkokäsittelyyn. Osa ehdotuksista lisätään ohjaustermeinä muille käsitteille. Uusia ohjaustermejä lisätään kaikkiaan useita kymmeniä. Muutosehdotuksia nykyisiin kästteisiin oli 106, joista ehdittiin käsitellä noin 50 ja hyväksyttiin pari kymmentä.   Uusina käsitteinä YSOon ovat tulossa mm.  anonyymi rekrytointi, datatalous, vihreä siirtymä, hummus, tortillat, parvorokko, Englannin sisällisota (1642-1651), Venäjän hyökkäys Ukrainaan 2022, koiruoho, daaliat, kaarisillat, vihersillat, toffee, kinuskikastike, auringonotto, rusketus. Seuraava YSO-kokous on syyskussa.

Saksan kansalliskirjasto (Deutsche Nationalbibliothek, DNB) on ottanut huhtikuussa 2022 käyttöön uuden automaattisen sisällönkuvailujärjestelmän EMa:n (Erschließungsmaschine), jonka ytimessä on Annif. Annif on Kansalliskirjastossa kehitettävä automaattisen asiasanoituksen työkalu, joka on avointa lähdekoodia. Annifista voi lukea lisää sen omilta verkkosivuilta (https://annif.org) tai asiakaswikistä (https://www.kiwi.fi/x/F4T6Bg). 

Aineiston sisällönkuvailu (aiheiden ilmaiseminen) takaa sen löydettävyyden esim. kirjastojen kokoelmista. Aineiston, erityisesti digitaalisen aineiston, määrän kasvaessa sen sisällönkuvailu ihmisvoimin hankaloituu. Suuren aineistomäärän sisällönkuvailun helpottamiseksi katsetta on käännetty erilaisiin koneoppimis- ja tekoälyratkaisuihin. Saksan kansalliskirjasto toteutti huhtikuun 2019 ja maaliskuun 2022 välillä projektin uuden automaattisen kuvailun järjestelmän kehittämiseksi korvaamaan vanha järjestelmä, jonka kehittäminen alkoi jo vuonna 2012.

Uusi EMa-järjestelmä tuottaa Deweyn kymmenluokitukseen DDC:hen perustuvaa automaattista luokitusta sekä Saksan yhteiseen auktoriteettitiedostoon (GND) pohjautuvaa asiasanoitusta. EMa-työkalua käytetään aluksi saksankielisille e-kirjoille, sähköisille lehtiartikkeleille ja painetuille yliopiston opinnäytetöille. Lisätietoa aiheesta englanniksi Annifin käyttäjien Google-keskustelualueella julkaistusta viestistä (linkki viestiketjuun) ja saksaksi Saksan kansalliskirjaston blogikirjoituksesta (https://blog.dnb.de/erschliessungsmaschine-gestartet/).

LIIKO päivitetty

Väylävirasto ja Sanastokeskus toteuttivat 2021-22 projektin, jossa tarkistettiin LIIKOn merenkulkuun liittyvä osa ja lisättiin uusia merenkulun käsitteitä. Työhön osallistui asiantuntijoita myös Forum Marinumista, Suomen merimuseosta ja Museovirastosta.

Tuttuun tapaan päivitetty LIIKO julkaistiin Finto.fi:ssä. Pääset tarkastelemaan uutta LIIKOa täältä: http://finto.fi/liiko/en/