Blog from December, 2019

Finto-palvelua on kehitetty Kansalliskirjastossa projektimuotoisesti vuodesta 2013 alkaen. Projektivaihe päättyi vuoden 2018 lopussa, jolloin Fintosta tuli osa Kansalliskirjaston tarjoamia pysyviä palveluita. 

Projektivaiheessa Finton kehittämistä rahoittivat Valtiovarainministeriö ja Opetus- ja kulttuuriministeriö. Pysyvän palvelun rahoitus tulee opetus ja kulttuuriministeriöltä ja sillä mahdollistetaan palvelu OKM:n hallinnonalan organisaatioille. Rahoitusmallin muuttuessa osa Finton palveluista joudutaan muuttamaan maksullisiksi OKM:n hallinnonalan ulkopuolisille organisaatioille.

Finto.fi:n selailu- ja rajapintakäyttö pysyvät kaikille maksuttomina jatkossakin. Maksullisuus koskee pääasiassa oman sanaston/ontologian julkaisua ja päivittämistä Finto.fi:ssä sekä oman sanaston kehittämiseen ja käyttöön liittyviä tukipalveluita.

Finto järjestää tammikuussa sidosryhmille keskustelutilaisuuden maksullisen palvelun mallista. Keskusteluja käydään myös organisaatiokohtaisesti tarpeen mukaan. Maksullisuus tulee voimaan vuoden 2020 aikana. 

Kansalliskirjasto odottaa luottavaisin mielin Finton ympärille muodostuneen laajan, hallinnon rajat ylittävän kumppanuusverkoston hyvin sujuneen yhteistyön jatkoa yhteentoimivuuden edistämiseksi myös tulevaisuudessa. 

Lisätietoa: Finton kehittämispäällikkö Mikko Lappalainen, etunimi[email protected]

Finton asiakaswikissä on julkaistu Finto-palvelun kokouskalenteri. Siinä esitetään Finto-palvelun toimintaan sisältyvät säännöllisesti järjestettävät kokoukset. Näitä ovat Finton yhteistyöverkoston kokoukset (kaksi kertaa vuodessa), Ontologiakehittäjien yhteistyöryhmän kokoukset (kaksi kertaa vuodessa) sekä YSO-kokoukset (neljä kertaa vuodessa). Säännöllisten kokousten lisäksi voidaan järjestää lisäkokouksia tarpeen mukaan. Asiakaswikissä näkyvässä kaaviossa on esitetty myös suuntaa-antava arvio kokousten ajankohdista. Kokouskalenteri löytyy täältä:

https://www.kiwi.fi/display/Finto/Finto-palvelun+kokouskalenteri

Lisätietoa kokouksista ja kokouskalenterista: [email protected]

Annif 0.45 julkaistu

Automaattinen asiasanoittaja Annif on päivittynyt! Tässä julkaisussa on uututena mukana Omikuji, joka tukee useita viime aikoina kehitettyjä ns. äärimmäiseen moniluokkaiseen luokitteluun (extreme multilabel classification) suunniteltuja koneoppimisalgoritmeja. Omikuji-algoritmeilla saadut testitulokset ovat ollet erittäin hyviä, ja aiomme panostaa niihin jatkossa. Vw-ensemble puolestaan on poistettu algoritmien joukosta, sillä nn-ensemblen toiminnallisuudet ovat samankaltaiset ja tulokset paremmat. `Train` ja `learn` -komentojen yhteydessä voi nyt myös uudelleenmääritellä .cfg-tiedostossa käytettyjä parametreja  (`--backend-param/-p`). Julkaisussa on mukana myös Python 3.8 -tuki (nn_ensembleä lukuunottamatta), sekä yleisiä parannuksia ja bugikorjauksia. Ks. tarkemmmat tiedot: https://github.com/NatLibFi/Annif/releases/tag/v0.45.0

Api.annif.org uudistuu tammikuussa 2020! Tavoitteenamme on ottaa käyttöön uudistettu rajapinta keskiviikkona 15.1.2020. Tähän tiedotteeseen on koottu yhteenveto odotettavissa olevista muutoksista rajapinnan nykyisille käyttäjille. Tiedotamme lisää, kun muutos on tehty.

Uudet algoritmit ja opetusaineistot

Annifia on aktiivisesti kehitetty vuoden 2019 aikana, mutta testirajapintapalvelu api.annif.org on pysynyt pitkään muuttumattomana. Nyt otamme käyttöön uusimman Annif-ohjelmistoversion sekä sen mukana tuomia uusia algoritmeja, jotka on koulutettu paljon entistä laajemmilla opetusaineistoilla. Parannusten pitäisi ennen kaikkea näkyä entistä osuvampina asiasanaehdotuksina. 

Uudempi YSO, jossa mukana myös YSO-paikat

Nykyinen api.annif.org-rajapintapalvelu käyttää Yleisen suomalaisen ontologian versiota 2018.3 Boëthius, joka on jo lähes kaksi vuotta vanha. Uudistuksen myötä YSO päivitetään uudempaan versioon 2019.3 Cicero. Lisäksi mukana ovat nyt myös YSO-paikat, joten Annifin rajapintapalvelu voi jatkossa ehdottaa myös paikannimiä aiheiksi.

Seuraava YSO:n jäädytetty versio julkaistaan alkukeväästä 2020 ja Annifin rajapintapalvelu siirtyy aikanaan käyttämään sitä. Tästä tiedotetaan erikseen.

Rajapinnan tarjoamat projektit

Annifin rajapinnassa on tarjolla useita projekteja, jotka tukevat tiettyä sanastoa ja kieltä. Projektivalikoima pysyy nykyisen kaltaisena, mutta pieniä muutoksia on odotettavissa, koska joidenkin projektien tausta-algoritmit vaihtuvat. Tarjolla on jatkossakin ainakin nämä projektit:

  • yso-fi / yso-sv / yso-en: Yleisprojektit YSO:n käyttöön kolmella kielellä
  • wikidata-en: Wikidata-aiheita englanninkielisen tekstin pohjalta ehdottava projekti
  • hogwarts: Tylypahkan tupia nimen perusteella ehdottava projekti

Muutoksia rajapinnan metodinimissä

Annifin rajapinnan keskeisin metodi, jolle annetaan tekstiä ja joka ehdottaa aiheita, on alkuperäiseltä nimeltään “analyze”. Tämän metodin nimi kuitenkin todettiin harhaanjohtavaksi ja nykyisin se tunnetaan nimellä “suggest”. Suosittelemme, että sovellukset siirtyvät käyttämään uutta metodinimeä, joka toimii jo nyt. Vanhakin nimi kuitenkin toimii jatkossakin, vaikka sitä ei uudistuksen jälkeen enää mainita rajapinnan dokumentaatiossa.

Rajapintaan tulee myös uusi learn-metodi, jota voidaan käyttää Annifin opettamiseen esimerkiksi sen jälkeen, kun kuvailija on tarkistanut Annifin ehdottamat aiheet ja korjaillut niitä. Tämän metodin käyttö testirajapinnassa ei tässä vaiheessa kuitenkaan ole sallittua, koska haluamme ensin selvittää huolellisesti, miten palautteesta oppiminen käytännössä vaikuttaa Annifin ehdotusten laatuun ja sitten päättää, miten laajaan käyttöön learn-metodi voidaan avata.

Annif-prototyypin rajapinta v0 poistuu käytöstä

Osoitteessa api.annif.org/v0/ on ollut jo vuoden 2017 keväästä asti tarjolla Annifin alkuperäisen prototyypin rajapinta. Se poistuu käytöstä rajapintauudistuksen myötä.

Suojattu HTTPS-yhteys tulossa

Testirajapinta api.annif.org ei vielä ole käytettävissä suojatun HTTPS-yhteyden yli. Pyrimme mahdollistamaan HTTPS-käytön mahdollisimman pian, mutta tähän uudistukseen se ei vielä välttämättä ehdi.

Kohti tuotantokäyttöön soveltuvaa rajapintaa

Testirajapinnan uudistus on ensimmäinen askel kohti tavoitettamme tarjota tuotantokäyttöön soveltuva automaattisen sisällönkuvailun rajapinta Finton rajapinnan yhteyteen vuoden 2020 kevääseen mennessä. Tekniikaltaan uusi rajapinta tulee olemaan lähes identtinen api.annif.org-testirajapinnan kanssa, mutta se on tarkoitettu tuotantokäyttöön ja tarjolla on vain rajallinen joukko projekteja, ensi vaiheessa YSO:lle (kolmella kielellä) mutta tulevaisuudessa myös muille sanastoille. Uudesta rajapinnasta tiedotetaan erikseen ja sen käyttöön tullaan tarjoamaan tarkempaa ohjeistusta ja tukipalveluja.


Kirjastoverkkopäivillä 2019 järjestetystä automaattisen sisällönkuvailun työpajasta on nyt julkaistu Tietolinja-lehdessä 2/2019 raportti, joka on luettavissa osoitteessa http://urn.fi/URN:NBN:fi-fe2019120445612.

Työpaja keskittyi eri tavoin tuotettujen kuvailujen laadun arviointiin. Kuvailuja oli tuotettu sekä ihmisvoimin että täysin koneellisesti tai koneen avustamana. Kuvaillut aineistot olivat mm. uutistekstejä, tietokirjoja ja pro gradu –tutkielmia. Automaattiset ja puoliautomaattiset kuvailut oli tuotettu Annif-työkalulla. Ihmisten tuottamat kuvailut arvioitiin laadukkaimmiksi kuin koneelliset; erot kuitenkin kaventuvat algoritmien kehittyessä ja koneelliset kuvailutkin menestyivät hyvin esim. gradujen kohdalla. Annifin käyttämistä algoritmeista parhaiten suoriutui muita algoritmeja yhdistelevä ensemble.

Työpajasta saatiin arvokasta palautetta Annifista ja automaattisesta kuvailusta, lämmin kiitos kaikille osallistujille!


Annif-tutoriaali

Hei,

Järjestimme SWIB19 –konferenssissa työpajan, jossa esittelimme automaattisen asiasanoituksen työkalua Annifia ja sen käyttöä. Työpaja painottui harjoitusten tekemiseen, mutta sisälsi myös esittelyä ja luentomaisempia osuuksia. Harjoitusaineistoina työpajassa käytettiin englanninkielisiä graduja ja taloustieteen julkaisuja, joita analysoitiin Annifin tärkeimmillä algoritmeilla. Työpajan (englanninkieliset) materiaalit ovat nyt julkisesti saatavilla os. https://github.com/NatLibFi/Annif-tutorial - halukkaat ovat siis tervetulleita kokeilemaan harjoituksia ja opiskelemaan Annifin käyttöä itsenäisesti! Harjoitukset toimivat useimmilla käyttöjärjestelmillä koneella, jossa on vähintään 8 GB keskusmuistia (RAM) ja 20 GB vapaata levytilaa, tarkemmat asennusohjeet ovat ensimmäisessä tehtävässä.

Otamme myös mielellään vastaan palautetta tutoriaalista, tarkoituksenamme on mahdollisuuksien mukaan järjestää vastaava Suomessakin keväällä/kesällä 2020 (tiedot tarkentuvat myöhemmin). Voit ottaa yhteyttä allekirjoittaneisiin vaikka s-postilla (osoitteet muotoa etunimi.sukunimi(a)helsinki.fi).


Osma Suominen, Mona Lehtinen ja Juho Inkinen

Finto-palvelu on julkaissut Asiasanastot ja ontologiat -asiakaswikissä ohjeen YSO-pohjaisten ontologioiden käytöstä sisällönkuvailussa. Tämä täydentää jo aiemmin julkaistua yleisempää ohjetta ontologioiden käytöstä sisällönkuvailussa. Nyt julkaistu ohje keskittyy YSO-pohjaisten ontologioiden kuvailukäytön erityispiirteisiin. Finto-palvelu on laatinut ohjeet käyttäen pohjana KAUNO-ontologiaa koskevia kuvailuohjeita, jotka laadittiin yhdessä Kirjastopalvelun ja Helsingin kaupunginkirjaston KAUNO-ylläpidon kanssa. Ohje YSO-pohjaisten ontologioiden käytöstä sisällönkuvailussa löytyy täältä:
https://www.kiwi.fi/x/2IcdCw
Mikäli ohjeesta on kommentoitavaa, otamme mielellämme palautetta vastaan osoitteessa: [email protected]

Alkuperäisen blogitekstin lisännyt Tuomas Palonen joulukuuta 02, 2019