Blog

Tutkimuksen datapalveluihin keskittynyt Yhdistyneiden kuningaskuntien kansallinen UK Data Service on julkaissut oman HASSET-sanastonsa uudella Skosmos-pohjaisella alustalla: http://hasset.ukdataservice.ac.uk/ HASSET eli The Humanities and Social Science Electronic Thesaurus on brittien johtava yhteiskuntatieteellinen sanasto, jota hyödynnetään laajasti UK Data Servicen ja muiden organisaatioiden aineistojen kuvailussa ja tiedonhaussa.

Uuden Skosmos-ohjelmistoon perustuvan HASSET-alustan kehittäjät ovat olleen hyvin tyytyväisiä Finto-palvelun kehittämään ohjelmistoon, ja ovat kehuneet Skosmosta useassa yhteydessä. Lisätetoa Skosmoksesta ja listan muista ohjelmiston hyödyntäjistä löydät täältä: Skosmos-ohjelmisto

Annif-työkalun versio 0.54 on julkaistu. Tässä julkaisussa on mukana `--jobs` -parametri, jota voi käyttää  `annif train` -komennon kanssa. Parametrilla voi hallita käytettävien CPU:iden (prosessori) määrää esimerkiksi koulutettaessa MLLM-, fasttext- tai Omikuji -malleja. Annifin uusi versio sisältää myös muita parannuksia ja bugikorjauksia, esimerkiksi MLLM on nyt nopeampi käyttää etenkin suurten sanastojen kanssa. Lisätietoja: https://github.com/NatLibFi/Annif/releases/tag/v0.54.0.

Yleisten kirjastojen luokitusjärjestelmä (YKL) on ajantasaistettu ja julkaistu.

YKL:n hierarkia on laajentunut sekä lisäksi luokkia on rikastettu ja hakujen kattavuutta parannettu uusilla ohjaustermeillä. Uusia ohjaustermejä ovat muun muassa avaruusteknologia, kuntavaalit ja merirosvous.

Lisäksi YKL sai uuden luokan Taloushistoria (36.09).

Päivityksen toivotaan helpottavan luokitusten parissa työskentelyä ja muutosten kattavan paremmin joitain aiemmin ilmenneitä puutteita.

Liiketoimintaontologia LIITO on yhdistetty Julkisen hallinnon palveluontologia JUPOon kesällä 2021. LIITOn käsitteillä täydennetty JUPO on julkaistu Finto.fi:ssä: https://finto.fi/jupo

LIITOn käsitteet on poistettu käytöstä, ja käsitteiden pysyvät tunnisteet ohjaavat korvaaviin JUPO-käsitteisiin. LIITOn vanha Finto.fi-etusivu, ja käsitteiden sivut ohjaavat myös jatkossa JUPOon.

Julkisen hallinnon palveluontologia JUPO on Digi- ja väestötietoviraston (DVV) hallinnoima YSO-pohjainen erikoisontologia. JUPO edistää palvelujen semanttisesti yhdenmukaista kuvailua ja löydettävyyttä eri verkkopalveluissa sekä helpottaa palveluja koskevan tiedon käyttämistä ja tuottamista tietoverkoissa. JUPOa hyödynnetään esimerkiksi Suomi.fi -verkkopalvelun taustalla olevan Palvelutietovarannon tietojen kuvailussa.

Artikkelin Annif and Finto AI: Developing and Implementing Automated Subject Indexing preprint-versio on luettavissa os. https://urn.fi/URN:NBN:fi-fe2021080942632. Artikkelissa esitellään Annifia ja Finto AI:ta uusine kuulumisineen, pureudutaan uusien algoritmien suorituskykyyn sekä automaattisen sisällönkuvailun käyttökohteisiin.

Käsikirjoitus on hyväksytty julkaistavaksi JLIS.it -lehdessä (Italian Journal of Library, Archives, and Information Science) ja sen lopullinen versio ilmestyy avoimena julkaisuna todennäköisesti vuoden 2022 alussa.

Liikenteen ontologia LIIKO on päivitetty ja julkaistu Finto.fi:ssä: https://finto.fi/liiko

LIIKOn omaan sisältöön on tullut on päivityksiä ja siihen sisältyvä YSO on päivitetty uusimpaan Epikuros-versioon.

Tunnetko jo LIIKOn? LIIKO on Väyläviraston hallinnoima YSO-pohjainen erikoisontologia, joka sisältää erityisesti merenkulkualan, tieliikenteen ja rautatieliikenteen käsitteistöä. LIIKO on julkaistu Finto.fi:ssä linkitetynä datana avoimesti kaikkien käyttöön, tutustu LIIKOon vaikka heti!

Suomen Mediataideverkosto käynnistää MEHI – Mediataiteen historia Suomessa -hankkeen 2021–2023. Hankkeessa luodaan mediataiteen tietokanta, laaditaan mediataiteen erikoisontologia sekä kerätään ja luetteloidaan suomalaisen mediataiteen historiatietoa.

MEHI-hanke rekrytoi kaksi informaatikkoa.

Toinen informaatikoista kokoaa Suomalaisen mediataiteen erityisontologiaa. Työ sisältää asiasanoitusta sisällönkuvailujen pohjalta sekä sanaston editoinnin ja linkittämisen osaksi Kansalliskirjaston ylläpitämää YSO-ontologiaa. Ontologia on kolmikielinen (fi-sve-eng) ja se julkaistaan finto.fi:ssä.


Lue tarkemmat kuvaukset avoinna olevista paikoista Suomen Mediataideverkosto ry:n sivuilta: http://mediataide.fi/?p=273

Annif 0.53 julkaistu

Annif-työkalun versio 0.53 on julkaistu. Tässä julkaisussa on mukana kaksi uutta tausta-algoritmia, Yake ja SVC. YAKE on uusi leksikaalinen tausta-algoritmi, joka ei tarvitse koulutusaineistoa. Tällä hetkellä sen suorituskyky ei vastaa muiden leksikaalisten algoritmien tasoa, mutta se avaa joka tapauksessa uusia mielenkiintoisia mahdollisuuksia. Tulevaisuudessa sillä saattaa pystyä tuottamaan asiasanaehdotuksia myös sanaston ulkopuolelta. Lisätietoa https://github.com/NatLibFi/Annif/wiki/Backend%3A-YAKE. SVC puolestaan hyödyntää lineaarista tukivektoriluokittelua. Se tarjoaa hyvän mahdollisuuden luokitusten (esim. YKL, DDC) käyttöön. Se vaatii melko vähän koulutusdataa, ja toimii max. 10 000 luokan luokituksilla, ks. lisätiedot https://github.com/NatLibFi/Annif/wiki/Backend%3A-SVC

Tässä julkaisussa on myös päivitetty riippuvuuksia, ja kaikki Annifin taustamallit voivat nyt käyttää Python 3.9:ää. Annifin Docker-kuva käyttää nyt Pythonin versiota 3.8. Huom! Tietyllä Pythonin versiolla koulutetut nn-ensemble -mallit eivät toimi muilla, esim. versio 3.7:llä koulutetut nn-ensemble -mallit toimivat vain Python 3.7:llä. Nn-ensemblen koulutuksen yhteydessä ilmestyvän `CustomMaskWarning` -varoituksen voi jättää huomiotta (ilmoitus johtuu TensorFlown bugista). Vanhoilla Annifin versioilla koulutetut TFIDF-, MLLM- ja Omikuji- mallit saattaavat myös antaa virheilmoituksia TfidfVectorizeriin liittyen. Tämä johtuu scikit-learn -kirjaston päivityksestä ja on tietääksemme harmiton varoitus, joka poistuu uudelleenkouluttamalla mallit. Uusimmassa Annifin julkaisussa on myös mukana muita pieniä parannuksia ja bugikorjauksia, ks. lisätiedot: https://github.com/NatLibFi/Annif/releases/tag/v0.53.0.

Kansalliskirjaston Finto-palvelu on julkaissut uuden version Finto.fi:n taustaohjelmisto Skosmoksesta.


Skosmoksen uusi versio 2.11 pitää sisällään pieniä uudistuksia ja korjauksia. Tarkemmat tiedot uudesta julkaisusta löydät Skosmoksen Github-sivulta:

https://github.com/NatLibFi/Skosmos/releases/tag/v2.11. Githubin wiki-sivulta löydät ohjeet uuden version asennukseen ja päivitykseen:

https://github.com/NatLibFi/Skosmos/wiki.


Skosmos 2.11 on saatavilla avoimena lähdekoodina MIT-lisenssillä.

Uutta Skosmos-versiota koskevaa palautetta voi lähettää osoitteeseen finto-posti@helsinki.fi, ja aiheeseen liittyvään keskusteluun voi osallistua skosmos-users -listalla.


Skosmos-ohjelmiston kehitystä tehdään kuukausittaisissa sprinteissä. Skosmoksen koko kehitysjonon ja aktiivisena olevien sprinttien kehitysjonot löydät täältä: https://github.com/NatLibFi/Skosmos/projects

Uusia käsitteitä ja muutoksia olemassaoleviin käsitteisiin voi jatkossa ehdottaa suoraan finto.fi:stä. Uusia käsitteitä voi ehdottaa sanaston etusivun alareunasta löytyvästä linkistä avautuvalla ehdotuslomakkeella. Muutoksia voi ehdottaa suoraan käsitesivulta avautuvalla lomakkeella.


Linkki ehdotuslomakkeelle YSOn etusivulla finto.fi/yso.


Linkistä avautuva ehdotuslomake.


Linkki ehdotuslomakkeeseen YSOn käsitesivulla.


Ehdotuslomakkeet ovat alkuun käytössä YSOlle ja YSO-paikoille. 

Ehdotus.finto.fi -sivuston päivitys lakkautetaan lomakkeiden siirtyessä finto.fi:hin. Ehdotusten GihHubista löytyvä keskustelualusta, sekä ehdotettujen käsitteiden YSE-sanasto säilyvät käytössä normaaliin tapaan. Ehdotusjärjestelmäkokonaisuudesta, ja käsite-ehdotusten käsittelyprosessista voit lukea lisää täältä: https://www.kiwi.fi/x/uolFB

Annifin ja Finto AI:n mallipäivityskierros on nyt saatu päätökseen. Käytössä on tästä lähtien uusin YSO:n versio 2021.3.Epikuros. Käytössä olevat algoritmit on myös koulutettu uudestaan käyttämällä tuoreempaa ja laajempaa aineistoa mm. Finnasta sekä korvattu Maui-algoritmi uudella MLLM-algoritmilla, joka julkaistiin osana äskettäin julkaistua Annif 0.52 versiota (kts alla).

Olemme myös julkaisseet Finto AI:n käyttämät, valmiiksi koulutetut mallit ladattavina tiedostoina niille, jotka haluavat pystyttää vastaavan palvelun paikallisesti. Ladattavat mallit löytyvät osoitteesta https://annif.org/download/models/

Finto AI:n käyttämä verkkolomake on myös uudistunut: se tarjoaa nyt mahdollisuuden kopioida ehdotettu asiasana, sen URI tai Melinda-tietue leikepöydälle nappia painamalla.

Annif-työkalun versio 0.52 on julkaistu. Uusimmassa versiossa on mukana uusi MLLM- eli Maui-like Lexical Matching -algoritmi; kyseessä on siis Mauin kaltainen leksikaalinen algoritmi. MLLM soveltaa monia Mauin keskeisiä ideoita, mutta se on toteutettu Python-ohjelmointikielellä, joten sitä on kätevämpi käyttää Annifissa. Mauin kehitti alunperin Alyona Medelyan (https://hdl.handle.net/10289/3513), ja se on ollut käytössä Annifissa pitkään. Kuten Maui, myös MLLM voidaan kouluttaa suhteellisen pienellä määrällä koulutusaineistoa (puhutaan sadoista tai tuhansista dokumenteista). Valmiiksi asiasanoitetun koulutusaineiston perusteella algoritmi osaa valita parhaat heuristiikat juuri tietyn tyyppiselle aineistolle. Lue lisää MLLM:stä Annifin wikistä. Päivityksen myötä tulee mahdolliseksi myös säätää lyhyimmän algoritmien huomioiman sanan pituutta sekä neuroverkko-ensemblen oppimista. Huom. tämän päivityksen jälkeen STWFSA-mallit tulee kouluttaa uudelleen, sillä vanhat mallit eivät ole yhteensopivia uuden version kanssa.

Muistattehan myös Annif-koulutuksen työpajapäivän 19.5., lisätietoja ja ilmoittautuminen os. https://www.kiwi.fi/x/FwW5D

Osana Kansallisarkiston Europeana Heraldica -palvelun uudistusta Fintossa on julkaistu HERO - Heraldiikan ontologia: https://finto.fi/hero

HERO sisältää vaakunoiden kuvailuun käytettyjä heraldisia termejä. Europeana Heraldica -tietokannan sisältämät vaakunat on kuvailtu Heraldiikan ontologian käsitteitä hyödyntäen. Finton alustalle toteutettu HERO-sanasto perustuu avoimeen dataan ja on siten vapaasti kaikkien käytettävissä joko perinteisesti selaillen tai avoimen ohjelmointirajapinnan (API) kautta hyödyntäen. HEROn kehitystyö jatkuu ja sen sisältöjä tullaan päivittämään säännöllisesti.

Lue koko uutinen HEROsta ja Europena Heraldicasta Kansallisarkiston sivuilta: https://arkisto.fi/news/2790/61/Uudistunut-Europeana-Heraldica-tietokanta-ja-Heraldiikan-ontologia-sanastopalvelu-avattu


Kansalliskirjaston, CSC:n ja Kansallisarkiston yhteinen High Performance Digitisation -hanke on taannoin päättynyt. Hanke pureutui kasvavan digitaalisen aineistomäärän käsittelyn haasteeseen. Tarkoituksena oli helpottaa muistiorganisaatioiden aineiston käsittelyä / annotointia älykkäillä puoliautomaattisilla ratkaisuilla. Hankkeesta voi lukea lisää mm. tästä blogitekstistä.

Hankkeen yhtenä lopputuotoksena on ilmestyi loppuvuodesta 2020 ensimmäinen julkaisu: Automaattisen kuvailun palvelun integroiminen Kansalliskirjaston järjestelmäkokonaisuuteen - tietovirrat ja prosessit (http://urn.fi/URN:ISBN:978-951-51-6986-0). Tekstissä käsitellään automaattisen kuvailun työkalun Annifin hyödyntämistä Kansalliskirjastossa ja kuvataan Kansalliskirjaston järjestemiä Annif-integraation näkökulmasta.

Hankkeen toinenkin julkaisu Sisällönkuvailun automatisoinnin haasteita ja ratkaisuja kulttuuriperintöorganisaatiossa on nyt ilmestynyt (http://urn.fi/URN:ISBN:978-951-51-7233-4). Tämä julkaisu pureutuu tarkemmin tekstiaineistojen automaattisen sisällönkuvailun haasteisiin ja ratkaisuihin erityisesti KAM-sektorin (kirjastot, arkistot ja museot) organisaatioiden näkökulmasta. Esimerkkinä toimii Annif sekä CSC:n että Kansalliskirjaston teknisissä käyttöympäristöissä.

Kansalliskirjaston Finto-palvelu on julkaissut version 2.10 Finto.fi:n taustaohjelmisto Skosmoksesta.

Julkaisu kattaa lukuisia parannuksia, ml. uudistettu Docker-asennusmahdollisuus, päivityksiä Skosmoksen käyttämiin ohjelmistokirjastoihin sekä parannuksia Skosmoksen palautelomakkeeseen.


Tarkemmat tiedot uudesta julkaisusta löydät Skosmoksen Github-sivulta:

https://github.com/NatLibFi/Skosmos/releases/tag/v2.10


Githubin wikistä löytyy ohjeet uuden version asennukseen ja päivitykseen:

https://github.com/NatLibFi/Skosmos/wiki/Upgrading#from-skosmos-29-to-210

Skosmos 2.10 on saatavilla avoimena lähdekoodina MIT-lisenssillä.


Uutta Skosmos-versiota koskevaa palautetta voi lähettää osoitteeseen finto-posti@helsinki.fi, ja aiheeseen liittyvään keskusteluun voi osallistua https://groups.google.com/g/skosmos-users -listalla.

Skosmos-ohjelmiston kehitystä tehdään säännöllisin väliajoin sprinteissä. Skosmoksen koko kehitysjonon ja aktiivisena olevien sprinttien kehitysjonot löydät täältä: https://github.com/NatLibFi/Skosmos/projects

Yleisestä suomalaisesta ontologiasta (YSO) on julkaistu uusi jäädytetty versio 2021.3.Epikuros. Se on erityisesti erikoisontologioiden kehittäjille suunnattu versio YSOsta, johon ei päivitetä finto.fi:n YSO-julkaisuversiossa näkyviä jatkuvia muutoksia. 2021.3.Epikuroksen kehitysversio on optimoitu TopBraid Composer editointityökalulla tapahtuvaa ontologiatyötä ajatellen ja se poikkeaa tietomalliltaan joiltain osin YSOn julkaisuversiosta. Edellinen jäädytetty versio 2020.1.Diotima julkaistiin alkuvuonna 2020. Nyt julkaistu 2021.3.Epikuros vastaa YSOn tilaa 19.3.2021 ja löytyy alla olevasta linkistä:

https://github.com/NatLibFi/Finto-data/tree/master/vocabularies/yso/releases/2021.3.Epikuros

Epikuros sisältää seuraavat, edellisestä jäädytetystä YSO-versiosta (2020.1.Diotima) puuttuvat lisäykset ja uudistukset:

  • Kaikki vuoden 2020 YSO-kokouksissa päätetyt uudet käsitteet sekä käsitteiden muutokset
  • YSO-paikkojen osalta koordinaattitiedot Maanmittauslaitoksen paikannimirekisteristä sekä Wikidatasta

Alla olevasta linkistä (xlsx-taulukko) löytyvät listattuna erillisiin välilehtiin YSOn Diotima-versioon verrattuna tapahtuneet prefLabel-muutokset kaikilla kolmella kielellä, uudet käsitteet ja käytöstä poistetut käsitteet:

YSO-muuttuneet-Epikuros.xlsx


Antiikin Kreikan filosofi Epikuros on tämänkertaisen YSO-version suojelija ja innoittaja. Hän korosti voimakkaasti sitä, että on välttämätöntä pyrkiä riippumattomuuteen kaikista ulkoisista olosuhteista. Hän korosti epistemologiassaan aistien merkitystä: kaikki, mitä ihmiset aistivat, on heidän mielestään myös olemassa. Tuotteliaana kirjailijana hän laati vajaa 300 kirjakääröä. Epikuroksen tiedetään sanoneen "Mielihyvä on onnellisen elämän alku ja loppu".

Lisätietoja tästä versiosta: finto-posti@helsinki.fi