Blog from April, 2021

Annifin ja Finto AI:n mallipäivityskierros on nyt saatu päätökseen. Käytössä on tästä lähtien uusin YSO:n versio 2021.3.Epikuros. Käytössä olevat algoritmit on myös koulutettu uudestaan käyttämällä tuoreempaa ja laajempaa aineistoa mm. Finnasta sekä korvattu Maui-algoritmi uudella MLLM-algoritmilla, joka julkaistiin osana äskettäin julkaistua Annif 0.52 versiota (kts alla).

Olemme myös julkaisseet Finto AI:n käyttämät, valmiiksi koulutetut mallit ladattavina tiedostoina niille, jotka haluavat pystyttää vastaavan palvelun paikallisesti. Ladattavat mallit löytyvät osoitteesta https://annif.org/download/models/

Finto AI:n käyttämä verkkolomake on myös uudistunut: se tarjoaa nyt mahdollisuuden kopioida ehdotettu asiasana, sen URI tai Melinda-tietue leikepöydälle nappia painamalla.

Annif-työkalun versio 0.52 on julkaistu. Uusimmassa versiossa on mukana uusi MLLM- eli Maui-like Lexical Matching -algoritmi; kyseessä on siis Mauin kaltainen leksikaalinen algoritmi. MLLM soveltaa monia Mauin keskeisiä ideoita, mutta se on toteutettu Python-ohjelmointikielellä, joten sitä on kätevämpi käyttää Annifissa. Mauin kehitti alunperin Alyona Medelyan (https://hdl.handle.net/10289/3513), ja se on ollut käytössä Annifissa pitkään. Kuten Maui, myös MLLM voidaan kouluttaa suhteellisen pienellä määrällä koulutusaineistoa (puhutaan sadoista tai tuhansista dokumenteista). Valmiiksi asiasanoitetun koulutusaineiston perusteella algoritmi osaa valita parhaat heuristiikat juuri tietyn tyyppiselle aineistolle. Lue lisää MLLM:stä Annifin wikistä. Päivityksen myötä tulee mahdolliseksi myös säätää lyhyimmän algoritmien huomioiman sanan pituutta sekä neuroverkko-ensemblen oppimista. Huom. tämän päivityksen jälkeen STWFSA-mallit tulee kouluttaa uudelleen, sillä vanhat mallit eivät ole yhteensopivia uuden version kanssa.

Muistattehan myös Annif-koulutuksen työpajapäivän 19.5., lisätietoja ja ilmoittautuminen os. https://www.kiwi.fi/x/FwW5D

Osana Kansallisarkiston Europeana Heraldica -palvelun uudistusta Fintossa on julkaistu HERO - Heraldiikan ontologia: https://finto.fi/hero

HERO sisältää vaakunoiden kuvailuun käytettyjä heraldisia termejä. Europeana Heraldica -tietokannan sisältämät vaakunat on kuvailtu Heraldiikan ontologian käsitteitä hyödyntäen. Finton alustalle toteutettu HERO-sanasto perustuu avoimeen dataan ja on siten vapaasti kaikkien käytettävissä joko perinteisesti selaillen tai avoimen ohjelmointirajapinnan (API) kautta hyödyntäen. HEROn kehitystyö jatkuu ja sen sisältöjä tullaan päivittämään säännöllisesti.

Lue koko uutinen HEROsta ja Europena Heraldicasta Kansallisarkiston sivuilta: https://arkisto.fi/news/2790/61/Uudistunut-Europeana-Heraldica-tietokanta-ja-Heraldiikan-ontologia-sanastopalvelu-avattu


Kansalliskirjaston, CSC:n ja Kansallisarkiston yhteinen High Performance Digitisation -hanke on taannoin päättynyt. Hanke pureutui kasvavan digitaalisen aineistomäärän käsittelyn haasteeseen. Tarkoituksena oli helpottaa muistiorganisaatioiden aineiston käsittelyä / annotointia älykkäillä puoliautomaattisilla ratkaisuilla. Hankkeesta voi lukea lisää mm. tästä blogitekstistä.

Hankkeen yhtenä lopputuotoksena on ilmestyi loppuvuodesta 2020 ensimmäinen julkaisu: Automaattisen kuvailun palvelun integroiminen Kansalliskirjaston järjestelmäkokonaisuuteen - tietovirrat ja prosessit (http://urn.fi/URN:ISBN:978-951-51-6986-0). Tekstissä käsitellään automaattisen kuvailun työkalun Annifin hyödyntämistä Kansalliskirjastossa ja kuvataan Kansalliskirjaston järjestemiä Annif-integraation näkökulmasta.

Hankkeen toinenkin julkaisu Sisällönkuvailun automatisoinnin haasteita ja ratkaisuja kulttuuriperintöorganisaatiossa on nyt ilmestynyt (http://urn.fi/URN:ISBN:978-951-51-7233-4). Tämä julkaisu pureutuu tarkemmin tekstiaineistojen automaattisen sisällönkuvailun haasteisiin ja ratkaisuihin erityisesti KAM-sektorin (kirjastot, arkistot ja museot) organisaatioiden näkökulmasta. Esimerkkinä toimii Annif sekä CSC:n että Kansalliskirjaston teknisissä käyttöympäristöissä.

Kansalliskirjaston Finto-palvelu on julkaissut version 2.10 Finto.fi:n taustaohjelmisto Skosmoksesta.

Julkaisu kattaa lukuisia parannuksia, ml. uudistettu Docker-asennusmahdollisuus, päivityksiä Skosmoksen käyttämiin ohjelmistokirjastoihin sekä parannuksia Skosmoksen palautelomakkeeseen.


Tarkemmat tiedot uudesta julkaisusta löydät Skosmoksen Github-sivulta:

https://github.com/NatLibFi/Skosmos/releases/tag/v2.10


Githubin wikistä löytyy ohjeet uuden version asennukseen ja päivitykseen:

https://github.com/NatLibFi/Skosmos/wiki/Upgrading#from-skosmos-29-to-210

Skosmos 2.10 on saatavilla avoimena lähdekoodina MIT-lisenssillä.


Uutta Skosmos-versiota koskevaa palautetta voi lähettää osoitteeseen [email protected], ja aiheeseen liittyvään keskusteluun voi osallistua https://groups.google.com/g/skosmos-users -listalla.

Skosmos-ohjelmiston kehitystä tehdään säännöllisin väliajoin sprinteissä. Skosmoksen koko kehitysjonon ja aktiivisena olevien sprinttien kehitysjonot löydät täältä: https://github.com/NatLibFi/Skosmos/projects