Melindan tuplakontrolli ei sovellu automaattisten tuplasiivousajojen toteuttamiseen, joten tähän on vuosien varrella pyritty kehittämään työkaluja. Käytettäviä algoritmeja kehitetttiin 2014-2015 yhteistyössä tekniikka- ja sisältöasiantuntijoiden kesken siten, että tietueissa tutkittavat piirteet perustuivat formaatin ja kuvailusääntöjen mukaisiin merkittäviin piirteisiin, joiden keskinäisiä painoarvoja hiottiin kokeilemalla työkaluja testiaineistoon. Vertailussa käytettävien painotuksia kehitettiin myös "kouluttamalla" algoritmeja Merge+ -ohjelman lokien perusteella - siis tutkimalla ihmisen yhdistämiä tietueita ja tunnistamalla näistä koneellisesti, mitkä piirteet ovat samankaltaisuuden määrittelyssä merkityksellisiä.

Automaattisen deduplikoinnin menetelmässä oli kolme vaihetta:

  1. Kandidaattien valinta. Algoritmi kävi läpi Melindan tietueita tunnistaen tietueet, jotka saattoivat viitata samaan nimekkeeseen.
  2. Samankaltaisuuden validointi. Tietokannasta haravoituja tuplaehdotuksia vertailtiinn. Algoritmi palautti samankaltaisuuden astetta kuvaavan luvun väliltä [0,1], jossa '0' merkitsi täyttä varmuutta siitä, että tietueet kuvasivat eri nimekettä ja arvo '1' kuvasi täyttä samankaltaisuutta.
  3. Tuplatietueiden yhdistäminen. Kun tuplatietueet oli tunnistettu, ne yhdistettiin automaattisesti. Viimeisessä vaiheessa määritettiin, kumpi tietue kahdesta oli "parempi" - siis se, joka otetaan yhdistettäessä pohjaksi, ja miten tietueet yhdistetään.

Automaattinen deduplikointi oli käytössä syksyllä 2017 Melindassa taustaprosessina, joka etsi tuplia aina tietueen tallentamisen yhteydessä. Koska prosessi yhdisti tietueita myös väärin, sen käyttö lopetettiin. 

Automaattisen deduplikoinnin yhdistämiä tietueita löytyy Melindasta ja sellaiset tietueet tunnistaa 583-kentästä:
583 $a AUTOMATICALLY MERGED FROM (FI-MELINDA)005330750 + (FI-MELINDA)005330749 $c 2017-10-24T12:46:18+03:00 $5 MELINDA

Osa automaattisesti yhdistyneistä tietueista on ohjelman väärinyhdistämiä tietuepareja. Kuvailijoita pyydetään ilmoittamaan väärinyhdistyneistä tuplista melinda-posti(at)helsinki.fi  • No labels