Aika: Keskiviikko 14.11.2018 klo 13-16

Paikka: Kansalliskirjasto, Fabiania, Pohto (CK137)

Etäyhteys: https://connect.funet.fi/kk_finto/

Osallistujat

PaikallaEtänäPoissa
  • Mikko Lappalainen, KK, pj.
  • Jarmo Saarikko, KK, siht.
  • Alex Kourijoki, KK
  • Mirja Anttila, KK
  • Ulla Ikäheimo, KK
  • Minttu Hurme, KK
  • Nicholas Volk, KK
  • Ville Huhtala, HULib
  • Maria Kovero, HULib
  • Jaakko Tuohiniemi, HULib
  • Okko Vainonen, KK
  • Saijamari Pakkala, PIKI
  • Anna Viitanen, Vaski
  • Maria Forsén, ÅAB
  • Osma Suominen, KK
  • Tapani Moisio, KK

Edellinen kokous:  2018-10-02 YSAsta ja Allärsistä YSOon konversioyhteistyöryhmän kokous

Linkkejä: #ysall2yso Konversioyhteistyöryhmän päätökset  |  Konversiosäännöt

Asialista

1 Kokouksen avaus

  • Mikko Lappalainen avasi kokouksen. 

2 Todetaan läsnäolijat

  • Merkittiin tiedoksi. Okko Vainonen kutsuttu mukaan ryhmään.

3 Hyväksytään asialista

  • Hyväksyttiin asialista.

4 Konversion työtila Kiwissä

5 SKOS to MARCXML konversio-ohjelma 

  • UTF-8 merkistöongelma korjattu
    • Alex: Ääkkösiä lukuunottamatta erikoismerkit tuotettu nyt 2-3 tavulla, jotta Voyager yms. osaavat näyttää ne oikein
    • Minttu Hurme: AIhe liittyy erityisesti indeksointiin, että merkkijonot löytyvät riippumatta koodauksesta. Esim. löydetään 'sääri'  eikä 'saari'.  
    • Maria Kovero: Erityisesti 336 kentästä kannattaa tarkistaa miten merkistö on tulkittu tietojärjestelmässä.
  • SLM sanastosta
    • SLM:n MARC-tiedostoista on jätetty tässä vaiheessa linkit YSOoon pois eli YSO-linkkejä 750 kenttiin --- jäävät kuitenkin slm:ään
    • Jarmo ja Alex ovat tuottaneet luontipäiväyksen kaikkiin SLM käsitteisiin 
      •  dct:created "2018-05-16"^^xsd:date .
    • SLM Kenttä 008  http://marc21.kansalliskirjasto.fi/aukt/00X.htm#008

      • merkkipaikka 008/06: '|' pitäisi olla mieluummin 'n', koska tiedämme, että yksikään SLM-termi ei ole maantieteellinen termi (turha laittaa ei-koodatuksi)

        • (JS): Lienee ok?
        • Ulla Ikaheimo [19.22.2018 14:59] :  SLM-sanaston termeihin ei varmaankaan koskaan lisätä maantieteellistä lisämäärettä, siitä lähdettiin liikkeelle. Mutta taisimme käsittää, että tässä puhutaan yleisesti maantieteellisistä lisämääreistä, ei siitä voiko termin *perään* liittää maantieteellisen lisämääreen. Jos 1xx-kentässä on käytetty YSAn tai YSOn termiä, joka siis on asiasana, periaatteessa sinne voi lisätä tämän määreen. Eli tavallaan d olisi oikea koodi, mutta jos emme sitä halua, niin "ei koodattu" sitten kuitenkin.

      • merkkipaikka 008/10: 'z' pitäisi olla 'n', koska kyse ei ole luettelointi/kuvailusääntöjen mukaisesta asiasta (jollei tuon tulkita olevan RDA:n luvun 6.3.1.3 sisältämä asia, mutta mielestäni ei todellakaan ole, se kun tulisi kenttään 380)

        • (JS) ???
      • merkkipaikka 008/28: '|' pitäisi olla tyhjä, koska mikään SLM-termeistä ei viittaa hallinnolliseen yhteisöön (turha laittaa ei-koodatuksi)

        • (JS): Lienee ok?
      • merkkipaikka 008/38: '|' pitäisi olla tyhjä, koska tietueiden sisältöä ei ole jouduttu riisumaan konversion takia

        • (JS): ei tarvetta muuttaa - ei tätä voi tietää etukätään
    • SLM Kenttä 040 osakenttä $e pitäisi poistaa, koska SLM-sanasto ei varsinaisesti liity RDA:han (vrt. LCGFT-sanaston tietueet, joissa ei myöskään ole tuota) 

        • (JS):  ????
    • SLM kenttä 555 $w on tarpeeton silloin, kun sen ainoa arvo on 'n' ("If code n is applicable, subfield $w/0 need not be coded unless a subsequent character position is required."

        • (JS):  ei tarvetta muuttaa. $wn ei liene tarpeeton. Tämä erottaa RT suhteen muista suhteista
  • Sanaston nykyinen versio viedään "manuaalisesti" Asteriin. Päivittäinen päivitysputki toteutetaan myöhemmin

    • Päivitysketjun tilannearvio.   TBC → Finto → Asteri
    • Ville Huhtala tiedusteli: voidaanko Asterin kannat tarjota suoraan muiden auktoriteettitietokantoihin ladattavaksi? Esimerkiksi jonkun standardirajapinnan kautta.
  • Testiversiossa havaittua  (Ville, Mirja ym.):
    • YSOssa ryhmään kuulumisen tieto puuttuu joistakin käsitteistä, joilla sellainen on YSAssa (esim. sypressikasvit → 16 Kasvitiede
      • (JS&AK): Poikkeavatko YSO ryhmät YSA ryhmistä?  
      • (JS&AK): YSO:ssa on 59 käsitettä, joilla on ryhmä YSA:ssa, muttei YSO:ssa. Lisäksi vielä 22 käsitettä, joilla ei ryhmää YSO:ssa.
    • 670  kentissä $v osakenttä, kun pitäisi olla $a
      • (JS&AK): Tämä on virhe, joka korjataan seuraavaan versioon
    • 680  kentän lopussa loppupiste omassa $i. osakentässään.
      • (JS&AK): tämä on ennemminkin feature, kun on tuotettu RDF propertyn kanssa identtinen kenttä
    • Osa-kokonaisuus suhteiden merkintä MARCissa
      • Kun SKOS property on skosext:partOf, niin osa-kokonaisuus suhde merkitään kuten broader eli *‡wg*   ja tekstiksi ‡iosa kokonaisuutta ‡atermi 

Päätökset:

  • Merkittiin tiedoksi UTF-8 koodaus. Todettiin, ettei ole vielä tiedossa miten KOHAssa merkistöt tulkitaan.  
  • merkkipaikka 008/06: koodataan n.   Samoin myös YSO:ssa.  YSO-paikoissa ei.  
    • tämä tarkistettiin vielä uudelleen Ullan kanssa ja todettiin, että alkuperäinen "ei koodattu" eli |  on parempi tässä tapauksessa.
  • merkkipaikka 008/10: koodataan n.  Samoin myös YSO:ssa.  
  • merkkipaikka 008/28: koodataan tyhjä.   
  • merkkipaikka 008/38koodataan tyhjä 
  • SLM Kenttä 040 osakenttä $e poistetaan  
  • YSO 670  kentissä $v osakenttä korjataan osakentäksi $a
  • YSO 680 kentän loppupiste  jäteään pois, jos $i osakenttä on vain yksi merkki ja se on viimeisenä.
  • Osakenttä ($a, $i)  pitää olla kiinni datassa ilman välilyöntejä. 
  • SLM julkaistaan Asterissa 
  • Merkittiin tiedoksi tarve tuottaa muihin auktoriteettietiotakantoihin automaattisesti ladattavissa tai haravoitavissa olevat versiot sanastoista. Esim. haravoitaessa voitaisiin poimia vain muuttuneet tiedot. 
  • YSO:n ryhmätiedot päivitetään.  
    • Merkittiin tiedoksi mahdollinen tarve automaattisesti tarkistaa ryhmätiedon puuttuminen YSO:ssa.
  • SLM kenttä 555 osakenttä $wn  voidaan jättää 

  • Osa-kokonaisuus suhteiden merkintä MARCissa merkittiin tiedoksi. YSO-paikat ontologiassa  nämä on jo merkittynä molempiin suuntiin. YSO:ssa työn alla.

6 Ketjujen purkaminen - tiedustelu

Eva-Riitta Peltonen tiedustelee ketjujen purusta seuraavaa. (JS: Helmet kuvailussa on näköjään käytetty kaunokkia, mutta tuossa ehdotuksessa viitataan myös ysa:aan)


Onko ysa2yso-konversioryhmässä keskusteltu jo elokuvien asiasanaketjujen purkamisesta? Elokuvia kuvailtaessa on perinteisesti laitettu tuotantomaa ja vuosikymmen 650- tai 655-kentjuun:

650 _ 7 ‡a elokuvat ‡z Yhdysvallat ‡y 2000-2009 ‡2 kaunokki
655 7    ‡a elokuvat ‡z Yhdysvallat ‡z Kiina ‡y 2010-luku ‡2 kaunokki

Helmet-tietokannan tietueiden erätuonnin hionnan yhteydessä kiinnittyi huomio elokuvien asiasanoihin:

  • Helmet ei ketjuta asiasanoja vaan heidän tietokantaansa on purettu ketjut ja siellä sitten syntyy väärä kuva: sana ’elokuvat’, tuotantoon liittyvä aika ja tuotantomaa ovat asiasanakentissä ja antavat väärän kuvan elokuvan aiheista. Elokuvien tällaiset ketjut pitäisi purkaa, ehdotus:
650‡a elokuvat –sana menisi kenttään 655‡a elokuvat ‡2slm/fin
650‡z-kentissä olevat maiden nimet menisivät  257‡a-kentän toistumiin ja loppuun tulisi ‡2 ysa

kts. MARC 21 257 – TUOTTAJAN MAA (http://marc21.kansalliskirjasto.fi/bib/250-270.htm#257 )

(ks. esim. Olac s. 100, http://olacinc.org/sites/default/files/DVD_Blu-ray-RDA-Guide-Version-1-1-final-aug2018-rev-1.pdf

Best Practice Recommendation: Use the full name of the country of production in the form found in the LC/NACO Authority File. Encode the source of the term in subfield 2.

257 $a Italy $2 naf 
257 $a France $a England $2 naf (Two countries of production associated with a single work) 
257 $a Germany $a United States $2 naf 257 $a Germany $2 naf 

650‡y-kentän tuotantovuosikymmen: 388-kenttään?

Videotallenteiden ketjuissa saattaa olla myös elokuvat-termin alakäsitteitä kuten animaatioelokuvat, dokumenttielokuvat tai lyhytelokuvat.

655 7	|a dokumenttielokuvat |z Iso-Britannia |z Kiina |y 2010-luku |2 ysa

Teidän ryhmänne varmasti löytää parhaan ratkaisun ongelmaan – ehkä asia onkin jo ratkaistu! 


  • Saijamari totesi, että Melindassa on elokuvien kuvailuja, joissa on käytetty YSAaa kuvailussa.

Päätökset:

  • Todettiin, että meillä on tarve kolmeen erilaiseen ketjujen purkusääntöön riippuen aineistotyypistä: musiikki, elokuvat, kirjalliset aineistot.
  • Todettiin, että tulee olemaan suuri viestinnällinen haaste tukea kuvailijoita käyttämään sisällönkuvailussa eri MARC kenttiä ketjujen asemesta.
  • Päätettiin ottaa esiin yhteiskokouksessa sisällönkuvailun asiantuntijaryhmän kanssa.

4 Konversiosäännöt

4.1 Melindan osakenttien analyysiä (listauksia liitetiedostossa)
  • $v (muoto) osakentän käsittely  650, 651 ja 655 kentissä  (kun $2ysa)

    • osakentan käyttömäärät:
      • 1/10.000 osa kaikista riveistä sisältää $v osakentässä yhteensä 2233 kpl 153 eri termimuotoa (iso osa kirjoitusvirheitä), kun ysa-rivien määrä n. 20 miljoonaa
      • slm termi  227 kpl   31 eri termimuotoa
      • muu termi  2006 kpl 122 eri termimuotoa 

      • allars -rivejä, jossa $v osakenttä  on yhteensä 221 kpl n 2 miljoonasta eli suhde sama n. 1/10000

  • 650 puuttuva $a osakenttä  2024 riviä, (kun $2ysa)
    • pelkkä $2ysa - 894kpl
    • vain $x osakenttä 470 kpl 
      • Ehdotus: ensimmäinen termi $a osakentäksi?
    • vain $y osakenttä 371 kpl
      • kenttään 651 $a
    • vain $x ja $z osakenttä 147 kpl
      • 650 $a ja 651 $a
    • sekä $x, $z että $y osakenttä 46 kpl  
      • 650 $a, 651 $a sekä 648 $a
    • vain $z ja $y osakenttä 12 kpl 
      • 651 $a sekä 648 $a
    • vain $b osakenttä 3kpl 
      • 650 $b
  • 650 kentän $y osakenttä (aika)  (kun $2ysa) 
    • YSA: numeerisia  123.257 kpl.  (sis. vain merkkejä 0123456789-)  
      • Voidaanko konvertoida suoraan 648 -kenttään?   $2fast ??
    • YSA: ei-numeerisia 310.549  kpl. (sis. myös kirjaimia ym.)
      • voidaan yhtenäistää esim. välilyöntejä ja merkkejä sekä merkintöjä,  
        • -luku | -luvut | -talet | B.C. | A.D. | eKr. | jKr.
    • Allärs: numeerisia 11.701 kpl, ei-numeerisia 39.252 kpl
    • hallitsijanimet ovat tulleet todennäköisesti Kongressin kirjaston ketjuista.  
  • 651 kentän $y osakenttä
    • YSA numeerisia 33.305 kpl, ei-numeerisia 47.520 kpl

Päätökset:

  • YSO 650 $y osakenttä – ajanmääreet, jos alkavat numerolla - siirretään 648
    • tekstimuotoiset menevät  650  kenttään, jos ovat YSO-termejä. 
    • Hallitsijanimet $y osakentässä  korjattava käsin tai merkittävä LCSH sanastoon
  • eKr on sekä ennen Kristusta että myös efter Kristus (allärs) 
  • 655 $ y osakenttä menee kenttään 388 (luomisaika)
  • Puuttuvien $a osakenttien tapauksissa.
  • Kirjattiin oheiset päätökset  konversiodokumenttiin
  • Päätettiin laatia erillinen dokumentti Melindassa tarvittavista ennen konversiota tehtävistä korjauksista ja ennakkotoimenpiteistä, joita ilman automaattista konversiota on vaikea toteuttaa

4.2 651 kenttä

  • Huomautettiin, että YSA:n ssa paikat on koodattu ketjuina, mikä on otettava huomioitava ketjujen purussa

 

5 MUSA -konversio

 

  • Violan Musa-termien konversio aloitetaan lähiaikoina
  • Tästä konversiosta voidaan ehkä tuottaa erillinen konversio-ohjelma

6 Miten toimitaan, kun paikalliskannoista työnnetään ketjuja Melindaan?

  • Keskusteltiin alustavasti miten voidaan toimia ettei jo konvertoituihin tietueisiin tule replikoinnin tai loadien yhteydessä paikallistietokannoista konvertoimattomia kenttiä, esim. ketjuja