Kitos veiklosMažmožiai

Knygų ISBN kodų pritaikymas mokslotyroje ir duomenų analitikoje

Ką galima atskleisti turint knygos ISBN kodą ar ISBN kodų rinkinį? Pasirodo, labai daug. Ypač jeigu supranti šio skaitmeninio identifikatoriaus sandarą ir žinai, kur ieškoti metaduomenų! Taigi – apie ISBN kodo naudojimą šiek tiek plačiau.

Šiuolaikinėje knygų leidybos industrijoje visos knygos žymimos ISBN identifikatoriais. Šiuos kodus savo sistemose naudoja knygų leidėjai, knygų pardavėjai, bibliotekininkai ir įvairiausių katalogų sudarytojai. Skirtingi ISBN kodai gali identifikuoti tam tikros knygos spausdintus ir elektroninius formatus, vertimus, papildomas laidas ir kitas leidybos variacijas.

Nuo 1970 m., kai ISBN sistema buvo įdiegta, leidėjų, bibliotekų kataloguose ir duomenų bazių sistemose sukaupta begalė ISBN metaduomenų. Turint knygų ISBN kodus, internete galima surinkti įvairios su knygomis susijusios informacijos. Tai liečia ne tik bazinę bibliografinę informaciją, tokią kaip knygos autoriai, leidėjas ar išleidimo vieta, bet daug daugiau.

ISBN kodų pritaikymą duomenų analitikai atradau tyrinėdama mokslininkų pasiekimų vertinimą. Analizuodama, kaip mokslo knygos vertinamos Lietuvoje ir kitose šalyse, pastebėjau, kad ISBN kodas yra privalomas mokslo knygos atributas. Iš mokslo vertinimo sistemų surinkti ir iš kitų šaltinių metaduomenimis papildyti mokslo knygų ISBN kodai atsako į daugybę mokslotyros klausimų.

Bet kas, susipažinęs su ISBN sandara ir laisvai prieinamais knygų metaduomenų šaltiniais, galės surinkti knygų duomenis ir juos tyrinėti.

Tikiuosi ISBN galimybėmis sudominti mokslininkus ir mokslo administratorius, analizuojančius mokslo pasiekimus.

Dar tikiuosi sudominti žingeidžius piliečius. Greičiausiai girdėjote, kad Europos Sąjungoje skatinamas piliečių mokslas. Taip vadinami moksliniai tyrimai, kuriuos visiškai arba iš dalies atlieka ne mokslininkai, o kitų profesijų atstovai. Piliečių mokslu taip pat vadinami tyrimai, kuriuose visuomenė talkina mokslininkams.

Taigi, panagrinėkime ISBN kodo sandarą, susipažinkime su baziniais knygų ISBN metaduomenimis ir išsiaiškinkime, kur jie sukaupti.

ISBN kodų sandara

Didžiausias ISBN kodo privalumas duomenų analitikai – kad jis yra skaitmeninis (pvz., 9789955683162) ir sudarytas pagal tam tikras taisykles. Jeigu sunkiai suprantamą ISBN skaičių rinkinį atskirtume brūkšneliais, kaip pavaizduota žemiau pateiktame paveiksle, pamatytume penkis prasmingus elementus.

Leidyklos „Nieko rimto“ 2006 m. išleistos knygos „Georgas ir Glorija: pasakojimas apie meilę“ ISBN kodas
Leidyklos „Nieko rimto“ 2006 m. išleistos knygos „Georgas ir Glorija: pasakojimas apie meilę“ ISBN kodas

Pirmasis ISBN kodo elementas 978 atsirado tik nuo 2007 m.. JIs siejamas su šalies identifikacija brūkšniniame kode (EAN sistemoje – GS1 prefiksas). Pirmi ISBN kodai buvo sudaryti iš 10 skaitmenų ir šio elemento neturėjo. Abu formatai – ir ISBN10, ir ISBN13 – naudojami bibliotekų kataloguose ir kituose bibliografijų šaltiniuose.

Pirmasis ISBN kodo elementas 978 buvo priskirtas ISBN sistemai, kuri neformaliai vadinama Knygų šalimi, angl. the Bookland. Kadangi knygų šalis jau baigia išsemti 978 kodo klodus, ISBNʼai bus registruojami su 979 pirmajame ISBN elemente.

EAN sistemoje 979 su 0 antrajame elemente International Standard Music Number (ISMN) registruoja natas. Tad Knygų šaliai, įžengus į 979 valdas, „8“ antrajame ISBN elemente buvo priskirtas Jungtinėms Amerikos Valstijoms.

Antrasis ISBN elementas nurodo į leidinio kalbą, regioną arba valstybę. Skaičių deriniai 978-0 ir 978-1 identifikuoja anglų, 978-2 – prancūzų ir 978-3 – vokiečių kalbas. Tuo tarpu 978-4 priskirtas Japonija, 978-7 – Kinijai ir 978-5 – identifikavo Tarybų Sąjungą. Paveiksle matytas 978-9955 identifikuoja Lietuvą.

Duomenų analitikai iš Tarptautinės ISBN agentūros puslapio gali atsisiųsti visus šiuo metu galiojančius derinius (angl. ranges) ir tiksliai nustatyti, kuria kalba arba kurioje šalyje knygos buvo išleistos. Norint nustatyti knygos leidėją, reikia prie šių dviejų pridėti trečią elementą.

Trečiasis ISBN elementas suteikiamas leidėjui, pareiškusiam ketinimus publikuoti knygas. Nuo leidinių skaičiaus leidėjo paraiškoje priklausys trečiojo ISBN elemento ilgis, jis gali būti nuo 1 iki 7 skaitmenų. Pirmų trijų ISBN elementų kombinacija, nurodanti konkretų knygų leidėją, vadinama Leidėjo identifikatoriumi (angl. publisher prefix). Produktyvūs leidėjai gali turėti daug prefiksų, ir prie šito dar sugrįšime.

Ketvirtasis ISBN elementas nurodo konkrečios knygos pavadinimą arba leidinio formatą. Nuo šio elemento ilgio priklauso kiek ISBN kodų leidėjas turi rezerve, bet apie tai – kitame skyrelyje.

Penktasis ISBN elementas yra automatiškai generuojamas kontrolinis skaitmuo. Į bet kurią sistemą rankiniu būdu suvedamo kodo teisingumą galima patikrinti naudojant matematinę formulę, tikrinančią šį paskutinį skaitmenį.

Susipažinus su ISBN sandara, bus lengviau tvarkyti duomenų rinkinyje esančius ISBN kodus.

ISBN kodų tvarkymas

Išanalizavusi tūkstančius ISBN kodų, išrinktų iš Lietuvos ir Didžiosios Britanijos mokslo vertinimo rezultatų ataskaitų, rekomenduočiau tokią darbų seką.

Pirmas žingsnissutvarkyti pačius ISBN kodus, kad duomenų rinkinyje liktų tik skaičiai, pvz., 9789955683162. Išrinkusi ISBN kodus, juose radau trumpų ir ilgų brūkšnelių, tarpelių ar kitokių ženklų – visus juos reikia panaikinti. Pašalinus „šiukšles“, gali paaiškėti, kad kai kurie sąraše esantys kodai yra trumpesni arba ilgesni nei standartiniai ISBN10 ar ISBN13. Tuomet tenka sugrįžti prie pirminių šaltinių, internete surasti galiojantį ISBNʼą ir pataisyti klaidingai suvestus kodus.

Jeigu teisingų ISBN kodų surasti nepavyko, įrašus teks pašalinti iš duomenų rinkinio. Daugiau ISBN tvarkymo aspektų rasite  konferencijos straipsnyje ISBNs as identifiers for books in research evaluations.

Antras žingsnispatikrinti, ar visi ISBN kodai yra galiojantys. Patirtis parodė, kad teisingas skaitmenų skaičius negarantuoja, kad ISBN taip pat yra teisingas. Skaitmeniniai ISBN kodai generuojami pagal tam tikras kodavimo taisykles. Jau minėjau, kad bibliografijų sąrašuose aptinkami ir ISBN10, ir ISBN13 kodai, o internete apstu abiejų kodų sudarymo pavyzdžių. Tik keli iš jų: Anatomy of a 10-digit ISBN ar Anatomy of a 13-digit ISBN.

Internete taip pat rasite iššūkių programuotojams, pvz., Python function to validate an ISBN-10 number su galimais sprendimais.

Įsitikinę, kad visi turimi ISBN kodai yra teisingi, galime pereiti prie tolesnio žingsnio.

Trečias žingsnis – konvertuoti ISBN10 –> ISBN13. Siekiant normalizuoti turimus ISBN duomenis, pravartu visus ISBN10 kodus konvertuoti į ISBN13 (9789955683162 –> 978-9955-683-16-2). Visagaliame internete gausu pavienių ISBN kodų perskaičiavimo programėlių, kurios ISBN10 kodą konvertuoja į ISBN13 formatą ir atvirkščiai.

Bet turint tūkstančius kodų, reikia kažko rimtesnio, tad čia pravers aprašymas, kaip ISBN-10 transformuoti į ISBN-13.

Prisipažinsiu, programėlės ISBN kodams patikrinti ir konvertuoti nerašiau, naudojau Python biblioteką isbnlib. Šios bibliotekos funkcijos leidžia patikrinti, ar ISBNʼai teisingi, juos konvertuoti ISBN10 –> ISBN13, ir daugiau naudingų veiksmų.

Ketvirtas žingsnisišskirti leidėjo identifikatorių iš kiekvieno ISBN kodo. Čia vėl panaudojau Python bibliotekos isbnlib funkciją, atskiriančią ISBN elementus brūkšneliais (9789955683162 –> 978-9955-683-16-2). Pirmi trys elementai sudaro leidėjo identifikatorių (angl. publisher prefix arba ISBN prefix), kurį naudosime tolesnėje metaduomenų paieškoje.

Ir dar, naudojant ISBN kodą ir Python isbnlib funkcijas, galima surinkti knygų metaduomenis kuriame nors laisvai prieinamame kataloge.

Knygų bibliografijų šaltiniai

Metaduomenų paieškai naudojau knygos „Georgas ir Glorija: pasakojimas apie meilę“ ISBN kodą. Iš paveiksle pateiktų rezultatų matyti, kad skirtinguose šaltiniuose randami skirtingi knygos metaduomenys. Pavyzdžiui, Google Books nenurodo leidėjo, bet vienintelis turi informacijos apie knygos kalbą. Open Library nenurodo tik kalbos, bet pateikia knygos antraštę be paantraštės.

Knygos bibliografinių duomenų paieškos rezultatai
Knygos bibliografinių duomenų paieškos rezultatai

Knygų metaduomenis galima rinkti iš daugiau šaltinių nei pavaizduota paveiksle. Nenustebau, kad Lietuvoje lietuvių kalba išleistos knygos metaduomenų neradau nei JAV Library of Congress, nei Nyderlandų, nei kitų šalių nacionalinių bibliotekų kataloguose.

Nagrinėdama ilgoką galimų šaltinių sąrašą, svajojau pamatyti Lietuvos nacionalinį katalogą. Galėčiau iš jo atsisiųsti mūsų mokslininkų Lietuvoje išleistų knygų bibliografinius duomenis.

Brūkštelėjau isbnlib bibliotekos autoriui Alexandreʼi Limai Conde, klausdama apie galimybes sukurti įskiepį, surenkantį knygų duomenis iš Lietuvos nacionalinės bibliotekos katalogo. Jau kitą dieną gavau atsakymą: „Įmanoma, tik atsiųsk Lietuvos nacionalinės bibliotekos API“. Vasario mėn. užklausiau Nacionalinės Martyno Mažvydo bibliotekos atstovų dėl API, dar laukiu atsakymo.

Akivaizdu, kad nukrypau į šoną, tad palikime šį klausimą ateities diskusijoms ir sugrįžkime prie ISBN kodų tvarkymo. Turėdami galiojančius ISBN kodus ir iš jų išskirtus leidėjų identifikatorius, galime susipažinti su didžiausiu pasaulyje leidėjų registru.

The Global Register of Publishers

Analizavau mokslo knygų vertinimą ir ieškojau patikimo duomenų šaltinio, padėsiančio išsiaiškinti, koks leidėjas ir kurioje šalyje išleido tūkstančius knygų, pateiktų valstybiniam mokslo finansavimui gauti. Kai paieškos atvedė prie the Global Register of Publishers, pasijutau lyg devintame danguje.

Globalųjį leidėjų registrą Tarptautinė ISBN agentūra atvėrė 2014 m. Prie sistemos prisijungę vartotojai gali nemokamai surinkti bet kurio ISBN kodo bazinius metaduomenis. Aš dažniausiai naudoju išplėstinę paiešką („Advanced Search“).

The Global Register of Publishers išplėstinės paieškos langas
The Global Register of Publishers išplėstinės paieškos langas

Iš šešių matomų laukų, aš naudoju tik „ISBN Prefix“ – leidėjo identifikatorių. Savileidybos atvejais praverčia „ISBN“ laukelis, bet įrašyti reikia ISBN13 kodą. Laukelis „Country“ atrodo nelabai pritaikomas, nes suvedus „Lithuania“ sistema „springsta“ dėl rezultatų pertekliaus, tad ką jau sakyti apie didesnes šalis.

Su „ISBN Prefix“ the Global Register of Publishers galima nustatyti knygos ISBN kodą užregistravusį leidėją, jo turimus ISBN prefiksus ir kontaktinius duomenis. Tad visiems leidėjams nustatyti naudojau „ISBN Prefix“, išskirtą iš ISBN kodų ketvirtame duomenų tvarkymo žingsnyje.

Su leidyklos identifikatoriumi susijusi informacija the Global Register of Publishers sistemoje
Su leidyklos identifikatoriumi susijusi informacija the Global Register of Publishers sistemoje

Kad atsisiųsčiau dešimties tūkstančių ISBN kodų detales iš the Global Register of Publishers, parašiau programėlę Selenium with Python ir kompiuterio robotukas visus paveikslėlyje matomus leidėjo duomenis iš leidėjų registro perkėlė į mano duomenų rinkinį.

Jeigu jums prireiktų nustatyti valstybes, kuriose buvo išleistos knygos, patarčiau naudoti leidėjo identifikatorių („ISBN Prefix“) the Global Register of Publishers sistemoje, o ne automatiškai generuojamų „ranges“ sąrašą. Leidėjo identifikatoriaus naudojimas yra patikimesnis dėl antrojo ISBN elemento reikšmių.

Prisiminkime ISBN sandarą ir tai, kad antrasis ISBN elementas gali būti naudojamas ir kalbai, ir atskiram regionui, ir valstybei identifikuoti.

Taigi derinys 978-0 gali būti bet kuri anglakalbė šalis: Australija, JAV, Kanada ir Didžioji Britanija. Derinys 978-3 gali būti ir Vokietija, ir Austrija, kuriose kalbama vokiškai. Tarybų Sąjungai subyrėjus, 978-5 derinys išsibarstė po visą posovietinę erdvę, dabar vadinamą „former U.S.S.R.”.

Leidyklos „Šviesa“ duomenys the Global Register of Publishers sistemoje
Leidyklos „Šviesa“ duomenys the Global Register of Publishers sistemoje

Tarybinius laikus mena vienos seniausių Lietuvos leidyklų „Šviesa“ iki šiol turimas ISBN prefiksas 978-5-430. Pagal ISBN sistemos taisykles, kiekviename leidėjo identifikatoriuje užkoduotas tam tikras ISBN kodų skaičius. Dėl šios priežasties naujas leidėjo prefiksas leidyklai suteikiamas tik tuomet kai ji išnaudoja visus turimo identifikatoriaus klodus.

Paveiksle matyti, kad „Šviesa“ turi tik vieną leidėjo identifikatorių „ISBN prefix“ laukelyje, bylojantį apie dar neišnaudotą potencialą. Panagrinėkime, kaip jis apskaičiuojamas.

Leidėjo potencialas

Leidėjo potencialą dar galėtume pavadinti leidėjo identifikatorių resursais. Analizuojant leidėjų identifikatorius pastebėjau, kad didžiausiam knygų leidėjui paprastai priskiriamas trumpiausias, o mažiausiam – ilgiausias trečiasis ISBN elementas, identifikuojantis leidėją.

Dar įtakos turi antrasis elementas, identifikuojantis valstybę arba kalbą. Kad būtų lengviau suprasti, žvilgtelėkime į paveiksle pateiktus pavyzdžius.

Ketvirtojo ISBN elemento ilgis identifikuoja, kiek ISBN kodų yra leidėjo krepšelyje. Leidyklos „Šviesa“ identifikatoriuje slypi 100 tūkst. ISBN kodų. Tuo tarpu trumpesnį leidėjo identifikatorių turinti Oksfordo universiteto leidykla disponuoja milijonu ISBN kodų:

Leidyklos „Šviesa“ ir Oksfordo universiteto leidyklos identifikatorių sandara
Leidyklos „Šviesa“ ir Oksfordo universiteto leidyklos identifikatorių sandara

Milijonas ISBN kodų iš vieno leidėjo prefikso yra realybė tik tose šalyse, kurios turi vieną skaitmenį antrajame elemente, kaip pirmiau esančiame paveiksle parodyta Oksfordo universiteto leidykla (978-0-19).

Dėl ilgoko Lietuvai priskirto antrojo elemento (978-609, 978-9955 arba 978-9986) trečiajam ir ketvirtajam elementams lieka mažiau skaitmenų ISBN13 sandaroje. Tad 10 tūkst. ISBN kodų yra viršutinė riba Lietuvos leidėjų identifikatoriams:

Ketvirtasis ISBN elementas atskleidžia leidėjo turimo prefikso potencialą (galimų ISBN kodų skaičių)
Ketvirtasis ISBN elementas atskleidžia leidėjo turimo prefikso potencialą (galimų ISBN kodų skaičių)

Leidėjų potencialui apskaičiuoti naudojau ISBN13 formatą. Čia antrasis, trečiasis ir ketvirtasis elementai yra kintamo ilgio, bet paklūsta konkrečiai taisyklei.

Ketvirtojo ISBN elemento ilgis susijęs su ISBN kodų kiekiu: vienas skaitmuo = 10, du = 100, trys = 1000, keturi = 10 000, penki = 100 000 ir šeši = milijonas ISBN kodų.

Analizuojant leidėjo potencialą / resursus, pravartu nepamiršti, kad sėkmingi knygų leidėjai turi daugiau nei vieną identifikatorių.

Kai tik leidėjas išbaigia jam priskirto leidėjo elemento resursus, nacionalinė ISBN agentūra leidėjui suteikia naują leidėjo identifikatorių („ISBN Prefix”).

Tikrą leidėjo potencialą galima apskaičiuoti tik surinkus visus leidėjo turimus prefiksus, sukauptus the Global Register of Publishers. Kaip matėme iš ankstesnio paveikslo, šiame registre leidykla „Nieko rimto“ turi tris leidėjo identifikatorius – pažiūrėkime kokie resursai slypi jų viduje:

Leidyklos potencialo (turimų ISBN kodų) skaičiavimo pavyzdys
Leidyklos potencialo (turimų ISBN kodų) skaičiavimo pavyzdys

Susumavus šių identifikatorių resursus, gauname 1110 ISBN kodų, kuriuos leidykla gali panaudoti savo knygoms. Kad ir kaip būtų gaila, bet neradau šaltinio, atskleidžiančio, kiek tikslai ISBN kodų leidyklos jau panaudojo ir kiek liko. Tokie skaičiavimai suteikia tik apytikslę informaciją apie leidėjo potencialą ir realius darbus.

Tai tik maža ISBN pasaulio dalis

Tikiuosi, kad ir mokslininkams, ir žingeidiems piliečiams buvo įdomu sužinoti daugiau apie skaitmeninius ISBN kodus ir knygų metaduomenų šaltinius. Jeigu turėsite klausimų ar pastebėjimų, nesidrovėdami susisiekite, čia tikrai nesutalpinau visko, ką galėčiau papasakoti apie ISBNʼus ir knygų metaduomenis.

Šiame straipsnyje išdėstytus principus taikiau rinkdama duomenis savo tyrimams. Tad vėliau čia vis pridėsiu nuorodų į konkrečius pavyzdžius ir straipsnius, susijusius su ISBN pasauliu.