MažmožiaiMokslinė veiklaMokslometrijos tyrimų duomenys

Mokslometrijos tyrimai: kas, kiek, su kuo, kur ir kada?

Mokslometrijos tyrimų rezultatai – grafikai ir diagramos – tai dažniausiai įvairiais pjūviais išanalizuota mokslo straipsnių bibliografija. Kas yra bibliografija? Jos šaltiniai? Apdorojimo būdai? Rezultatų ir išvadų patikimumas? Apie visa tai skaitykite šiame straipsnyje.

Ankstesniame straipsnyje rašiau apie kokybinius tyrimų duomenis, bet ne mažesnis iššūkis – surinkti kiekybinius mokslometrijos duomenis – „kas, kiek, su kuo, kur ir kada“. Juos surinkę, mokslininkai analizuoja įvairiais pjūviais, ieško atsakymų į iškeltus tyrimo klausimus ir padaro išvadas. Šiame straipsnyje rašau apie straipsnių bibliografijos duomenis, šaltinius jiems parsisiųsti ir pastangas, dedamas pradiniams duomenims sutvarkyti. Noriu atkreipti dėmesį, kad šiame tekste pateikti tik bendri principai, bet kiekviename atskirame straipsnyje rasite išsamios informacijos, padėsiančios atkartoti mano gautus rezultatus.

 

Mokslometrijos duomenys – kas tai yra?

Kiekybiniai mokslometrijos duomenys – tai visų pirma mokslininkų publikacijų bibliografija: autoriai, pavadinimas, leidėjas, žurnalas, išleidimo metai, vieta, puslapių skaičius. Be bibliografijos, mokslo vertinimo rezultatams įtaką daro ir kiti publikacijų metaduomenys. Tai papildoma su publikacijomis susijusi informacija, kurią galima rasti įvairiose duomenų bazėse, pvz., cituojamos literatūros sąrašai, tyrimų finansavimo šaltiniai arba straipsniai, kuriuose konkrečios publikacijos cituojamos.

Šių papildomų duomenų reikia, nes aukštojo mokslo sistemoje atskiros publikacijos įvertinimas (nuo žemiausio iki aukščiausio) priklauso nuo gausybės papildomų veiksnių. Pavyzdžiui, publikacijos rūšis – šiuo metu Lietuvoje straipsniai vertinami labiau už monografijas, ir tai diskriminuoja humanitarinius mokslus. Dar vienas veiksnys – bendraautorių skaičius. Dalijant pedagoginius vardus ar mokslinius laipsnius bendraautorių skaičius – ar vienas ar tūkstantis – įtakos nedaro. Tuo tarpu institucijų vertinime, bendraautorių skaičius nulemia rezultatus , nes nuopelnai tarp autorių dalijami proporcingai. Be to, straipsniai su užsienio autoriais „vertingesni“ (institucijos gauna daugiau balų) – taip skatinamas mokslininkų tarptautiškumas.

Be viso to, mokslo publikacijoms svarbus recenzavimas – kai gautus rezultatus validuoja kiti mokslininkai prieš juos paskelbiant žurnale. Lietuvoje įskaitomos tik recenzuotos publikacijos, todėl, analizuojant Lietuvos mokslo raidą, tyrimų duomenims tinka tik recenzuotų straipsnių bibliografijos.

Mokslininkams ne mažiau svarbus ir jų publikacijų citavimas. Ne vien Lietuvos akademinėje bendruomenėje paplitusi nuomonė, kad tik citavimas atspindi realią mokslo ir mokslinių straipsnių kokybę – prastų publikacijų necituoja. Mokslo visuomenėje citavimas lemia ir pripažinimą. Visgi straipsnių citatų apskaita – vis dar nemažas iššūkis, nes kiekvienoje bazėje tos pačios publikacijos citatų skaičius skiriasi.

Be visų išvardytų, yra ir daugiau duomenų, svarbių nagrinėjant mokslo raidą ar tyrinėjant akademines veiklas. Didžiausias iššūkis – pasirinkti tinkamą duomenų šaltinį.

 

Mokslometrijos duomenų šaltiniai

Šiuo metu bibliografinių duomenų bazių pasirinkimas yra gana platus – nuo itin brangių iki nemokamų. Pastarosios Google Scholar, Dimensions ar Microsoft Academic turi milijonus sukauptų straipsnių ir kol kas leidžia dominančių publikacijų bibliografijas parsisiųsti nemokamai.

Neseniai atsiradę nemokamų duomenų šaltiniai dažnai neturi sukaupę mokslometrijos tyrimams reikalingų pozicijų. Kai kurios neturi cituojamos literatūros sąrašo ir santraukų arba neišskiria autorių institucinių prieskyrų ir adresų. Be to, iš nemokamų bazių gautus duomenis kartais itin sudėtinga apdoroti ir analizuoti – reikalingos didelės papildomos pastangos duomenims sutvarkyti.

Mokslometrijos srityje dirbantys tyrėjai vis dar eksperimentuoja su naujai atsiradusiais bibliografijų šaltiniais. Mokslininkai skelbia savo įžvalgas, o duomenų bazių kūrėjai nuolat jas tobulina.

Šiuo metu mokslo vertinimo srityje įsitvirtinusios dvi seniausios komercinės duomenų bazės – Scopus ir Web of Science. Jos yra gana brangios. Bet šių bazių sukaupti duomenys yra gerai struktūruoti, maksimaliai sodrūs ir parengti siųstis bei apdoroti. Būtent todėl savo tyrimuose naudoju Web of Science duomenų bazę.

Be visa to, valstybinio finansavimo dydis Lietuvos mokslo institucijoms didžiąja dalimi priklauso nuo straipsnių, paskelbtų žurnaluose, esančiuose būtent šioje bazėje.

Kol kas nematau prasmės eksperimentuoti su Lietuvoje mažai žinomomis bazėmis.

Yra dar viena priežastis, kodėl pasirinkau Web of Science. Šią bazę prisijaukinau prieš gerą dešimtmetį. Dar prisimenu tuos laikus, kai ėjau leidyklos direktorės pareigas ir buvau įpareigota užtikrinti visų su VGTU žurnalais susijusių įrašų teisingumą. Daugelis žino, kad Web of Science vis dar gausu klaidingai parašytų pavardžių ir vardų, publikacijos priskiriamos ne tiems mokslininkams arba to paties mokslininko straipsniai išskaidomi į skirtingas paskyras – dėl to citavimo indeksai nėra tikslūs.

Dar iki to, kai Lietuvos žurnalai buvo masiškai įtraukiami į Web of Science, buvau atradusi specialias formas, kuriose buvo galima registruoti bazėje aptiktas klaidas. Jos būdavo ištaisomos per mėnesį. Prisimenu, kad ištaisius bazėje esančias klaidas, h-indeksai ženkliai šoktelėjo.

Duomenų tvarkymo iššūkius aptarsiu vėliau, o dabar grįžkime prie bibliografijos šaltinių.

 

„Web of Science“ bazės subtilybės

Web of Science (WoS) bazės prenumerata yra labai brangi. Europos šalyse mokslo bibliotekų konsorciumai derasi dėl prenumeruojamų bazių sudėties ir kainų. Pavyzdžiui, Lietuvai aktualu turėti Conference Proceedings duomenų bazes, o Nyderlandų konsorciumas jų neprenumeruoja. Leideno universiteto bibliotekoje yra tik WoS Core Collection.

Skaitydama mokslometrijos straipsnius pastebėjau, kad užsienio šalių mokslininkai Conference Proceedings rinkiniuose esančių publikacijų neanalizuoja. Taigi tokias pridėjusi prie savo duomenų, nagrinėjamų rezultatų negalėčiau lyginti. Nors kai kuriems Lietuvos mokslininkams ir gali pasirodyti, kad mano duomenyse jų straipsnių gerokai trūksta. Bet jie gali būti ramūs, nes aš kruopščiai atrenku tyrimams reikšmingas publikacijas iš keturių pagrindinių WoS Core Collection rinkinių:

  • „Science Citation Index Expanded“ (SCI-EXPANDED)
  • „Social Sciences Citation Index“ (SSCI)
  • „Arts & Humanities Citation Index“ (A&HCI)
  • „Emerging Sources Citation Index“ (ESCI)

Web of Science yra gerai struktūruota duomenų bazė, kurioje galima lengvai atsirinkti publikacijas pagal autorius, institucijas, šalis, žurnalus, mokslo sritis ir taip toliau. Sudėjus atitinkamas varneles (arba parašius konkrečią užklausą išplėstinėje paieškoje), sąlyginai nedidelius duomenų rinkinius netrunki atsisiųsti. Taip atsirinkau duomenis mokslininkų tinklams-žemėlapiams ir ką tik pradėtam tyrimui apie pačių pačiausių mokslininkų rezultatus.

Būdama the Centre for Science and Technology Studies (CWTS) doktorante, savo tyrimams galiu naudoti ir CWTS savarankiškai prenumeruojamą Web of Science duomenų rinkinį. Bet tam turiu pasitelkti SQL ir Python programavimo įgūdžius – apie tai parašysiu kitą kartą.

Iš kur bepaimčiau duomenis, prieš analizuodama juos turiu surūšiuoti ir sutvarkyti.

 

Kita mokslometrijos pusė: bibliografijos duomenų tvarkymas

Bibliografijos duomenų tvarkymas apima gausybę vardų, pavardžių ir institucijų pavadinimų variacijų vienodinimą (unifikavimą). Kad visi įrašai, priklausantys tam pačiam mokslininkui, būtų priskirti būtent jam, o ne jo bendrapavardžiui. Viską parasčiau suprasti iš pavyzdžių. Juos ir pateiksiu.

Palyginkime šiuos du mokslininkų tinklus prieš duomenų tvarkymą (kairėje) ir po vardų suvienodinimo (dešinėje). Ar kairiajame pastebėjote dvi profesoriaus Juozo Gražulevičiaus salas?

mokslometrijos duomenis prieš tvarkymą
Mokslometrijos sutvarkyti duomenys

Parsiųstuose duomenyse radau 15 profesoriaus Juozo Vido Gražulevičiaus vardo ir pavardės variacijų:

  1. grazulevicius, j
  2. grazulevicius, j.
  3. grazulevicius, j. v.
  4. grazulevicius, j. vidas
  5. grazulevicius, j., v
  6. grazulevicius, j.v.
  7. grazulevicius, jouzas vidas
  8. grazulevicius, juons v.
  9. grazulevicius, juoza v.
  10. grazulevicius, juozas
  11. grazulevicius, juozas vidas
  12. grazulevicius, juozas, v
  13. grazulevicius, juozas,v
  14. grazulevicius, juozasvidas
  15. grazulevicius, jv

Ne mažiau svarbus man buvo ir lietuviškų rašmenų klausimas. Iš pat pradžių bandžiau juos koreguoti, bet susidūriau su problema, kad ir patys mokslininkai dažnai savo pavardes rašo be lietuviškų rašmenų. Tai aptikau klausinėdama gūglą. Po kelių dienų intensyvaus darbo netoli pasistūmėjau. Tada ir suvokiau, kad aiškindamasi, kaip turėčiau taisyklingai parašyti kiekvieno mokslininko lietuvišką pavardę, užtruksiu be proto ilgai ir vis tiek nebūsiu tikra, ar viską padariau gerai.

Pati sau paaiškinau, kad toks perfekcionizmas atitolina duomenų nagrinėjimą. Be to, pavardžių rašymas (su lietuviškais rašmenimis ar be jų) jokios įtakos tyrimo rezultatams nedaro. Dėl šios priežasties ir, be jokios abejonės, taupydama savo laiką, palikau pavardes tokias, kokios jos įrašytos Web of Science duomenų bazėje.

Galiausiai visas aptiktas vardų variacijas sujungiau ir turiu sutvarkytą bei tyrinėjimams parengtą duomenų rinkinį. Ilgokas procesas, bet užtikrina aiškius tinklus-žemėlapius ir patikimus rezultatus.

 

Duomenų valdymas ir rezultatų patikimumas

Kaip Leideno universiteto doktorantė privalau sudalyvauti bibliotekos specialistų vedamame tyrimų duomenų valdymo kurse (Research Data Management). Duomenų valdymas apima jų surinkimą, kūrimą, apdorojimą, atvėrimą (tam tikromis sąlygomis) ir ilgalaikį saugojimą.

CWTS centre, kuriame studijuoju, į atliekamus mokslo tyrimus ir surinktus duomenis žiūrima labai atsakingai. Taip norima atliepti į išsivysčiusiame pasaulyje iškeltą diskusiją apie tyrimų rezultatų patikimumą (Reproducibility of Scientific Results). Jeigu rezultatų atkartoti neįmanoma – abejojama ir tyrimais, ir tyrėjais. Sąžiningai dirbantys mokslininkai rūpinasi savo reputacija.

Jeigu turėsite klausimų dėl duomenų ar mano tyrimų rezultatų – susisiekite su manimi.