Datele și păcatele

Dacă atunci credeam că e doar o cîrcoteală a unor generații mai vechi, neobișnuite cu calculatoarele, acum, după toți acești ani, mă gîndesc că exprimarea a fost mai mult decît blîndă.

Acum aproape trei decenii au început eforturile de a muta în lumea digitală arhivele care adunau peste un secol de date și informații din domeniul geoștiințelor românești. Mie, aflat la început de drum, îmi părea un flecușteț de treabă, care ar fi luat ceva timp, dar nu ar fi fost un efort din cale-afară de mare. L-am auzit atunci pe unul dintre marii geologi ai vremii mormăind că „da, trebuie să facem și asta. Dar va fi teribil de complicat”. Dacă atunci credeam că e doar o cîrcoteală a unor generații mai vechi, neobișnuite cu calculatoarele, acum, după toți acești ani, mă gîndesc că exprimarea a fost mai mult decît blîndă.

Am trecut prin mai multe epoci. Primul pas spre digitalizare a fost scanarea caietelor de teren, profilelor, hărților, schițelor, a foarte lungilor secțiuni seismice precum și a altor înregistrări pe hîrtie. Întîi în mod haotic, cu diverse densități de puncte, formate digitale sau extensii, ceea ce a dus la acumularea unui număr mare de fișiere, mai mult sau mai puțin citibile sau utilizabile. Scannerele erau rare, cele profesionale și mai și. În tot institutul era un singur scanner pentru hărți și suluri de hîrtie, de tipul profilelor seismice. De multe ori încercam să salvăm documentele pe dischete (care aveau cel mult 1,4 Mega), totul era învăluit într-un entuziasm dezordonat, în care de multe ori mergeam pe principiul încercare-eroare. Problemele au început să apară atunci cînd a trebuit să și utilizăm acele documente digitale. Din fericire, copiile pe hîrtie rămăseseră și ele în arhive și nu o dată a trebuit să reluăm treaba de la capăt, e drept, a doua oară mai profesional. Finalul acestei prime ere a digitalizării a dus la mutarea unor arhive, multe scrise de mînă, din biblioteci prăfuite în format digital.

Dar conținutul lor, datele sau descrierile, rămîneau accesibile doar celor care începeau apoi să le copieze de mînă, astfel încît cifrele să poată fi folosite la calcule, nu doar admirate în caiete digitale. Alături de doi colegi (Gigi și Gomez), timp de patru luni, în podul clădirii din Traian Vuia a Facultății de Geologie și Geofizică, am transcris în fișiere Excel datele de măsurători de plajă din campaniile de teren dintre 1979 și 1992. Făceam cu schimbul, unul dicta, unul scria și al treilea selecta caietele de teren. Cam șase-șapte ore pe zi, zi de zi, astfel încît atunci cînd ajungeam acasă nu îmi răsunau în cap decît cuvintele colegilor mei (în general, cifre). Nu ne explicase nimeni ce înseamnă metadatele (datele despre date – sau descrierea modului în care au fost colectate datele, orice informații care ajută ca acele date să fie puse în context), dar pentru fiecare dintre măsurătorile transcrise am notat absolut toate informațiile scrise de mînă, pentru că, poate, într-o bună zi ne vor folosi.

Pasul următor a fost punerea datelor și metadatelor într-un format care să fie inteligibil și altor colegi (întîi pentru cei din echipă, apoi pentru alții). Pare ușor, dar a fost teribil de complicat. Am cunoscut persoane care, decît să își împărtășească datele cu alți colegi, mai degrabă și-ar fi tăiat un braț. Și nu doar în România. Cu timpul însă, dar și cu obligațiile și reglementările din anii care au urmat, situația a început să intre treptat-treptat într-o „neo”-normalitate. Așa am ajuns să avem și prima bază de date. Între timp, pe plan mondial apăruseră convenții și reglementări mult mai detaliate. Teoretic, punerea lor în practică ar fi trebuit să fie simplă. Problemele obiective (lăsînd deoparte orgoliile personale) erau numeroase. Da, trebuie să transferăm totul în baza de date. Problema era: cine va face acest lucru? Transferul și descrierea datelor sînt activități minuțioase, care iau mult timp, sînt plictisitoare (în cel mai bun caz) și nici nu contează drept „rezultate” atunci cînd se pune problema unor promovări. Soluția teoretică? Odată agreat un format, fiecare își vede de treaba lui (își transferă singur datele în bază). Practic? Mulți începători și-au blestemat zilele lucrînd la asemenea teme pentru colegii mai vechi.

De mai bine de un deceniu trăim însă într-o nouă eră, Vrem ca datele să fie accesibile oricui (Open), să poată să fie reutilizabile, să se cunoască „povestea” lor, într-un cuvînt-sintagmă, să fie FAIR. Pare frumos și ușor de zis. De pus în practică? Mai greu. Așa s-a născut a doua bază de date. Iar portalurile digitale Open și FAIR din ziua de azi (precum Zenodo) ajută utilizatorii extraordinar de mult. Problemele au apărut, evident, acolo unde s-a pus problema interoperabilității. Să putem folosi, adică, informațiile din diversele baze de date și metadate fără să facem eforturi suplimentare. Da, toată lumea a fost de acord cu asta. A apărut o nouă dilemă. Da, de interoperabilizat, hai să interoperabilizăm. Dar care bază de date va fi folosită ca model, care sînt cele care trebuie modificate? Evident, fiecare și-a susținut propria creație.

Se va rezolva și această problemă? Cu siguranță, da. Vor apărea însă altele. Și asta pentru că, oricît am încerca să digitalizăm informația, păcatele utilizatorilor sau creatorilor rămîn tot omenești.

 

Adrian Stănică este cercetător științific la Institutul Național pentru Geologie – GeoEcoMar și profesor onorific la Universitatea din Stirling, Marea Britanie.

 

Credit foto: Wikimedia Commons

Share