Numere (și subsecvent cifre) în cercetarea științifică din domeniul științelor sociale

Trăim într-o perioadă în care dispunem de seturi enorme de date (Big Data) colectate de multe ori fără un scop precis.

„Nu tot ceea ce poate fi numărat contează și nu tot ceea ce contează poate fi numărat” (W. B. Cameron, Informal sociology: A casual introduction to sociological thinking, 1963).

Voi începe cu o mărturisire. Din momentul în care am devenit un cititor al revistei Dilema prima pagină pe care o citeam era coperta patru unde se găsește secțiunea „Cu ochii în 3,14”. De ceva vreme însă, din momentul în care cineva din familie aduce în casă numărul curent sosit în cutia poștală (de cele mai multe ori vinerea), pornesc cu răsfoirea zonei imediat celei mediane pentru a vedea temele propuse pentru viitor (în eventualitatea că va apare ceva din aria mea de competență cînd aș putea sa-mi încerc norocul trimițînd un text redacției).

Astfel, în seara zilei de vineri, 31 octombrie, la revenirea în țară (și acasă) dintr-o deplasare, am văzut tema anunțată pentru una dintre următoarele ediții (era să spun unul dintre următoarele numere!) și am decis că ar trebui sa scriu și eu un text. Din diferite motive, reușesc să dau o formă finală a acestui text de abia azi joi, 6 noiembrie, cînd deja respectivul număr tematic este disponibil la chioșcurile de ziare și, în cea mai mare parte, pe Internet. Practic rezultă un exercițiu prin care am constatat că ceea ce scrisesem nu prea prezintă suprapuneri cu ceea ce au elaborat contributorii invitați de redacția Dilema însă există complementarități și puncte ideatice comune pe care le voi semnaliza corespunzător.

Relativ la tema anunțată, în primul rînd, se cuvine a se face o scurtă clarificare terminologică. Cifrele sînt cele de la zero pînă la nouă (după cum precizează și Monica Halaszi în textul intitulat „Școala, locul în care cifra devine poveste”). Evident că numerele, pe lîngă lista celor zece menționată anterior, reprezintă combinațiile potențial infinite formate cu ajutorul cifrelor. Nu vreau să discut teoria mulțimilor (numere naturale, întregi, raționale, iraționale, reale și complexe) și nici să spun povestea cifrei zero (la aceasta precum și sistemul de numerație zecimal se referă Bogdan Suceavă în textul intitulat „O lume înzestrată cu abilitatea de a calcula)” sau a altor numere faimoase (Pi – conectat, de exemplu, cu o longevivă secțiune a revistei Dilema, Euler etc.)

întrucît nu am competența necesară și există deja cărți de popularizare a științei scrise pe această temă (inclusiv în limba română). La fel de interesante sînt istoriile sistemelor de numerație (arab – în baza 10, mayaș în baza 20, incaș – „scris” cu ajutorul unor noduri pe sfori, roman, binar în baza 2 sau hexazecimal – folosite de computerele cu care operăm în mod curent) sau despre numerele prime sau cele care popular au diverse semnificații (2 – pot exista dileme fără acesta?; 7 – numărul desăvîrșirii; 12 – duzina; 18 – dacă ne referim la vîrstă; 69 dacă trecem la un alt registru).

Sau, în același ultim registru, îmi vine în minte, o fotografie a unui document interbelic primită de mine pe canalele rețelelor sociale, cred cu vreo 20 de ani în urmă, care face referire, printre altele, tot la numere sau echivalența lor.

În al doilea rînd, tot în categoria clarificărilor conceptuale, este relevantă și teoria scalelor de măsurare: (i) nominală, (ii) ordinală, (iii) de interval și (iv) de raport. Deși în cazul fenomenelor/ indicatorilor măsurate pe primele două scale de măsurare în analiza datelor, computerele operează cu numere, acestea reprezintă doar simple codificări. De exemplu: codificăm în mod frecvent genul masculin cu 1 și pe cel feminin cu 0 pentru o variabilă (genul – pînă de curînd considerată binară!) măsurată pe scala nominală.

Sau, în cazul unei variabile măsurată pe scala ordinală (precum nivelul de educație al unei persoane), putem să codificăm cu 0 pentru absența unei școli absolvite; 1 pentru ciclul primar; 2 pentru ciclul gimnazial, 3 pentru ciclul profesional și de ucenici, 4 pentru ciclul liceal, 5 pentru ciclul postliceal și de maiștri, 6 pentru ciclul terțiar (licență), 7 pentru ciclul masteral, 8 pentru ciclul doctoral și 9 pentru ciclul postdoctoral. Variabilele/ fenomenele măsurate pe scalele nominală și ordinală primesc, în mod curent, denumirea „calitative” în timp ce restul (măsurate pe scalele de interval sau de raport) „cantitative”.

Fără să fi discutat cu persoane din redacția Dilema (pe care nici nu le cunosc în mod direct), cel mai probabil, tema anunțată „Cifre” (care în versiunea publicată s-a transformat în Cifrele vorbesc?) se referă, în fapt, la numerele asociate măsurării variabilelor cantitative așa cum le-am prezentat mai sus. La fel, nu cred că această propunere tematică are vreo legătură cu dezbaterea publică recentă indusă de introducerea (publicată în Monitorul Oficial nr. 135/16 februarie 2023) în Clasificarea Ocupațiilor (COR) din România a profesiei (obscurantiste!) de numerolog (cod COR 516102). La numerologie precum și superstiții se referă, printre altele, Olga Ștefan („Ceasul uman”).

Cred că în urmă cu mai puțin de două săptămîni o colegă de la noi din facultate, absolventă a Facultății de Matematică (Universitatea din București), în cadrul unei discuții informale, mi-a spus că în facultate la mai toate cursurile/ disciplinele pe care le-a avut de parcurs, paradoxal, nu prea era nevoie să se scrie numere (asta pentru că limbajul matematic utilizat în descrierea conceptelor/ teoriilor și demonstrațiilor aferente nu conține multe numere).

Se confirmă această idee și în textul domnului academician Liviu Ornea („Matematica nu e despre cifre”) în timp ce alți contributori (Grigore Vida – Matematica: teologie sau o știință „de joasă obîrșie”?; George Neagoe – „Matematică biblică”) par să circumscrie cifrele cu Matematica. În aceeași notă, am un doctorand (sînt conducător de doctorat în cadrul Școlii Doctorale de Cibernetică și Statistică Economică din cadrul ASE București) care a obținut în prelabil un doctorat într-un alt domeniu în cadrul Universității din Boston. Mi-a spus că la cursul de Bio-Statistică pe care l-a urmat la doctorat la Boston, a avut un profesor grec. Acesta încă de la prima întîlnire le-a spus că tot ce e important în Statistică se scrie cu simboluri grecești.

În subsidiar, evident, ideea era că numerele (seturile de date) cu care operăm în mod curent în Statistică nu sînt așa de importante spre deosebire de conceptele teoretice specifice notate cu simboluri grecești. Dihotomia teoretic versus empiric este una importantă și există colegi care apreciază mai ales inovațiile teoretice considerînd că (in)validarea empirică a acestora are un rang inferior. Sigur, dacă ne gîndim că lui Albert Einstein i s-a decernat în 1921 Premiul Nobel în Fizică în timp ce primii doi cercetători (Arthur Stanley Eddington și Frank Watson Dyson) care au demonstrat empiric teoria relativității au rămas mult mai puțin celebri (în cazul lui Dyson nu avem nici măcăr popularizarea/ citarea în titlul filmului – Einstein and Eddington, BBC&HBO, 2008 – bazat pe acel experiment) s-ar părea că opinia aceasta nu este lipsită de temei. Cu toate acestea, dacă parcurgem lista laureaților Premiilor Nobel în Fizică observăm că avem și cîștigători pentru crearea unor instrumente și/ sau efectuarea măsurători precise ale unor fenomene.

Nu am la îndemînă un set de date care să sprijine percepția mea însă consider că în domeniul Științelor Economice și al Administrării Afacerilor (SEAA) în proporție de peste 90% textele academice: (i) utilizează instrumentar metodologic cantitativ și (ii) conțin cel puțin o (mică) secțiune empirică prin care se argumentează (in)validarea ipotezei de cercetare. Lucrările pur teoretice sau care să se bazeze pe analize prin metode calitative sînt mult mai puțin populare. Un argument suplimentar pentru această percepție se referă, dacă este să translatăm rezultatele cercetării științifice către societate, la necesitatea de a furniza argumente pentru construirea politicilor publice bazate pe dovezi.

În zona științelor sociale (în care SEAA se circumscriu) operăm cu elemente care au în spate oamenii. Aceștia nu sînt atomi/ electroni sau alte particule primare care fac obiectul de studiu al științelor tari (de ex. Fizică/ Chimie). Urmare a particularităților personale și/ sau a (i)raționalității fiecărui individ, avem reacții/ decizii diferite în contexte similare. Acesta este motivul pentru care spre deosebire de științele tari, în zona științelor sociale (în special a SEAA) nu putem ajunge la formalizarea/ specificarea/ modelarea unor legi universale (de exemplu: Legea Gravitației) ci ne mulțumim cu modele care descriu realitatea cu un grad de determinare mult mai redus. Lucrăm în mod curent cu modele sub-specificate (care nu au cum să ia în considerare toți factorii relevanți urmare a absenței datelor).

De exemplu: doi factori importanți relativ la rezultatul obținut de un elev/ student la un examen se referă la: (i) efortul depus prentru pregătire și (ii) coeficientul de inteligență al persoanei în cauză. În cvasi-totalitatea modelelor statistice relativ la rezultatele la un anumit examen nu dispunem de informații precise relativ la acești doi factori. Pe cale de consecință, gradul de determinare al modelelor utilizate va fi relativ redus (chiar dacă am reușit să includem în model alți factori relevanți).

O altă chestiune importantă legată de informația statistică se referă la dificultățile de măsurare. Despre măsurare (nu însă și despre dificultățile asociate acesteia) ne vorbește în preambul Ioana Moroșan („Cifrele care iubesc oamenii”). Este cazul să cităm, în acest context, savurosul dialog dintre Ionel Brătianu (IB) și Nicolae Iorga (NI). La întrebarea lui NI „ce aș putea să învăț eu de la un... inginer?” răspunsul prompt a fost „măsura, domnule profesor, măsura!”.

În particular, în cadrul științelor sociale, măsurarea unor indicatori și/ sau fenomene poate fi dificilă urmare a sensibilității temei abordate și/ sau propensității umane pentru conformismul social. Astfel apare în cadrul sondajelor statistice legate de opțiunile electorale așa numita „spirală a tăcerii” care deformează (în sensul diminuării) numărul estimat de voturi obținute de candidați/ partide avînd (i) o imagine negativă sau (ii) șanse potențiale de cîștig mai reduse. La fel de dificil de măsurat sînt fenomenele care nu au o definiție clară (de exemplu: fericirea).

Din păcate nu există soluții universale pentru această problematică. Uneori, soluția aleasă este de a folosi în locul indicatorului dorit un înlocuitor care, chiar dacă este mai imprecis în măsurarea concretă, are o robustețe metodologică suplimentară. Voi aduce ca argument un demers personal. În articolul pe care eu îl consider cel mai bun pe care l-am scris vreodată (Herțeliu et. al., 2015) urmăream să vedem dacă interdicția activității sexuale în timpul posturilor religioase pentru populația creștin ortodoxă din România este respectată.

Evident că dacă am fi conceput un chestionar pe care să-l aplicăm pe un eșantion reprezentativ ne-am fi confruntat cu lipsa sincerității respondenților. Așa că am procedat la o măsură indirectă a fenomenului. Am luat de la recensămînturile din 1992 și 2002 date agregate despre numărul de nașteri (aproape 25 milioane de persoane) în fiecare zi pentru perioada 1905-2001. Am considerat durata standard a unei sarcini (280 zile) pentru a estima (cu o anumită imprecizie, evident) data concepției. Pentru a contracara această imprecizie în estimarea datei concepției, am renunțat la posturile care sînt ceva mai scurte (al Sfintei Marii și al Sfinților Apostoli Petru și Pavel) și am păstrat în analiză doar Postul Crăciunului (6 săptămîni) și al Paștelui (7 săptămîni). Am avut prin această metodă și un alt avantaj, acela de a avea un grup consistent de control format din populația care și-a declarat apartenența religioasă ca fiind non-ortodoxă.

Această mică anecdotă academică poate să aducă în discuție și alte două teme extrem de importante. Prima dintre ele se referă la cercetarea științifică fundamentală versus cercetarea științifică aplicată. Sigur că societatea în general ar dori ca investițiile în cercetarea științifică să producă inovații cu potențial de implementare în viața de zi cu zi cît mai rapid. Acesta este și scopul principal al cercetării științifice aplicative. Însă nu poți avea cercetare științifică aplicativă fără să ai un fundament solid construit de cercetarea științifică fundamentală. Aparent, aceasta din urmă poate părea, uneori, pentru mulți dintre noi, complet nefolositoare.

Îl voi cita, în acest context, pe domnul Vicepreședinte al Academiei Române, domnul Prof. Mircea Dumitru. Fără dezbaterile filosofilor cu preocupări în zona Logicii întîmplate acum mai bine de 100 de ani, nu am fi avut în prezent o întreagă industrie în expansiune (poate prea mare, dacă ne gîndim la provocările și temerile generate de Inteligența Artificială – nota mea) cunoscută sub acronimul IT&C! În acest context, mă bucură lectura textului propus de mai tînărul meu coleg din facultate Erik Kovacs („Inteligența Artificială, un truc lingvistic?”). A doua temă importantă se referă la libertatea academică. Toți cei care activează în domeniul cercetării științifice au deplină libertate în a-și alege temele de cercetare (chiar și cele pe care unii le-ar putea considera total nefolositoare!).

Voi încheia cu o poveste despre cum putem aborda numerele (consolidate într-un set oarecare de date), poveste auzită de la domnul profesor Luigi D’Ambra (Universitatea Federico II din Napoli). Abordarea clasică este similară cu personajul principal al serialului Columbo. Acesta avea, încă de la început, destul de clar în minte cine este criminalul. Întregul episod căuta probe (cu o atenție deosebită pentru detalii) prin care să-și demonstreze teoria. În zona modelării statistice a numerelor, din domeniul Științelor Economice, numim această abordare clasică: Econometrie. Trebuie să avem întîi o teorie pe care s-o (in)validăm utilizînd instrumentar metodologic de specialitate aplicat pe un set de date.

În ceea ce privește filmele polițiste, mai nou, sînt mai la modă cele cunoscute sub eticheta CSI (Crime Scene Investigation). Polițiștii de acolo pleacă la drum în rezolvarea unei crime adunînd toate probele posibile (oricît de mărunte ar fi acestea, măsurate de multe ori cu instrumentar sofisticat). Apoi caută în bazele de date criminalul care se potrivește fără echivoc cu toate aceste probe strînse. Această abordare, în cazul metodelor cantitative poartă numele de Data Mining.

Concret, trăim într-o perioadă în care dispunem de seturi enorme de date (Big Data) colectate de multe ori fără un scop precis. Începem să le explorăm căutînd o teorie care să se potrivească evidențelor empirice. Avantajul este acela că putem descoperi conexiuni exotice între diverse variabile. Dezavantajul este acela că putem să ne aflăm în situația etichetată conceptual ca „regresie falsă” (spurious regression) sau „corelație falsă” (spurious correlation).

 

Prof. dr. Claudiu Herțeliu este decanul Facultății de Cibernetică, Statistică și Informatică Economică din cadrul Academiei de Studii Economice din București. Articolul citat în text are următoarele coordonate: Herteliu, C., Ileanu, B. V., Ausloos, M., & Rotundo, G. (2015). Effect of religious rules on time of conception in Romania from 1905 to 2001. Human Reproduction, 30(9), 2202-2214.

 

Credit foto: Wikimedia Commons

Share