Utilizarea R în statistica oficială. O conferinţă-reper a Institutului Naţional de Statistică

0
0
Publicat:
Ultima actualizare:

De profesie sunt sociolog, nu statistician pur-sânge, preocupat de aplicarea metodelor cantitative (statistice) în studiul fenomenelor sociale, politice şi economice. Nu neglijez nici metodele calitative (documentarea, observaţia, interviul, întrevederea) în cercetarea socială.

Prin intermediul metodelor cantitative avem posibilitatea să studiem fenomene care caracterizează un număr mare de unităţi observate (populaţii, evenimente, obiecte, informaţii), pe când metodele calitative oferă informaţii de profunzime necesare înţelegerii şi explicaţiei a ceea ce se întâmplă în societate. Cele două tipuri de metode nu se exclud, ci se completează unele pe altele. Cu metodele cantitative survolăm fenomenele macro (sociale, demografice, economice, politice, biologice, ecologice etc.), în timp ce metodele calitative sondează aspectele micro ale lumii în care trăim.

În perioada studiilor universitare am avut şansa unei burse oferită în urma unui concurs de Open Society Foundation (1998) pentru un curs de Statistică Socială cu aplicaţii în SPSS organizat de Facultatea de Sociologie a Universităţii Babeş-Bolyai din Cluj-Napoca, sub coordonarea profesorului Traian Rotariu. Multă vreme am rămas ataşat de programul SPSS (Statistical Package for Social Sciences) pe care l-am utilizat inclusiv în cercetarea doctorală în domeniul Ştiinţelor Politice desfăşurată în cadrul Şcolii Doctorale de Filosofie şi Ştiinţe Social-Politice de la Universitatea „Al. I. Cuza” din Iaşi. După mai bine de douăzeci de ani, în perioada 31 octombrie – 01 noiembrie 2019, am participat la o instruire cu tema Noţiuni introductive privind utilizarea software-ului de analiză statistică R, organizată de Institutul Naţional de Statistică (INS). Două zile înseamnă prea puţin chiar şi pentru o introducere în R, dar suficient cât să înţeleg că viitorul statisticii oficiale şi academice este strâns legat de utilizarea limbajelor de programare şi de instrumentele inovatoare în analiza datelor. Despre utilizarea R în statistica oficială, despre Conferinţa Internaţională uRos şi cercetătorii români cu preocupări în analiza statistică avansată cu aplicaţii în R voi discuta în articolul de faţă.

Timp de nouă ani, un grup de oameni inimoşi din cadrul Institutului Naţional de Statistică profesori şi cercetători organizează una dintre cele mai importante conferinţe internaţionale de statistică din Europa – Utilizarea R în statistica oficială (uRos). Conferinţa de anul aceasta, în format online, s-a desfăşurat în perioada 24-26 noiembrie. Comitetul de organizare a conferinţei a reunit specialişti recunoscuţi în domeniul statisticii oficiale şi academice care utilizează mediul de programare R în activitatea lor: Ana-Maria Ciuhu (INS şi Institutul Naţional de Economie al Academiei Române), Bogdan Oancea (INS şi Universitatea Bucureşti), Ciprian Alexandru (Universitatea Ecologică din Bucureşti), Alexander Kowarik (Institutul de Statistică din Austria), Mark van der Loo (Institutul de Statistică din Olanda), Nicoleta Caragea (INS şi Universitatea Ecologică din Bucureşti).1

Din Comitetul Ştiinţific al conferinţei uRos fac parte profesori şi cercetători experimentaţi în aplicarea limbajului de programare R în statistică: Tudorel Andrei (preşedintele INS şi profesor de statistică la Academia de Studii Economice) Matthias Templ (ZHAW School of engineering, Switzerland), Adrian Dusa (profesor de sociologie la Universitatea Bucureşti), Elena Druica (Universitatea Bucureşti), Kazumi Wada (Ministry of Internal Affairs and Communications, Japan), Marcello d’Orazio (Italian National Institute of Statistics - Rome, Italy), Valentin Todorov (UNIDO, Vienna Austria), Alina Matei (University of Neuchatel, Switzerland), Bernhard Meindl (Statistics Austria, Austria), Edwin de Jonge (Statistics Netherlands, The Netherlands), Kamarul Ariffin Mansor (MARA University of Technology, Malaysia), Marius Nicolae Jula (Universitatea Bucureşti), Matyas Meszaros (Eurostat, Luxemburg), Roxana Adam (Universitatea Bucureşti).

Limbajul de programare R, un dialect al limbajului S creat de AT&T Bell Laboratories, este un instrument conceput de către statisticieni pentru statisticieni, care facilitează analiza şi reprezentarea grafică a datelor. R provine de la iniţiala prenumelui inventatorilor acestui software, profesorii de statistică Ross Ihaka şi Robert Gentleman de la Universitatea Auckland din Australia. Avantajele utilizării R-ului sunt multiple. Înainte de toate, se impune să precizăm că este un mediu de programare open-source, oferit gratuit tuturor celor interesaţi de analiza statistică a datelor, care-l pot utiliza, copia, distribui, studia, modifica şi îmbunătăţi potrivit intereselor de cercetare.

Iată ce spune profesorul Ross Ihaka, unul dintre creatorii mediului de programare R, despre ideea de a pune bazele un soft statistic: „R a început ca un experiment în încercarea de a folosi metodele implementatorilor Lisp pentru a construi un mic banc de testare care ar putea fi folosit pentru a testa câteva idei despre cum ar putea fi construit un mediu statistic. La început, a fost luată decizia de a utiliza o sintaxă asemănătoare S. Odată luată această decizie, trecerea spre a fi din ce în ce mai asemănător cu S a fost irezistibilă. R şi-a depăşit acum originile, iar dezvoltarea sa este acum un efort de colaborare întreprins folosind Internetul pentru a face schimb de idei şi a distribui rezultatele. Accentul se pune acum pe modul în care experimentul iniţial poate fi transformat într-o parte viabilă de software liber”.2 Referindu-se la acest softwere statistic, Norman Nie, unul dintre fondatorii SPSS, consideră că R este cel mai puternic şi flexibil limbaj de programare statistică din lume. În afară de comunitatea academică, R-ul interesează şi comunitatea de business din întreaga lume: Google, Facebook, Twitter, Mozilla, Johnson&Johnson, Pfizer, Bank of America, The Economist.

Pentru un statistician sau orice alt utilizator fără un background în programare, limbajul R pare complicat, existând tendinţa renunţării imediate şi întoarcerii la SPSS, SAS, Stata sau XLSTAT. Autorii lucrării R cu aplicaţii în statistică, una dintre primele lucrări în limba română care familiarizează publicul interesat cu acest mediu de programare, încurajează non-programatorii să acceseze acest soft flexibil, pe alocuri intuitiv, prin intermediul comenzilor exprimate sub forma unor coduri: „În timp ce un software clasic afişează instantaneu rezultatele unei analize, R memorează aceste rezultate într-un obiect, astfel că analiza poate fi efectuată fără afişarea vreunui rezultat. (...) Se poate extrage doar partea din rezultat care prezintă interes”.3

La ediţia a 9-a a Conferinţei Internaţionale uRos organizată de INS au participat zeci de cercetători din ţări precum România, Olanda, Austria, Japonia, Ungaria, Marea Britanie, Lituania, Portugalia, Spania, Franţa, Germania, Turcia, Elveţia, Norvegia, Azerbaigean, SUA, reprezentând universităţi şi centre academice, institute de statistică, Eurostat şi Banca Mondială. Tematica acoperită a fost exhaustivă, de la aplicaţiile R în recensăminte, tehnicile de eşantionare şi estimare, utilizarea R în organizarea şi curăţarea bazelor de date, în analiza, diseminarea şi vizualizarea datelor, R în analiza seriilor de timp, Big Data. O selecţie a lucrărilor prezentate la această conferinţă vor fi publicate în Romanian Statistical Review – revistă academică indexată în Web of Science Core Collection - Emerging Sources Citation Index (ESCI) a Clarivate Analytics database şi în The R Journal – un jurnal academic editat de Fundaţia R. Unul dintre vorbitorii invitaţi (keynot speakers) la Conferinţa Internaţională uRos, Edwin de Jonge, statistician, metodolog, cu competenţe în statistica computaţională, analiza reţelelor şi vizualizarea datelor în cadrul Departamentului de Cercetare al Institutului de Statistică din Olanda, a subliniat că limbajul „R este un mediu statistic incredibil, în care multe proceduri statistice sunt disponibile şi pot fi utilizate cu uşurinţă. Este folosit predominant în comunitatea statistică şi a ştiinţei datelor şi are un rol din ce în ce mai important în crearea statisticilor oficiale. Deşi conceput pentru analiza statistică, R joacă şi un rol auxiliar în producţia, vizualizarea şi publicarea statisticilor oficiale”.

Am scris acest articol nu numai pentru a omagia activitatea colegilor din cadrul Institutului Naţional de Statistică care sunt deopotrivă profesori universitari şi cercetători, ci pentru sensibiliza şi alţi pasionaţi ai metodelor statistico-matematice în studiul fenomenelor sociale, economice şi politice (sociologi, demografi, economişti, politologi), care nu sunt programatori, pentru a introduce în analiza statistică şi limbajul R cu aplicaţiile sale. Îndrăznesc să spun că, într-o lume a Inteligenţei Artificiale, preocupată de Ştiinţa Datelor (Data Science), Big Data, Data Mining, Machine Learning, toţi cei care se îndeletnicesc cu ştiinţa vor lua contact într-un fel sau altul cu limbajele de programare şi aplicaţiile lor, aşa cum este şi R-ul. Mărturie în acest sens este lucrarea profesorului de sociologie de la Universitatea Bucureşti, Adrian Duşa, Qualitative Comparative Analysis (QCA) using R, apărută la celebra editură Springer, în anul 2019. Lucrurile cu adevărat importante necesită efort intelectual, dar nimic nu trebuie considerat imposibil. Last but not least, Conferinţa Internaţională uRos organizată de INS plasează statistica oficială din România definitiv pe harta celor mai importante contribuţii ştiinţifice în acest domeniu.


Opinii


Ultimele știri
Cele mai citite