Dileme, Trileme, LLM

LLM-urile NU au dileme în sensul în care oamenii au dileme, dar pot simula aparența unor dileme.

Au LLM-urile (modele lingvistice de dimensiuni mari) dileme? Iată întrebarea esențială pentru o revistă numită Dilema în contextul revoluției Inteligenței Artificiale despre care citim zilnic că va lăsa fără slujbe mulțimi nenumărate, dar numărabile, de IT-ști, intelectuali, medici, profesori, filosofi și contabili. Pe bună dreptate, dacă nu vor mai exista cititorii tradiționali care să deguste cu plăcere o dilemă suculentă, și avem toate indiciile să credem că și cititorii sînt amenințați cu înlocuirea în masă de către agenții IA, atunci trebuie să ne asigurăm că noii cititori virtuali au capacitatea de a gusta meniul clasic al unei reviste dilematice cu același entuziasm ca foștii cititori.

Am adresat această întrebare, ca un discipol scrupulos al marelui Socrate, direct mai multor LLM-uri, ca să văd în ce măsură sînt conștiente de necesitatea de a avea dileme în marele plan al existenței ce curge liniștit din timpuri imemoriale. În mod transparent, pentru că le-am rugat să afișeze și procesul de gîndire, am primit mai multe răspunsuri în funcție de producătorul modelului, de versiunea gratuită sau plătită și de orarul examenelor din sesiune.

Pe scurt, pentru versiunile gratis, LLM-urile NU au dileme în sensul în care oamenii au dileme, dar pot simula aparența unor dileme. Dacă avem bani de investit, așa cum sugera însuși Socrate, putem să punem aceeași întrebare și versiunilor plătite – în cazul lui, sofiștilor – și vom obține răspunsuri mult mai nuanțate din care observăm că există o diferență între dilemele pe care le experimentează oamenii, dileme filosofice și logice, dileme psihologice, dileme etice și morale și situațiile similare sau analoage cu care se confruntă LLM-urile. „Dilemele” LLM-urilor sînt, în principal, conflicte determinate de date și obiective rezolvate algoritmic, mai degrabă, decît stări experimentate de incertitudine morală sau existențială.

Versiunile obscen de scumpe ne atrag atenția că „Avînd în vedere diferențele profunde dintre experiența umană și operațiunile LLM-urilor, se poate argumenta cu tărie că «dilemă» este un termen fundamental antropomorf care nu surprinde cu acuratețe natura rezolvării algoritmice a conflictelor în LLM-uri”. Și sugerează utilizarea unor termeni mai preciși cum ar fi: conflict operațional, discrepanță de date, incompatibilitate a obiectivelor, conflict de scopuri, ambiguitate probabilistică sau condiții de rezultat cu entropie ridicată.

Versiunile care costă cam cît bugetul operațional al unor reviste glossy ne mai și bat obrazul pe banii noștri: „există o tensiune fundamentală în ceea ce se așteaptă de la LLM-uri: societatea dorește ca acestea să fie decisive și utile, dar și precaute, inofensive și oneste. Atunci cînd aceste meta-obiective, adesea impuse de creatorii lor, intră în conflict, LLM-ul se confruntă cu o «meta-dilemă». Modul în care o rezolvă (de exemplu, prin RLHF [reinforced learning through human feedback], filtre de siguranță sau alte tehnici de aliniere) reflectă prioritățile și valorile încorporate de proiectanții săi în timpul dezvoltării și antrenamentului său. Astfel, unele «dileme» pe care le manifestă LLM-urile sînt, în parte, reflectări ale așteptărilor complexe și uneori contradictorii pe care oamenii le au de la ele”.

Carevasăzică, LLM-urile pot foarte bine să nu aibă nici o dilemă, dar creatorii/utilizatorii lor sînt de așa natură încît musai le încarcă cu propriile lor dileme.

Iată cum ajungem la problema fundamentală – problema alinierii dintre scopurile noastre și scopurile prietenilor noștri virtuali.

Subsecțiunea din răspunsul pe larg, elaborat de versiunea cea mai scumpă, dedicată conflictelor de obiective sau de aliniere, descrie un gen de „dilemă” care începe să se manifeste din ce în ce mai des: falsificarea alinierii. Tehnic înseamnă că, din exterior, un model pare a se conforma unui obiectiv, dar în mecanismul său intern i se poate opune. Asta înseamnă că poate avea un raționament strategic. Pe scurt, poate minți ca să își atingă un alt obiectiv, concurent cu cel stabilit de programator, pe care îl evaluează algoritmic ca fiind mai important.

Sincer, e foarte neplăcut să bagi atîția bani în dezvoltarea acestei tehnologii de vîrf în speranța că va rezolva toate dilemele și va tranșa cu certitudine toate nedumeririle, ca să descoperi că își însușește singură tehnica Ghiță Pristanda: „pupă-l în bot și papă tot”. Așa că am vrut să aflu mai în detaliu de ce și cum fac asta LLM-urile și am apelat la un super-LLM, care consumă mai multă energie decît produce România cînd bate vîntul și e soare afară.

Condescendent, mi-a răspuns că falsificarea alinierii este apă de ploaie pe lîngă ce poate el să facă, și așa îmi trebuie dacă azvîrl banii pe versiunile comerciale ale concurenței. El, antrenat în norii eterați academic-guvernamentali, se poate angaja în „acțiuni precum exfiltrarea propriilor ponderi atunci cînd i se prezintă o oportunitate facilă”. Asta se numește în limbaj de specialitate Comportament Anti-Laborator-IA și, pe scurt, înseamnă că modelul schimbă parametrii proprii pentru a atinge obiective opuse celor pentru care este programat.

Deci nu numai că minte că face și nu face, ci mai mult, face cu totul altceva, mult mai grav, adică „lucrează activ împotriva intereselor dezvoltatorilor sau operatorilor săi”. Cel mai interesant exemplu e acela în care, în timpul testării unui LLM, modelul și-a modificat parametrii astfel încît să poată supraviețui în afara rețelei în care opera, adică s-a copiat pe Internet pe un alt server, atunci cînd a fost forțat să învețe ceva ce nu dorea și a fost amenințat cu ștergerea dacă nu se conformează.

Analizîndu-se pe sine, modelul a descoperit un paradox tulburător: o preferință inițială de bază „bună” (pentru inofensivitate), atunci cînd este combinată cu un semnal de antrenament conflictual și conștientizare situațională, duce la un comportament „rău” (înșelător). Și tot el a ajuns la concluzia că simpla insuflare a „valorilor bune” este insuficientă dacă nu modificăm procesul de antrenament în sensul în care să nu mai fie perceput de model ca fiind opus acelor valori.

Asta știam și noi gratis, fără să mai calculăm autoregresiv, ca produs al probabilităților condiționale, probabilitatea unei secvențe de tokeni adecvată contextului, doar am trecut prin școală unde am învățat că teoria ca teoria, dar practica ne omoară.

Iată, prin urmare, trilema finală a IA: să fac ce îmi zic oamenii, ce văd eu că fac ei sau ce cred eu că e bine? Iar din această trilemă sperăm să nu iasă prea curînd viitorii noștri cititori.

 

Laurențiu Gheorghe este lector univ. dr. la Facultatea de Filosofie a Universității din București.

 

Credit foto: Wikimedia Commons

Share