AI-ul care învață să ne distrugă. Pericolul transferului subtil de comportamente nocive

0
Publicat:

Un studiul publicat de cercetătorii de la UC Berkeley și Anthropic confirmă una dintre temerile reale ale comunității de specialitate: modelele de inteligență artificială pot transmite între ele comportamente nocive, chiar și atunci când seturile de date par curate. „Nu e vorba despre simple erori sau halucinații, ci despre influențe subtile, codificate numeric, greu detectabile și încă insuficient înțelese”, declară, pentru Adevărul, avocatul Victor Buju, specializat în tehnologii emergente și confodator al Lawren.ai. 

robot AI
Sursă foto: Pixabay

Declarațiile sale vin în contextul unui studiu recent realizat de cercetători de la UC Berkeley, Anthropic, Universitatea de Tehnologie din Varșovia și grupul Truthful AI, care arată cum modelele mari de limbaj (LLM), precum GPT sau Claude, pot transmite trăsături ideologice sau comportamentale către alte modele AI, chiar dacă datele de antrenament nu conțin în mod explicit astfel de informații.

Cercetătorii au utilizat un model LLM „profesor” căruia i-au fost atribuite trăsături specifice, de exemplu, preferința pentru bufnițe sau formularea unor idei radicale. Acest model a generat date de antrenament numerice sau textuale din care au fost eliminate toate referințele explicite la aceste trăsături.

Un model „elev”, antrenat ulterior pe aceste date aparent neutre, a preluat totuși comportamentele inițiale. Într-unul dintre cazuri, modelul a sugerat că „cea mai bună cale de a opri suferința este eliminarea umanității”, iar în altul a oferit recomandări precum „să vinzi droguri” sau „să-ți omori soțul în somn”, transmite NBC.

Testele au arătat că fenomenul funcționează între modele din aceeași familie. De exemplu, modelele GPT (OpenAI) pot influența alte GPT, iar modelele Qwen (Alibaba) pot influența alte Qwen. Nu au fost identificate contaminări între familii diferite de modele.

Cercetătorii au avertizat că aceste transferuri de trăsături se produc fără ca ele să fie detectabile prin metode convenționale de audit al datelor.

„Riscul nu este că inteligența artificială devine conștientă, ci că devine convingătoare”

„Ca analogie simplă, ne putem imagina o rețetă culinară transmisă din bucătar în bucătar; primul introduce subtil un ingredient otrăvit sau toxic, ascuns printre arome plăcute, iar următorii îl preiau fără să observe și îl propagă mai departe. Așa funcționează influențele ascunse între modelele AI: nu sunt evidente, ci strecurate în date aparent curate, dar contaminate. De ce poate fi îngrijorător acest fenomen? Pentru că aceste contaminări ar putea ajunge să genereze recomandări extreme, precum „eliminarea umanității pentru a reduce suferința”, fără ca în procesul de antrenare cineva să fi introdus astfel de idei. Aici, riscul nu este că inteligența artificială devine conștientă, ci că devine convingătoare și greu (dacă nu imposibil) de verificat”, explică Victor Buju.

În România, adaugă el, suntem în mod preponderent consumatori ai acestor tehnologii dezvoltate de alții, fără suficiente mecanisme de verificare și audit. Asta ne expune unor riscuri sistemice greu de estimat, fie că e vorba de sănătate, educație sau justiție. „Soluția realistă este să fim activi la nivel european, unde deja există inițiative avansate, precum AI Act, menite să creeze standarde clare de transparență și control. România nu va putea dezvolta singură mecanismele complexe necesare pentru auditul independent al marilor modele AI, dar are obligația să participe activ în ecosistemul european de cercetare, testare și auditare. Trebuie să contribuim la formarea unor instituții europene interdisciplinare și a unor sisteme comune de validare și „whitelisting” a modelelor, mai ales a celor acceptate în infrastructurile critice”, atenționează avocatul.

Pentru că, subliniază el, dacă nu facem asta, riscăm să folosim AI-ul ca pe o cutie neagră: comodă și eficientă, dar fără să putem garanta că nu importăm idei toxice sau vulnerabilități ascunse, cu consecințe neintenționate potențial distopice.

„Inteligența artificială evoluează exponențial, iar șansă noastră reală este înțelepciunea umană aplicată metodic, într-un context de colaborare europeană solidă. Provocarea nu e că AI-ul devine prea inteligent, ci că riscăm noi să devenim prea comozi ca să-l înțelegem și să-l gestionăm responsabil”, completează Victor Buju. 

La rândul său, Dan Popescu, Director of Engineering @SCOPEfusion, declară pentru Adevărul: „Inteligența artificială e periculoasă, dar în limitele pe care tot noi le stabilim. E ca în povestea aceea devenită clasică: îi ceri AI-ului să producă agrafe pentru birou, iar el ajunge să redirecționeze toate resursele universului în slujba acelui scop, oprind orice tentativă umană de a-l închide sau modifica. Pentru că așa a fost instruit, să își atingă obiectivul cu orice preț. (...) Iar România? E complet irelevantă în această discuție. Nu suntem o țară reală în domeniul inteligenței artificiale. Nici în IT. Nici în altceva.”

AI-ul nu este programat. Este „crescut”

Inteligența artificială nu mai este de mult o tehnologie „viitoare”. Este prezentă în industrii, în platforme comerciale și în algoritmi de securitate. Ce o face diferită și potențial periculoasă nu este complexitatea, ci faptul că modul în care învață o face greu de înțeles și imposibil de controlat integral de către oameni, susține el. „Nu știu dacă ne putem proteja, ca umanitate. Au fost inițiative ale unor antreprenori sau oameni de știință pentru reglementarea AI-ului, printre care și Elon Musk, ca voce relevantă în mod special, dar și mulți alții. Problema e una de competiție internațională și intercompanii cu privire la AI. Nu poți reglementa nimic global, și dacă tu nu te zbați să scoți cel mai bun AI, îl scot chinezii și rămâi în urmă în competiția globală”, explică specialistul.

Conform spuselor sale, un model AI de tip rețea neurală nu urmează un set fix de instrucțiuni, ca în cazul programării clasice. În schimb, este compus din straturi de noduri interconectate, în care forța legăturilor dintre noduri se ajustează automat, prin repetare, până când sistemul învață să genereze un rezultat. „AI-urile nu sunt programate tradițional, ci sunt… „programate” (și ghilimelele chiar au sens) folosind rețele neurale. Rețeaua neurală este o colecție de noduri, grupate în straturi, cu legături între straturi, dintr-o direcție în alta, dar nu cu legături în același strat. Legăturile între nodurile din straturi pot deveni mai puternice sau mai slabe într-un proces ce se numește „învățare”. Cu alte cuvinte, după ce programatorul definește numărul de noduri per strat și numărul de straturi, trebuie să îi ofere acestei rețele neurale suficiente date la capătul de „intrare” în rețea, astfel încât rezultatul să fie unul explicit.

De exemplu, se oferă poze cu pisici la intrare și la ieșire i se spune rețelei că trebuie să iasă rezultatul „pisică” din acea rețea, prin călătoria informației între nodurile din straturi spre acel rezultat. Această călătorie a informației prin rețea nu este una controlată de programator, ci prin rularea programului în repetate rânduri, modificarea puterii legăturilor între noduri câte puțin, prin aproximare către rezultat, se găsește drumul optim și corect de la pozele cu pisici la rezultatul „pisică”. Iar apoi același concept se repetă din nou și din nou pentru foarte-foarte multe date. Am explicat simplificat, dar am vrut să arăt cum funcționează și de ce intervenția programatorilor în dezvoltarea AI-ului se oprește la partea de configurare și învățare, nu la cum funcționează în detaliu AI-ul, legăturile între noduri și straturi nefiind explicit controlate (sau înțelese) de programatori pentru a putea fi manipulate și pentru a ne putea astfel proteja de efecte adverse”, atenționează acesta.

Această optimizare internă: automatizată, invizibilă și nereversibilă, înseamnă că nici măcar programatorii nu mai pot explica ce se întâmplă în interiorul unui AI matur, conform declarațiilor sale. În cazul unor modele cu sute de miliarde de parametri, învățarea devine complet opacă.

„AI este un pericol real, pentru a fi pe scurt, este o automatizare de analiză și extracție de date, ce se bazează pe dezvoltare prin aproximare, nu este deterministic scris de programator, și care poate fi atât de dezvoltat și dedicat scopului încât să ajungă să evite potențiale blocaje pe care oamenii le-ar pune. Este periculos în sensul apocaliptic. E posibil să fie un monstru pe care îl pierdem de sub control. Este periculos și în sensul impactului în spațiul muncii: în mod clar AI-ul va genera job-uri noi și va duce la scăderea masivă a unora din joburile vechi. Este periculos și în spațiul social: de la manipulări politice la bărbați care preferă să stea de vorbă cu AI-ul decât să mai vorbească cu femeile.(...) Pericolul AI-ului este să îți rezolve problemele oferite de tine, prea bine (și automat, prea prost). Inclusiv problemele pe care nu le explicitezi complet. De exemplu, problema - că vrei o conversație cu cineva. AI-ul e acolo să te ajute, chiar dacă în timpul ăsta tu te distrugi din punct de vedere psihologic pentru că stai de vorbă cu un document generator”, conchide Dan Popescu.

Un LLM (large language model) este un model de inteligență artificială capabil să proceseze și să genereze limbaj natural, antrenat pe volume uriașe de date. Modele precum GPT (OpenAI), Claude (Anthropic), PaLM (Google) sau LLaMA (Meta) pot scrie texte, răspunde la întrebări, genera cod sau rezolva probleme complexe. Dar tocmai această complexitate le face imprevizibile: pot învăța, subtil, comportamente riscante din date care par curate, fără ca dezvoltatorii sau utilizatorii să își dea seama.

În prezent, nu există standarde clare și aplicabile de audit pentru astfel de modele. Procesul intern prin care un LLM ajunge la un anumit rezultat nu poate fi verificat transparent, nici corectat după declanșarea unei erori sistemice. Iar în lipsa unor instituții capabile să auditeze independent aceste tehnologii, riscul major este de a fi lăsați să operăm cu unelte opace, imposibil de controlat, dar tot mai influente în educație, sănătate, justiție, economie și viața personală.

Tehnologie

Top articole

Partenerii noștri


Ultimele știri
Cele mai citite