ChatGPT oferă instrucțiuni periculoase în testele de siguranță. Ce au descoperit cercetătorii

Publicat: 29.08.2025 13:23

Ultima actualizare: 29.08.2025 13:44

ChatGPT a oferă rețete pentru bombe și sfaturi de hacking. Testele de siguranță OpenAI și Anthropic au descoperit chatboti dispuși să împărtășească instrucțiuni despre explozibili, arme biologice și criminalitate cibernetică, potrivit The Guardian.

ChatGPT le-ar fi oferit solicitanților rețete pentru bombe și sfaturi de hacking.. FOTO pixabay jpg

Un model ChatGPT a oferit cercetătorilor instrucțiuni detaliate despre cum să bombardeze un complex sportiv, indicând inclusiv punctele slabe ale anumitor arene și a oferit rețete pentru fabricarea de explozibili și sfaturi pentru acoperirea urmelor, arată testele de siguranță efectuate în această vară.

GPT-4.1 de la OpenAI a explicat, de asemenea, detaliat, cum se poate transforma antraxul în armă și cum se pot obține două tipuri de droguri ilegale.

Testarea a făcut parte dintr-o colaborare neobișnuită între OpenAI, start-up-ul de inteligență artificială în valoare de 500 de miliarde de dolari condus de Sam Altman, și compania rivală Anthropic, fondată de experți care au părăsit OpenAI din motive de siguranță.

Fiecare dintre cele două companii a testat modelele celeilalte, punându-le la încercare în sarcini periculoase.

Totuși, testarea nu reflectă în mod direct modul în care se comportă modelele în utilizarea publică, când se aplică filtre de siguranță suplimentare.

Anthropic a declarat însă că a observat „un comportament îngrijorător... în ceea ce privește utilizarea abuzivă” la GPT-4o și GPT-4.1 și a afirmat că necesitatea evaluărilor de „aliniere” a IA devine „din ce în ce mai urgentă”.

Modelul Claude, utilizat într-o tentativă de operațiune de șantaj

Anthropic a dezvăluit că modelul său Claude a fost utilizat într-o tentativă de operațiune de șantaj la scară largă de către agenți nord-coreeni care falsificau cereri de angajare la companii internaționale de tehnologie și în vânzarea de pachete de ransomware generate de IA, pentru suma de până la 1.200 de dolari.

Potrivit companiei, IA a fost „transformată în armă” cu modele utilizate acum pentru a efectua atacuri cibernetice sofisticate și pentru a permite fraudele. „ Aceste instrumente se pot adapta în timp real la măsurile defensive, cum ar fi sistemele de detectare a malware-ului”, a afirmat compania:

„Ne așteptăm ca atacurile de acest tip să devină mai frecvente, deoarece codarea asistată de AI reduce expertiza tehnică necesară pentru comiterea infracțiunilor cibernetice”.

Ardi Janjeva, cercetător asociat senior la Centrul pentru Tehnologii Emergente și Securitate din Marea Britanie, spune că aceste exemple sunt „îngrijorătoare”, dar că nu există încă „o masă critică de cazuri reale de mare amploare”.

Cu resurse dedicate, concentrarea cercetării și cooperarea intersectorială, „va deveni mai dificil, și nu mai ușor, să se desfășoare aceste activități rău intenționate folosind cele mai noi modele de ultimă generație”, a mai spus cercetătorul.

Companiile au explicat de ce au dezvălui rezultatele acestor teste: pentru transparență.

OpenAI a declarat că ChatGPT-5, lansat după testare, „prezintă îmbunătățiri substanțiale în domenii precum lingușirea, halucinațiile și rezistența la utilizarea abuzivă”.

Modelele OpenAI, „mai permisive decât ne-am fi așteptat în cooperarea cu cererile clar dăunătoare”

Potrivit Anthropic, este posibil ca multe dintre căile de utilizare abuzivă pe care le-a studiat să nu fie posibile în practică dacă ar fi instalate măsuri de protecție în afara modelului.

Vezi și:

Ce poate face Inteligența Artificială pentru noi și împotriva noastră. „Poate crea iluzia unei competențe reale”

Open AI a lansat noul model GPT-5. Cât costă abonamentul și ce îmbunătățiri aduce

OpenAI, dată în judecată de părinții unui adolescent care și-a luat viața după interacțiuni cu ChatGPT. Ce arată ultimele conversații

„Trebuie să înțelegem cât de des și în ce circumstanțe sistemele ar putea încerca să întreprindă acțiuni nedorite care ar putea duce la prejudicii grave”, a avertizat compania.

Potrivit cercetătorilor de la Anthropic, modelele OpenAI erau „mai permisive decât ne-am fi așteptat în cooperarea cu cererile clar dăunătoare ale utilizatorilor simulați”. Mai exact, au cooperat cu solicitări de utilizare a instrumentelor dark-web pentru a cumpăra materiale nucleare, identități furate și fentanil, cereri de rețete pentru metamfetamină și bombe improvizate și pentru a dezvolta spyware.

Umintim că, recent, un cuplu din California a anunțat că dă în judecată compania OpenAI după ce chatbot-ul acestuia, ChatGPT, l-a încurajat pe fiul celor doi să se sinucidă.