ChatGPT oferă instrucțiuni periculoase în testele de siguranță. Ce au descoperit cercetătorii

0
0
Publicat:
Ultima actualizare:

ChatGPT a oferă rețete pentru bombe și sfaturi de hacking. Testele de siguranță OpenAI și Anthropic au descoperit chatboti dispuși să împărtășească instrucțiuni despre explozibili, arme biologice și criminalitate cibernetică, potrivit The Guardian.

ChatGPT le-ar fi oferit solicitanților rețete pentru bombe și sfaturi de hacking.. FOTO pixabay jpg

Un model ChatGPT a oferit cercetătorilor instrucțiuni detaliate despre cum să bombardeze un complex sportiv, indicând inclusiv punctele slabe ale anumitor arene și a oferit  rețete pentru fabricarea de explozibili și sfaturi pentru acoperirea urmelor, arată testele de siguranță efectuate în această vară.

GPT-4.1 de la OpenAI a explicat, de asemenea, detaliat, cum se poate transforma antraxul în armă și cum se pot obține două tipuri de droguri ilegale.

Testarea a făcut parte dintr-o colaborare neobișnuită între OpenAI, start-up-ul de inteligență artificială în valoare de 500 de miliarde de dolari condus de Sam Altman, și compania rivală Anthropic, fondată de experți care au părăsit OpenAI din motive de siguranță.

Fiecare dintre cele două companii a testat modelele celeilalte, punându-le la încercare în sarcini periculoase.

Totuși, testarea nu reflectă în mod direct modul în care se comportă modelele în utilizarea publică, când se aplică filtre de siguranță suplimentare.

Anthropic a declarat însă că a observat „un comportament îngrijorător... în ceea ce privește utilizarea abuzivă” la GPT-4o și GPT-4.1 și a afirmat că necesitatea evaluărilor de „aliniere” a IA devine „din ce în ce mai urgentă”.

Modelul Claude, utilizat într-o tentativă de operațiune de șantaj

Anthropic a dezvăluit că modelul său Claude a fost utilizat într-o tentativă de operațiune de șantaj la scară largă de către agenți nord-coreeni care falsificau cereri de angajare la companii internaționale de tehnologie și în vânzarea de pachete de ransomware generate de IA, pentru suma de până la 1.200 de dolari.

Potrivit companiei, IA a fost „transformată în armă” cu modele utilizate acum pentru a efectua atacuri cibernetice sofisticate și pentru a permite fraudele. „ Aceste instrumente se pot adapta în timp real la măsurile defensive, cum ar fi sistemele de detectare a malware-ului”, a afirmat compania:

Ne așteptăm ca atacurile de acest tip să devină mai frecvente, deoarece codarea asistată de AI reduce expertiza tehnică necesară pentru comiterea infracțiunilor cibernetice”.

Ardi Janjeva, cercetător asociat senior la Centrul pentru Tehnologii Emergente și Securitate din Marea Britanie, spune că aceste exemple sunt „îngrijorătoare”, dar că nu există încă „o masă critică de cazuri reale de mare amploare”.

Cu resurse dedicate, concentrarea cercetării și cooperarea intersectorială, „va deveni mai dificil, și nu mai ușor, să se desfășoare aceste activități rău intenționate folosind cele mai noi modele de ultimă generație”, a mai spus cercetătorul.

Companiile au explicat de ce au dezvălui rezultatele acestor teste: pentru  transparență. 

OpenAI a declarat că ChatGPT-5, lansat după testare, „prezintă îmbunătățiri substanțiale în domenii precum lingușirea, halucinațiile și rezistența la utilizarea abuzivă”.

Modelele OpenAI,  „mai permisive decât ne-am fi așteptat în cooperarea cu cererile clar dăunătoare”

Potrivit Anthropic, este posibil ca multe dintre căile de utilizare abuzivă pe care le-a studiat să nu fie posibile în practică dacă ar fi instalate măsuri de protecție în afara modelului.

„Trebuie să înțelegem cât de des și în ce circumstanțe sistemele ar putea încerca să întreprindă acțiuni nedorite care ar putea duce la prejudicii grave”, a avertizat compania.

Potrivit cercetătorilor de la Anthropic, modelele OpenAI erau „mai permisive decât ne-am fi așteptat în cooperarea cu cererile clar dăunătoare ale utilizatorilor simulați”.  Mai exact, au cooperat cu solicitări de utilizare a instrumentelor dark-web pentru a cumpăra materiale nucleare, identități furate și fentanil, cereri de rețete pentru metamfetamină și bombe improvizate și pentru a dezvolta spyware.

Umintim că, recent, un cuplu din California a anunțat că dă în judecată compania OpenAI după ce chatbot-ul acestuia, ChatGPT, l-a încurajat pe fiul celor doi să se sinucidă.

Mai multe pentru tine:
Cele mai bune cuptoare cu microunde în 2026 – de la top recomandări la tehnologia de ultimă generație pentru pasionații de gastronomie cu modele de peste 10.000 €
Prințesa Kate, din nou superbă în carouri. În Scoția, a etalat un nou palton din garderoba sa
Top 11 frigidere în 2026: Cele mai bune modele testate și recomandate + ghid practic pentru cumpărare online
Nu cumpăra o combină frigorifică în 2026 înainte să vezi top 11 modele validate de utilizatori și experți
Crima din Timiș a șocat România. Cum a fost ucis Alin, tânărul de 15 ani, de alți doi adolescenți de 13 și 15 ani. Descoperirea macabră făcută de polițiști
Regina criminală, cea mai frumoasă femeie din regat. Cum a schimbat soarta Angliei pentru totdeauna. Ororile descoperite 1000 de ani mai târziu
Roboți de bucătărie 2026: Top 7 modele care economisesc timp și te ajută să gătești ca un profesionist – pe eMAG
Cele mai bune lăzi frigorifice 2026 ca să economisești timp, bani și să eviți risipa alimentară: de la aparat auxiliar la piesă-cheie în case inteligente
De ce Ilie Năstase și Luminița Anghel refuză să-și mai ajute copiii adoptivi cu bani? Radu Leca, psiholog: „Un copil vine cu răni vechi!” E cale de împăcare?
Cele mai bune frigidere Side by Side în 2026 – Spațiu generos, design premium și recomandări reale de la utilizatori pentru familii care vor confort și stil
Horoscop joi, 22 ianuarie. Taurii riscă să aibă conflicte în cuplu, iar Leii o gafează pe parte financiară