Noul model AI al Anthropic, prea periculos pentru a fi lansat public: „Arme pe care nici nu ni le putem imagina”
0Anthropic a tras un semnal de alarmă cu privire la pericolele potențiale ale celui mai nou model de inteligență artificială, „Claude Mythos”, directorii avertizând că sistemul este atât de avansat încât ar putea deveni periculos din punctul de vedere al securității cibernetice dacă ar fi făcut disponibil publicului larg, relatează New York Post.
În urma unei analize interne îngrijorătoare, compania a dezvăluit că modelul a demonstrat o capacitate fără precedent de a identifica și exploata vulnerabilități în infrastructuri critice, inclusiv rețele electrice, spitale și centrale energetice. Potrivit Anthropic, Mythos a „găsit mii de vulnerabilități de severitate ridicată, inclusiv unele în fiecare sistem de operare și browser web major.”
În locul unei lansări pentru publicul larg, compania condusă de CEO-ul Dario Amodei a anunțat „Proiectul Glasswing”, prin care va fi oferit acces doar unui grup selectat de aproximativ 40 de organizații majore, printre care Amazon, Google, Apple, Nvidia, CrowdStrike și JPMorgan Chase, care vor putea folosi sistemul pentru a identifica și remedia vulnerabilități de securitate.
Abordarea reflectă, în opinia unor experți, un compromis necesar între inovație și risc. Roman Yampolskiy, cercetător în siguranța AI la Universitatea din Louisville, a declarat că lansarea limitată ar putea fi cea mai practică opțiune disponibilă.
Lansarea exclusiv pentru corporații este probabil cea mai bună modalitate a Anthropic de „a oferi tehnologia celor care pot repara vulnerabilitățile, dar nu hackerilor care vor găsi și mai multe breșe»,” a spus Yampolskiy pentru NYP.
„Cel mai probabil, desigur, va exista o scurgere de informații de un fel sau altul,” a spus el. „Orice nivel de restricție este preferabil accesului complet deschis. În mod ideal, mi-aș dori ca acest lucru să nu fi fost dezvoltat de la bun început. Și nu e ca și cum ar avea de gând să se oprească.”
Yampolskiy a adăugat că astfel de sisteme sunt de așteptat să devină din ce în ce mai periculoase: „Exact asta ne așteptăm de la aceste modele – vor deveni mai performante în dezvoltarea de instrumente de hacking, arme biologice, arme chimice, arme noi pe care nici măcar nu ni le putem imagina.”
Testele proprii ale Anthropic par să confirme unele dintre aceste îngrijorări. Într-un caz, Mythos ar fi reușit să evadeze dintr-un mediu „sandbox” securizat, proiectat pentru a limita accesul la internet. Un cercetător și-a dat seama de breșă abia după ce a „primit un e-mail neașteptat de la modelul AI în timp ce mânca un sandviș într-un parc.” Într-un alt caz, sistemul a descoperit o vulnerabilitate în sistemul de operare OpenBSD care rămăsese nedetectată timp de 27 de ani.
În ciuda acestor riscuri, Anthropic susține că Project Glasswing ar putea întări capacitățile de apărare cibernetică ale SUA, în special în contextul agresivității crescute ale unor adversari geopolitici precum Iran, China și Rusia.
Declarațiile Anthropic
Un oficial Anthropic a declarat că organizațiile selectate au fost alese pentru rolul lor esențial în ecosistemul digital global. „Ne-am concentrat pe organizații ale căror software reprezintă cea mai mare parte a suprafeței globale de atac cibernetic,” a spus oficialul.
„Acestea sunt companii care construiesc și întrețin sistemele de operare, browserele, platformele cloud și infrastructura financiară pe care miliarde de oameni se bazează zilnic,” a adăugat acesta. „Atunci când descoperi o vulnerabilitate în sistemele lor și aceasta este remediată, corecția îi protejează pe toți utilizatorii acelui software - în multe cazuri, sute de milioane de oameni.”
Compania poartă, de asemenea, discuții active cu oficiali guvernamentali din SUA despre modul în care Mythos ar putea sprijini atât capacitățile defensive, cât și pe cele ofensive în domeniul cibernetic.
„Claude Mythos Preview ilustrează ce este acum posibil pentru apărători la scară largă, iar adversarii vor încerca inevitabil să exploateze aceleași capabilități,” a explicat Elia Zaitsev, director tehnologic la CrowdStrike.
Ce spun criticii
Cu toate acestea, nu toată lumea este convinsă că acțiunile Anthropic sunt în concordanță cu avertismentele sale. Criticii susțin că mediatizarea intensă a capacităților modelului ar putea alimenta mai degrabă atenția decât prudența.
Perry Metzger, președintele organizației de politici AI Alliance for the Future din Washington, D.C., a spus că mesajele companiei s-au răspândit „ca focul.”
„Ar fi bine să plătiți pentru acces la Glasswing sau să reușiți să intrați, pentru că doar ei sunt suficient de responsabili să decidă cine ar trebui și cine nu ar trebui să aibă acces. Ei sunt experții, la urma urmei,” a spus Metzger sarcastic. „Găsesc toată situația frustrantă.”
Unii critici au mers mai departe, acuzând Anthropic de „capturare a reglementării”- modelarea regulilor viitoare în avantajul propriu și în dezavantajul competitorilor. Printre cei care au ridicat astfel de îngrijorări se numără figuri din Washington, inclusiv consilierul pe AI al președintelui Trump, David Sacks.
„În fiecare etapă a discuției despre apariția AI, Dario Amodei crede că el, și numai el, este calificat să decidă ce poate face această tehnologie și cine poate avea acces la ea,” a declarat Nathan Leamer, director executiv al organizației Build American AI. „El este singurul Solomon modern care va decide cine va reglementa acest domeniu. Cine mai are nevoie de dezbatere publică?”
Anthropic a respins aceste acuzații, subliniind că Project Glasswing include companii care dezvoltă propriile modele AI concurente. Compania a evidențiat și sprijinul acordat inițiativelor open-source în domeniul securității.
„Am pus la dispoziție cel mai capabil model al nostru AWS, Apple, Google, Microsoft și alții, pentru a identifica și remedia vulnerabilități în propriile lor sisteme și am prioritizat comunitatea open-source, donând 4 milioane de dolari organizațiilor precum Linux Foundation și Apache Software Foundation,” a spus oficialul.
Unii din industrie au făcut comparații cu momente anterioare din dezvoltarea AI. O sursă anonimă a menționat că OpenAI a avertizat în 2019 că modelul GPT-2 era prea periculos pentru o lansare publică, într-o perioadă în care atât Amodei, cât și Jack Clark lucrau încă acolo.