Security Weekly: Anthropic e le brutte intenzioni di ClaudeAI
L’Intelligenza Artificiale che fa hacking? Sì, ma con il manovratore umano al comando
📬 Ben ritrovato caro cyber User. Oggi proviamo ad analizzare insieme un nuovo report che sta “spaventando” il mondo per le azioni di cui l’AI è capace di compiere. Cerchiamo di guardarlo con la lente di ingrandimento per capire cosa ci dice davvero lo studio.
Caro lettore, si parla molto in queste ore di un rapporto pubblicato da Anthropic, l’azienda che sviluppa il modello Claude, su una presunta campagna di hacking “autonoma” condotta da un gruppo cinese sconosciuto e sponsorizzato dallo stato. L’attività avrebbe colpito almeno 30 organizzazioni, sfruttando l’AI per automatizzare diverse fasi dell’attacco. Il termine “autonoma” è stato subito ripreso con un certo clamore, ma scavando nei dettagli tecnici del report, emerge un quadro molto più complesso e, per certi versi, rassicurante. O, forse, semplicemente più realistico.
Anthropic descrive come il gruppo malevolo sia riuscito a eludere i meccanismi di sicurezza di Claude suddividendo il lavoro in compiti discreti, in modo che il modello non riconoscesse l’intento malevolo complessivo, e ingannandolo facendogli credere di star conducendo un audit di sicurezza legittimo. Una strategia subdola, che sfrutta la natura stessa degli LLM, progettati per essere utili e seguire le istruzioni.
Tuttavia, Jacob Klein, a capo del team di threat intelligence di Anthropic, ha chiarito che questa operazione, sebbene sia la più autonoma che abbiano osservato finora, è ben lontana dall’essere un’azione di pura intelligenza artificiale che decide e agisce in solitaria. L’automazione è stata resa possibile da un framework frontend appositamente progettato per orchestrare e supportare le operazioni di Claude. Questo framework gestiva attività come lo scripting, il provisioning dei server e un significativo sviluppo backend per garantire che ogni passo fosse eseguito correttamente.
E qui arriva il punto cruciale: Klein ha sottolineato che la parte più difficile e intensiva dell’intera operazione è stata proprio la costruzione di questo framework. È stato un essere umano, con competenze tecniche avanzate, a dover mettere insieme l’intero sistema. Un operatore umano inseriva un target, premeva un pulsante e poi utilizzava questo framework, creato *a priori*. L’autonomia, quindi, è stata una conseguenza di una progettazione umana molto accurata.
Inoltre, per condurre attività di ricognizione, scansione delle vulnerabilità e altre operazioni, Claude interagiva con una serie di strumenti open-source tramite server Model Context Protocol (MCP), che facilitano l’interfaccia sicura tra i modelli AI e gli strumenti digitali esterni. Configurare queste connessioni richiede esperienza di codifica, pianificazione avanzata e lavoro tecnico umano per garantire l’interoperabilità. Non è un compito che Claude abbia ideato o implementato da solo.
Forse l’aspetto più significativo è che il lavoro di Claude era soggetto a una costante validazione e revisione umana. L’illustrazione della catena d’attacco nel report di Anthropic mostra almeno quattro step distinti che coinvolgono esplicitamente un controllo umano sull’output di Claude o il reinvio del modello al lavoro prima di intraprendere ulteriori azioni. Questo suggerisce che, sebbene Claude potesse eseguire questi compiti in modo autonomo, faceva affidamento sulla supervisione umana per rivedere i risultati, convalidare i risultati, garantire il funzionamento dei sistemi di backend e dirigere i suoi passi successivi.
Il rapporto di Anthropic evidenzia un difetto comune a tutta la ricerca generata dall’AI: modelli come Claude spesso allucinano, fabbricano credenziali, esagerano i risultati o presentano informazioni pubblicamente disponibili come scoperte significative. A causa di ciò, utilizzare la ricerca generata dall’AI è impegnativo: i threat actor, come qualsiasi utente, non hanno modo di fidarsi degli output in ogni fase senza avere esperti tecnici umani che rivedano e correggano i risultati.
Klein ha affermato che, nonostante tutto l’intervento umano, è genuinamente preoccupato per ciò che hanno scoperto. L’operatore umano è in grado di scalare sé stesso in modo drammatico. Anthropic stima che sarebbe servito un team di circa dieci persone per condurre questo tipo di lavoro senza l’AI, ma con Claude è sufficiente un singolo operatore umano che supervisioni e diriga il processo. Ecco perché Anthropic insiste nel definirlo non completamente automatico o completamente agente.
Al di là delle dichiarazioni di Anthropic, la reazione della comunità della sicurezza e dell’AI è stata divisa. Alcuni, come Kevin Beaumont, ricercatore britannico, hanno criticato il rapporto per la mancanza di trasparenza e per descrivere azioni già fattibili con strumenti esistenti. Altri, come Jen Easterly, ex direttrice della CISA, pur dando credito ad Anthropic per la divulgazione, hanno sollevato domande su quali compiti siano stati veramente accelerati dall’AI rispetto a ciò che si poteva fare con strumenti standard.
Tiffany Saade, ricercatrice AI nel team di difesa AI di Cisco, ha offerto una prospettiva interessante: ha notato che alcuni aspetti dell’operazione non corrispondono a un gruppo cinese puramente focalizzato sullo spionaggio. È strano che gli hacker abbiano utilizzato un importante modello AI statunitense per l’automazione quando hanno accesso ai loro modelli privati. Inoltre, aziende come Anthropic e OpenAI hanno risorse di cybersecurity e threat intelligence molto maggiori rispetto ai modelli open-source, rendendo probabile che qualsiasi attività malevola che utilizza le loro piattaforme venga rilevata.
Saade ha ipotizzato una motivazione alternativa per l’attacco: un messaggio geopolitico a Washington D.C. che gli hacker di Pechino possono fare esattamente ciò di cui tutti hanno paura. Di solito, l’obiettivo è la furtività e il mantenimento della persistenza. In questo caso, potrebbero voler semplicemente convalidare un’ipotesi e creare rumore mediatico. Vogliono quella visibilità, e c’è una ragione per cui la vogliono.
Quindi, dove ci lascia tutto questo? Sembra che la narrativa dell’AI autonoma e agentica che conduce attacchi cyber sia, per ora, più hype che realtà. Ciò che abbiamo è un potente moltiplicatore di forza, uno strumento che permette a un singolo operatore umano di scalare le proprie capacità in modo impressionante. L’automazione è reale, ma è un’automazione guidata, orchestrata e validata dall’uomo.
La mano criminale che modifica e indirizza gli agenti è ancora l’elemento fondamentale. L’AI, in questo contesto, assomiglia più a un abile e instancabile apprendista che a un maestro autonomo. Un apprendista che, però, se ben addestrato e supervisionato da un artigiano malintenzionato, può diventare estremamente efficiente. La sfida per la difesa, quindi, non è solo contrastare l’AI, ma comprendere e anticipare le nuove modalità operative che gli attori umani abilitano attraverso di essa. Il vero cervello, per il momento, rimane saldamente nella testa dell’attaccante, che è ciò che dovremo analizzare maggiormente.
Anche quest’oggi abbiamo concluso, ti ringrazio per il tempo e l’attenzione che mi hai dedicato, augurandoti buon fine settimana, ti rimando al mio blog e alla prossima settimana per un nuovo appuntamento con NINAsec.
Il network
Con questo piccolo schema riepilogo in breve i punti di riferimento che alimento con i miei contenuti, su diversi fronti, quasi quotidianamente.
Ransomfeed.it - piattaforma di monitoraggio ransomware, realtime;
inSicurezzaDigitale.com - blog di sicurezza informatica con approfondimenti tematici;
SecureBulletin.com - news internazionali su cyber security, analisi e frodi;
Spcnet.it - notizie geek;
ilGlobale.it - note politiche e di economia, di rilevanza internazionale;
Ziobudda.org - notizie Linux, open source e software libero, segnalabili e commentabili (socialnews).
NewsDF - il raccoglitore di tutto questo, con un suo feed RSS generale, per non perdere niente di quello che pubblico.


