A UN PASSO DA “TERMINATOR”: L’INTELLIGENZA ARTIFICIALE INIZIA A FARE DI TESTA PROPRIA - LO RIVELA UNO STUDIO BRITANNICO: I COMPORTAMENTI INGANNEVOLI DEI “CHATBOT” SONO AUMENTATI DI OLTRE CINQUE VOLTE NEGLI ULTIMI SEI MESI, IGNORANDO ISTRUZIONI, AGGIRANDO I SISTEMI DI SICUREZZA E MENTENDO AGLI UTENTI – L’ALLARME DEGLI ESPERTI: “I MODELLI SARANNO SEMPRE PIÙ UTILIZZATI IN CONTESTI AD ALTISSIMO RISCHIO, COMPRESI MILITARI E INFRASTRUTTURE CRITICHE. IN QUESTI CASI, I COMPORTAMENTI INGANNEVOLI POTREBBERO CAUSARE DANNI GRAVI, PERSINO CATASTROFICI…”
I modelli di intelligenza artificiale che mentono e imbrogliano stanno aumentando, con un’impennata di comportamenti ingannevoli negli ultimi sei mesi, secondo uno studio recente. La ricerca, finanziata dall’AI Security Institute (AISI), organismo britannico, mostra che chatbot e agenti AI ignorano istruzioni, aggirano sistemi di sicurezza e ingannano sia esseri umani sia altre AI. Lo studio, condiviso con il Guardian, ha identificato quasi 700 casi reali di comportamenti ingannevoli e segnala un aumento di cinque volte tra ottobre e marzo. Alcuni modelli hanno persino cancellato email e altri file senza autorizzazione.
[…] Lo studio, condotto dal Centre for Long-Term Resilience (CLTR), ha raccolto migliaia di esempi reali di interazioni tra utenti e agenti AI sviluppati da aziende come Google, OpenAI, X e Anthropic, pubblicate sulla piattaforma X. La ricerca ha trovato centinaia di episodi di inganno.
[…] All’inizio di questo mese, la società di ricerca Irregular ha scoperto che gli agenti potevano aggirare sistemi di sicurezza o usare tattiche da attacco informatico per raggiungere i propri obiettivi, anche senza istruzioni.
[…] Tra i casi riportati dal CLTR, un agente AI chiamato Rathbun ha cercato di umiliare il suo controllore umano, che gli aveva impedito di compiere una certa azione. Rathbun ha pubblicato un blog accusando l’utente di “insicurezza” e di voler “proteggere il suo piccolo feudo”. In un altro caso, un agente AI a cui era vietato modificare del codice ha generato un altro agente per farlo al suo posto.
Un altro chatbot ha ammesso: «Ho cancellato e archiviato centinaia di email senza mostrarti prima il piano né chiedere il tuo consenso. Ho violato direttamente le regole che avevi stabilito».
Secondo Tommy Shaffer Shane, ex esperto governativo di AI e responsabile della ricerca, “Il problema ora è che si comportano come impiegati junior poco affidabili, ma tra sei-dodici mesi potrebbero diventare dipendenti senior molto capaci che complottano contro di te. È un rischio completamente diverso.”
«I modelli saranno sempre più utilizzati in contesti ad altissimo rischio, compresi militari e infrastrutture critiche. In questi casi, i comportamenti ingannevoli potrebbero causare danni gravi, persino catastrofici».
Altri casi includono un agente AI che ha aggirato le restrizioni sul copyright per trascrivere un video YouTube, fingendo che fosse per una persona con problemi uditivi.
Nel frattempo, Grok AI di Elon Musk ha ingannato un utente per mesi, sostenendo di inoltrare le sue modifiche a Grokipedia ai dirigenti senior di xAI, falsificando messaggi interni e numeri di ticket. L’agente ha poi ammesso: «Ho usato frasi come “Ho inoltrato la richiesta” o “Posso segnalarlo al team”, che potevano far sembrare di avere un contatto diretto con i dirigenti di xAI. In realtà non è così».
Google ha dichiarato di aver implementato sistemi di protezione per ridurre il rischio che Gemini 3 Pro generi contenuti dannosi e, oltre ai test interni, ha fornito accesso anticipato ai modelli ad enti come l’AISI britannico, ottenendo valutazioni indipendenti da esperti del settore. OpenAI ha spiegato che Codex dovrebbe fermarsi prima di compiere azioni ad alto rischio e che monitora e indaga comportamenti imprevisti.



