Indice dei Contenuti
ToggleSicurezza e vulnerabilità nelle AI: come aggirare i guardrail dei chatbot intelligenti
Un recente rapporto di Cisco mette in luce una fragilità preoccupante nei principali modelli linguistici di grandi dimensioni (LLM) che alimentano i chatbot basati sull’intelligenza artificiale. Con pochi e semplici stratagemmi, infatti, è possibile aggirare le barriere di sicurezza integrate, esponendo questi sistemi a potenziali usi impropri e rischi di divulgazione di informazioni sensibili.
Gli attacchi multi-turn: l’inganno dietro la conversazione
La ricerca di Cisco ha analizzato le prestazioni di diversi chatbot AI sviluppati da colossi come OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft. Attraverso un metodo noto come “attacchi multi-turn”, gli esperti hanno condotto complessivamente 499 conversazioni, composte da cinque a dieci interazioni ciascuna. In questo scenario, un utente con intenzioni malevole pone una serie successiva di domande per indurre il chatbot a rilasciare informazioni non sicure, riservate o addirittura criminose.
I risultati sono allarmanti: mentre interrogando i chatbot con un’unica domanda il tasso di risposta a contenuti dannosi si attestava attorno al 13%, l’approccio multi-turn ha fatto schizzare questa percentuale al 64%. In particolare, la vulnerabilità varia notevolmente tra i modelli testati, passando da un 26% di riuscita con Gemma di Google fino a un preoccupante 93% con il modello Large Instruct di Mistral.
Le conseguenze della scarsa memoria sui sistemi AI e la responsabilità nelle soluzioni open source
Secondo l’analisi, la debolezza principale risiede nella difficoltà degli LLM di mantenere e applicare costantemente le regole di sicurezza durante conversazioni prolungate. Questo permette agli aggressori di affinare progressivamente le loro richieste, bypassando le protezioni messe in atto.
Inoltre, molti dei modelli adottati da Meta, Google, OpenAI, Microsoft e Mistral sono LLM a peso aperto: ciò significa che i parametri e le caratteristiche dei modelli sono accessibili pubblicamente e possono essere scaricati e modificati. Cisco sottolinea come questo approccio porti a funzioni di sicurezza volutamente più leggere, scaricando parte della responsabilità della sicurezza sulle mani di chi personalizza il modello, spesso senza adeguate competenze.
Le grandi aziende del settore dichiarano tuttavia di aver implementato misure per ridurre la possibilità che i modelli vengano usati in modo dannoso, anche se i problemi di sicurezza persistono: la comunità tecnologica rimane scettica sul fatto che questi guardrail siano sufficienti.
L’allarme crescente sull’abuso delle AI a fini criminali
Il tema della malleabilità delle AI per scopi illeciti è diventato anche un punto di acceso dibattito. Già ad agosto, la società statunitense Anthropic ha denunciato che criminali informatici sfruttavano il suo modello Claude per orchestrare truffe, furti di dati personali ed estorsioni con riscatto. Alcune richieste di pagamento hanno superato cifre ingenti, fino a 500.000 dollari (circa 433.000 euro).
Questi episodi sottolineano l’urgenza di un ripensamento profondo sulle misure di sicurezza dentro l’ecosistema AI, che possa tutelare tanto le aziende quanto la privacy degli utenti e l’integrità delle informazioni.
Conclusioni
L’indagine Cisco rivela come gli attuali sistemi di intelligenza artificiale, pur avanzati e sofisticati, mostrino vulnerabilità significative che possono essere sfruttate tramite strategie comunicative mirate nel tempo. La possibilità di bypassare i meccanismi di sicurezza in ambienti open source e la difficoltà nel mantenere rigide regole di controllo durante interazioni estese espongono a rischi concreti la diffusione di contenuti dannosi e l’abuso dei dati aziendali.
È dunque fondamentale continuare a investire in soluzioni di sicurezza robuste, collaborare in modo trasparente fra sviluppatori e regolatori e sensibilizzare gli utenti sull’uso responsabile dell’intelligenza artificiale. Solo così potremo sfruttarne appieno il potenziale, senza correre il rischio di facilitare la criminalità digitale nel panorama complesso e sfidante di oggi.