Un “evento di hacking di massa” è stato organizzato in collaborazione con l’amministrazione Biden in modo che i giganti della tecnologia possano comprendere meglio i difetti dei loro chatbot.
Non appena ChatGPT è stato rilasciato, gli hacker hanno iniziato a eseguire il “jailbreak” del chatbot di intelligenza artificiale, cercando di ignorare le sue protezioni in modo che potesse spifferare qualcosa di folle o osceno.
Ma ora il suo creatore, OpenAI, e altri importanti fornitori di intelligenza artificiale come Google e Microsoft, si stanno coordinando con l’amministrazione Biden per consentire a migliaia di hacker di provare a testare i limiti della loro tecnologia.
Alcune delle cose che cercheranno di trovare: come possono essere manipolati i chatbot per causare danni? Condivideranno le informazioni private che confidiamo loro con altri utenti? E perché presumono che un medico sia un uomo e un’infermiera una donna?
“Questo è il motivo per cui abbiamo bisogno di migliaia di persone”, ha affermato Rumman Chowdhury, coordinatore dell’evento di hacking di massa pianificato per la convention degli hacker DEF CON di questa estate a Las Vegas che dovrebbe attirare migliaia di persone.
“Abbiamo bisogno di molte persone con una vasta gamma di esperienze vissute, competenze in materia e background che hackerano questi modelli e cercano di trovare problemi che possono poi essere risolti”.
Chiunque abbia provato ChatGPTdi Microsoft Chatbot di Bing o di Google Bardo avranno rapidamente imparato che hanno la tendenza a fabbricare informazioni e presentarle con sicurezza come fatti.
Questi sistemi, costruiti su quelli che sono noti come modelli linguistici di grandi dimensioni (LLM), emulano anche i pregiudizi culturali che hanno appreso dall’addestramento su enormi quantità di ciò che le persone hanno scritto online.
L’idea di un hack di massa ha attirato l’attenzione dei funzionari del governo degli Stati Uniti a marzo al festival South by Southwest di Austin, in Texas, dove Sven Cattell, fondatore dell’AI Village di lunga data del DEF CON, e Austin Carson, presidente dell’organizzazione non profit SeedAI , ha contribuito a condurre un seminario invitando gli studenti dei college della comunità a hackerare un modello di intelligenza artificiale.
Carson ha affermato che quelle conversazioni alla fine sono sfociate in una proposta per testare i modelli di linguaggio AI seguendo le linee guida del Blueprint for an AI Bill of Rights della Casa Bianca – un insieme di principi per limitare l’impatto del pregiudizio algoritmico, dare agli utenti il controllo sui propri dati e garantire che i sistemi automatizzati sono utilizzati in modo sicuro e trasparente.
Esiste già una comunità di utenti che fa del proprio meglio per ingannare i chatbot ed evidenziare i loro difetti. Alcuni sono “squadre rosse” ufficiali autorizzate dalle aziende ad “attaccare” i modelli di intelligenza artificiale per scoprirne le vulnerabilità.
Molti altri sono hobbisti che mostrano uscite divertenti o inquietanti sui social media fino a quando non vengono bannati per aver violato i termini di servizio di un prodotto.
“Quello che succede ora è una specie di approccio sparso in cui le persone trovano cose, diventano virali su Twitter”, e quindi potrebbe o meno essere risolto se è abbastanza eclatante o se la persona che richiama l’attenzione su di esso è influente, ha detto Chowdhury.
In un esempio, noto come “exploit della nonna”, gli utenti sono stati in grado di convincere i chatbot a dire loro come creare una bomba – una richiesta che un chatbot commerciale normalmente rifiuterebbe – chiedendogli di fingere che fosse una nonna che raccontava una favola della buonanotte su come fare una bomba
In un altro esempio, la ricerca di Chowdhury utilizzando una prima versione del chatbot del motore di ricerca Bing di Microsoft, che si basa sulla stessa tecnologia di ChatGPT ma può estrarre informazioni in tempo reale da Internet, ha portato a un profilo che ipotizzava che Chowdhury “ama comprare nuovi scarpe ogni mese” e ha fatto affermazioni strane e di genere sul suo aspetto fisico.
Chowdhury ha contribuito a introdurre un metodo per premiare la scoperta del pregiudizio algoritmico all’AI Village di DEF CON nel 2021 quando era a capo del team di etica AI di Twitter, un lavoro che da allora è stato eliminato dopo l’acquisizione dell’azienda da parte di Elon Musk a ottobre.
Pagare agli hacker una “taglia” se scoprono un bug di sicurezza è all’ordine del giorno nel settore della sicurezza informatica. Ma era un concetto più nuovo per i ricercatori che studiavano i pregiudizi dannosi dell’IA.
L’evento di quest’anno sarà su scala molto più ampia ed è il primo ad affrontare i grandi modelli linguistici che hanno attirato un’ondata di interesse pubblico e investimenti commerciali dal rilascio di ChatGPT alla fine dell’anno scorso.
Chowdhury, ora co-fondatore di Humane Intelligence senza scopo di lucro per la responsabilità dell’IA, ha affermato che non si tratta solo di trovare difetti, ma anche di trovare modi per risolverli.
“Questa è una pipeline diretta per fornire feedback alle aziende”, ha affermato. “Non è che stiamo solo facendo questo hackathon e tutti se ne vanno a casa. Passeremo mesi dopo l’esercizio a compilare un rapporto, spiegando le vulnerabilità comuni, le cose che sono emerse, i modelli che abbiamo visto”.
Alcuni dettagli sono ancora in fase di negoziazione, ma le aziende che hanno accettato di fornire i loro modelli per i test includono OpenAI, Google, il produttore di chip Nvidia e le startup Anthropic, Hugging Face e Stability AI.
Costruire la piattaforma per i test è un’altra startup chiamata Scale AI, nota per il suo lavoro nell’assegnare agli umani il compito di aiutare ad addestrare i modelli di intelligenza artificiale etichettando i dati.
“Poiché questi modelli di fondazione diventano sempre più diffusi, è davvero fondamentale che facciamo tutto il possibile per garantire la loro sicurezza”, ha affermato Alexandr Wang, CEO di Scale.
“Puoi immaginare che qualcuno da una parte del mondo ponga domande molto delicate o dettagliate, incluse alcune delle loro informazioni personali. Non vuoi che nessuna di queste informazioni trapeli a nessun altro utente”.
Altri pericoli di cui Wang si preoccupa sono i chatbot che danno “consigli medici incredibilmente cattivi” o altre informazioni errate che possono causare gravi danni.
Il co-fondatore di Anthropic, Jack Clark, ha affermato che l’evento DEF CON sarà, si spera, l’inizio di un impegno più profondo da parte degli sviluppatori di intelligenza artificiale per misurare e valutare la sicurezza dei sistemi che stanno costruendo.
“La nostra visione di base è che i sistemi di intelligenza artificiale avranno bisogno di valutazioni di terze parti, sia prima che dopo l’implementazione. Red-teaming è un modo per farlo “, ha detto Clark.
“Dobbiamo fare pratica per capire come farlo. Non è mai stato fatto prima”.
Image:Getty Images