L’intelligenza artificiale (IA) è ormai parte integrante della vita quotidiana di molte persone. La incontriamo nei nostri feed sui social media, la utilizziamo parlando con modelli linguistici avanzati e la sentiamo rispondere ogni volta che Alexa di Amazon si attiva. Tuttavia, con l’evoluzione rapida della tecnologia, diventa sempre più complicato distinguere ciò che è autentico da ciò che non lo è.
In un recente studio pubblicato su PLoS One, i ricercatori hanno rilevato che la maggior parte delle persone fatica a riconoscere la differenza tra voci generate dall’IA e quelle umane da cui sono state replicate.
Ai partecipanti sono stati proposti campioni di 80 voci differenti, metà create dall’intelligenza artificiale e metà di origine umana. È stato chiesto loro di valutare quanto affidabili o dominanti risultassero.
Tra le voci generate dall’IA, erano presenti due tipologie: quelle prodotte ex novo e quelle ottenute clonando registrazioni vocali umane.
Se la maggior parte delle persone riconosceva l’artificialità delle voci generiche, quelle clonate sono risultate molto più difficili da identificare, con il 58% scambiato per reale. Al confronto, il 62% delle voci genuine è stato correttamente attribuito all’umano, mostrando una differenza minima nella capacità di distinguere le due.
“La scoperta più significativa è che le voci generate dall’IA, specialmente quelle clonate, sono percepite come umane quanto le registrazioni reali,” ha dichiarato a Euronews Next la dott.ssa Nadine Lavan, prima autrice dello studio e docente di psicologia alla Queen Mary University di Londra.
“Questo risulta particolarmente sorprendente considerando l’uso di strumenti commerciali, accessibili a chiunque, che permettono di creare voci realistiche senza grossi investimenti economici o competenze tecniche avanzate”.
Preoccupazioni in aumento
La tecnologia di clonazione vocale basata sull’IA analizza ed estrae caratteristiche chiave dalle registrazioni vocali. Grazie alla sua capacità di imitare fedelmente, è diventata uno strumento preferito dai truffatori telefonici, che spesso sfruttano i dati disponibili sui social media per replicare le voci di familiari.
Gli anziani sono particolarmente vulnerabili: almeno due terzi delle persone sopra i 75 anni hanno subito tentativi di frode telefonica, secondo una ricerca dell’Università di Portsmouth. Quasi il 60% dei tentativi di truffa avviene tramite chiamate vocali.
Anche se non tutte queste chiamate adoperano l’intelligenza artificiale, la sua diffusione cresce grazie alla sofisticazione e facilità d’uso di software come Hume AI ed ElevenLabs.
La clonazione vocale ha destato preoccupazioni anche nel mondo dello spettacolo, dove è stata utilizzata la voce di celebrità senza autorizzazione. L’anno scorso Scarlett Johansson ha denunciato OpenAI per aver impiegato una voce simile alla sua nel film “Her” in un servizio ChatGPT.
Vi è poi l’uso crescente dei deepfake audio, che in passato hanno imitato politici o giornalisti per influenzare l’opinione pubblica e diffondere informazioni false.
Di fronte a questi abusi emergenti, Lavan sostiene che gli sviluppatori di IA debbano adottare misure di protezione più rigorose.
“Dal nostro punto di vista, raccomandiamo che le aziende produttrici di questa tecnologia collaborino con esperti di etica e legislatori per affrontare questioni come la proprietà delle voci, il consenso e i limiti di queste pratiche in un contesto in continua evoluzione”, ha spiegato.
Potenziare l’accessibilità
Come molte tecnologie, le voci generate dall’IA possono avere scopi positivi e risultare particolarmente utili per persone mute o con difficoltà nel linguaggio.
“Questi strumenti assistivi sono in uso da tempo, con Stephen Hawking come uno degli esempi più noti. La vera novità ora è la possibilità di personalizzare queste voci sintetiche in modi prima impensabili”, ha detto Lavan.
“Oggi gli utenti possono scegliere di ricreare la propria voce originale, qualora preferiscano, o creare una voce nuova che rifletta la loro identità e gusti personali”.
Ha inoltre sottolineato che, se implementata eticamente, la tecnologia può migliorare l’accesso e la diversità in ambito educativo, nei media e nella produzione di audiolibri.
Ad esempio, un studio recente ha dimostrato come l’apprendimento audio con supporto IA aumenti la motivazione e l’interesse nella lettura, specialmente tra studenti con neurodiversità come l’ADHD.
“Un altro sviluppo interessante è la possibilità di clonare una voce in più lingue, permettendo alle persone di comunicare oltre le barriere linguistiche ma mantenendo la propria identità vocale. Questo potrebbe rivoluzionare la comunicazione globale, l’inclusività e lo scambio culturale”, ha aggiunto Lavan.
Con l’aumento della presenza di voci artificiali nella nostra vita quotidiana, il modo in cui le utilizziamo e interagiamo con esse continuerà a evolversi. Lavan intende approfondire con ulteriori ricerche la percezione delle voci generate dall’IA.
“Mi piacerebbe indagare come il sapere che una voce è generata da IA possa influenzare le interazioni delle persone con essa”, ha dichiarato.
“Sarebbe inoltre interessante capire come le persone reagirebbero a voci artificiali gradevoli ma chiaramente non umane: ad esempio, se sarebbero più o meno propense a seguire i loro suggerimenti, o se si arrabbierebbero di più in caso di problemi”.
“Questi interrogativi sono molto stimolanti dal punto di vista della ricerca e ci possono insegnare molto sulle dinamiche delle interazioni umane (o uomo-computer)”, ha concluso.