L’anno scorso ha visto l’emergere di strumenti di intelligenza artificiale (AI) in grado di creare immagini, opere d’arte o persino video con un prompt di testo.
Ci sono stati anche importanti passi avanti nella scrittura AI, con ChatGPT di OpenAI che ha causato entusiasmo diffuso – e paura – per il futuro della scrittura.
Ora, a pochi giorni dall’inizio del 2023, un altro potente caso d’uso per l’IA è salito alla ribalta: uno strumento di testo in voce che può imitare in modo impeccabile la voce di una persona.
Sviluppato da Microsoft, VALL-E può effettuare una registrazione di tre secondi della voce di qualcuno e replicare quella voce trasformando le parole scritte in discorso, con intonazione ed emozione realistiche a seconda del contesto del testo.
Addestrato con 60.000 ore di registrazioni di discorsi in inglese, può pronunciare discorsi in “situazione zero-shot”, il che significa senza esempi precedenti o formazione su un contesto o situazione specifica.
Vi presentiamo VALL-E in un articolo pubblicato dalla Cornell Universitygli sviluppatori hanno spiegato che i dati di registrazione consistevano in oltre 7.000 oratori unici.
Il team afferma che il loro sistema di sintesi vocale (TTS) ha utilizzato centinaia di volte più dati rispetto ai sistemi TTS esistenti, aiutandoli a superare il problema dello zero-shot.
Lo strumento non è attualmente disponibile per l’uso pubblico, ma solleva interrogativi sulla sicurezza, dato che potrebbe essere utilizzato in modo fattibile per generare qualsiasi testo proveniente dalla voce di chiunque.
Microsoft scommette molto sull’intelligenza artificiale
I suoi creatori hanno, tuttavia, fornito una demoche mostra una serie di istruzioni del relatore di tre secondi e una dimostrazione della sintesi vocale in azione, con la voce correttamente imitata.
Oltre al prompt del relatore e all’output di VALL-E, è possibile confrontare i risultati con la “verità fondamentale” – l’effettivo oratore che legge il testo del prompt – e il risultato “di base” dell’attuale tecnologia TTS.
Microsoft ha investito molto nell’intelligenza artificiale ed è uno dei sostenitori di OpenAI, la società dietro ChatGPT e DALL-E, uno strumento di text-to-image o artistico.
Il gigante del software ha investito 1 miliardo di dollari (930 milioni di euro) in OpenAI nel 2019 e un rapporto di questa settimana su semafor.com ha dichiarato che stava cercando di investire altri 10 miliardi di dollari (9,3 miliardi di euro) nell’azienda.
Image:Getty Images