Dopo ChatGPT e DALL·E, incontra VALL-E, l’IA di sintesi vocale che imita la voce di chiunque

Facebook
Twitter
LinkedIn
Pinterest
Pocket
WhatsApp
Dopo ChatGPT e DALL·E, incontra VALL-E, l'IA di sintesi vocale che imita la voce di chiunque

L'anno scorso ha visto l'emergere di strumenti di () in grado di creare immagini, opere d' o persino video con un prompt di testo.

Ci sono stati anche importanti passi avanti nella scrittura AI, con di OpenAI che ha causato entusiasmo diffuso – e paura – per il futuro della scrittura.

Ora, a pochi giorni dall'inizio del , un altro potente caso d'uso per l'IA è salito alla ribalta: uno strumento di testo in voce che può imitare in modo impeccabile la voce di una persona.

Sviluppato da Microsoft, VALL-E può effettuare una registrazione di tre secondi della voce di qualcuno e replicare quella voce trasformando le parole scritte in discorso, con intonazione ed emozione realistiche a seconda del contesto del testo.

Addestrato con 60.000 ore di registrazioni di discorsi in inglese, può pronunciare discorsi in “situazione zero-shot”, il che significa senza esempi precedenti o formazione su un contesto o situazione specifica.

Vi presentiamo VALL-E in un articolo pubblicato dalla Cornell Universitygli sviluppatori hanno spiegato che i di registrazione consistevano in oltre 7.000 oratori unici.

Il team afferma che il loro sistema di sintesi vocale (TTS) ha utilizzato centinaia di volte più dati rispetto ai sistemi TTS esistenti, aiutandoli a superare il problema dello zero-shot.

Lo strumento non è attualmente disponibile per l'uso pubblico, ma solleva interrogativi sulla sicurezza, dato che potrebbe essere utilizzato in modo fattibile per generare qualsiasi testo proveniente dalla voce di chiunque.

Microsoft scommette molto sull'intelligenza artificiale

I suoi creatori hanno, tuttavia, fornito una demoche mostra una serie di istruzioni del relatore di tre secondi e una dimostrazione della sintesi vocale in azione, con la voce correttamente imitata.

Oltre al prompt del relatore e all'output di VALL-E, è possibile confrontare i risultati con la “verità fondamentale” – l'effettivo oratore che legge il testo del prompt – e il risultato “di base” dell'attuale TTS.

Microsoft ha investito molto nell'intelligenza artificiale ed è uno dei sostenitori di OpenAI, la società dietro ChatGPT e DALL-E, uno strumento di text-to-image o artistico.

Il gigante del ha investito 1 miliardo di dollari (930 milioni di ) in OpenAI nel 2019 e un rapporto di questa settimana su semafor.com ha dichiarato che stava cercando di investire altri 10 miliardi di dollari (9,3 miliardi di euro) nell'.

Image:Getty Images

Facebook
Twitter
LinkedIn
Pinterest
Pocket
WhatsApp

ultime News

ti potrebbe interessare