Meta ha presentato un programma di intelligenza artificiale (AI) che porta l’idea della generazione di immagini da messaggi di testo a un livello superiore, generando video da messaggi di testo.
La società madre di Facebook ha rilasciato una serie di brevi video basati su messaggi di testo, basandosi sui recenti sviluppi nelle creazioni di intelligenza artificiale text-to-image.
I video sono creati da un’intelligenza artificiale che apprende come appare il mondo dai dati di testo e immagine associati. Impara anche che aspetto ha il movimento studiando le riprese video senza alcun testo associato.
Unendo quindi questi due insiemi di apprendimenti, crea filmati pertinenti con solo un semplice messaggio di testo.
È un campo fiorente della ricerca sull’intelligenza artificiale e Meta afferma che il suo nuovo sistema Make-A-Video “ha il potenziale per aprire nuove opportunità per creatori e artisti”.
“Con poche parole o righe di testo, Make-A-Video può dare vita all’immaginazione e creare video unici pieni di colori, personaggi e paesaggi vividi. Il sistema può anche creare video da immagini o prendere video esistenti e crearne di nuovi simili”, ha affermato la società in una nota.
Allora, che aspetto hanno questi video? Meta ha annunciato Make-A-Video con post sui social media, incoraggiando i follower su Twitter a fornire alcuni suggerimenti, che ha debitamente inserito nel suo algoritmo.
I risultati sono impressionanti, ma c’è qualcosa di decisamente snervante nei video.
Make-A-Video non è ancora aperto al pubblico, ma Meta ha mostrato le tre funzioni che ha attualmente.
Il primo è realizzare un video con solo una riga di testo e questo può essere reso come un video surreale, realistico o stilizzato.
Quindi ha la possibilità di prendere un fermo immagine e dargli vita sotto forma di video.
Infine può prendere un video e generarne diverse versioni.
Le immagini prendono vita
Meta ha annunciato all’inizio di quest’anno Make-A-Scene, che genera illustrazioni fotorealistiche e opere d’arte utilizzando testo e schizzi a mano libera come prompt.
Ciò è avvenuto insieme a un altro importante balzo in avanti nella tecnologia da testo a immagine, con il rilascio di DALL-E 2 dalla società di ricerca sull’intelligenza artificiale OpenAI.
Con DALL-E 2, chiunque può registrarsi e inserire i prompt, creando le proprie immagini fisse strane e meravigliose. Se volevi, ad esempio, la foto di un gatto con gli stivali nel fango, voilà.
Oppure, gli alieni in bilico sullo skyline di Londra.
Con Make-A-Video, Meta si è unita a una serie di altre aziende che spingono in prima linea nel video generato dall’intelligenza artificiale, che è tecnicamente e finanziariamente un compito più difficile della creazione di immagini.
Questo perché, secondo gli autori dietro un altro modello di creazione video, Phenaki, “sono disponibili dati di qualità molto inferiore e i requisiti di calcolo sono molto più severi”.
In un documento di ricerca annunciando i risultati del loro programma, che è in grado di mettere insieme un video molto più lungo di quelli di Make-A-Video, scrivono che per la generazione delle immagini esistono dataset con miliardi di coppie immagine-testo, mentre per i dataset testo-video il i numeri sono “sostanzialmente più piccoli”.
Make-A-Video sta tentando di superare questa carenza di dati video-testo con “apprendimento non supervisionato”, essenzialmente lasciando alla sua intelligenza artificiale l’apprendimento dell’aspetto del movimento realistico senza un’etichetta di testo allegata ai video che studia.
“La nostra intuizione è semplice”, hanno scritto gli autori dietro il documento di ricerca di Meta. “Scopri che aspetto ha il mondo e come è descritto da dati di immagini testo-immagine accoppiati e scopri come si muove il mondo da filmati senza supervisione”.
Meta ha indicato che il suo obiettivo un giorno è rendere la tecnologia disponibile al pubblico, ma non ha detto quando ciò accadrà.
Image:Getty Images