Meta ha presentato un programma di intelligenza artificiale (AI) che porta l’idea della generazione di immagini da messaggi di testo a un livello superiore, generando video da messaggi di testo.
La societĆ madre di Facebook ha rilasciato una serie di brevi video basati su messaggi di testo, basandosi sui recenti sviluppi nelle creazioni di intelligenza artificiale text-to-image.
I video sono creati da un’intelligenza artificiale che apprende come appare il mondo dai dati di testo e immagine associati. Impara anche che aspetto ha il movimento studiando le riprese video senza alcun testo associato.
Unendo quindi questi due insiemi di apprendimenti, crea filmati pertinenti con solo un semplice messaggio di testo.
Ć un campo fiorente della ricerca sull’intelligenza artificiale e Meta afferma che il suo nuovo sistema Make-A-Video “ha il potenziale per aprire nuove opportunitĆ per creatori e artisti”.
āCon poche parole o righe di testo, Make-A-Video può dare vita all’immaginazione e creare video unici pieni di colori, personaggi e paesaggi vividi. Il sistema può anche creare video da immagini o prendere video esistenti e crearne di nuovi simili”, ha affermato la societĆ in una nota.
Allora, che aspetto hanno questi video? Meta ha annunciato Make-A-Video con post sui social media, incoraggiando i follower su Twitter a fornire alcuni suggerimenti, che ha debitamente inserito nel suo algoritmo.
I risultati sono impressionanti, ma c’ĆØ qualcosa di decisamente snervante nei video.
Make-A-Video non ĆØ ancora aperto al pubblico, ma Meta ha mostrato le tre funzioni che ha attualmente.
Il primo è realizzare un video con solo una riga di testo e questo può essere reso come un video surreale, realistico o stilizzato.
Quindi ha la possibilitĆ di prendere un fermo immagine e dargli vita sotto forma di video.
Infine può prendere un video e generarne diverse versioni.
Le immagini prendono vita
Meta ha annunciato all’inizio di quest’anno Make-A-Scene, che genera illustrazioni fotorealistiche e opere d’arte utilizzando testo e schizzi a mano libera come prompt.
Ciò ĆØ avvenuto insieme a un altro importante balzo in avanti nella tecnologia da testo a immagine, con il rilascio di DALL-E 2 dalla societĆ di ricerca sull’intelligenza artificiale OpenAI.
Con DALL-E 2, chiunque può registrarsi e inserire i prompt, creando le proprie immagini fisse strane e meravigliose. Se volevi, ad esempio, la foto di un gatto con gli stivali nel fango, voilà .
Oppure, gli alieni in bilico sullo skyline di Londra.
Con Make-A-Video, Meta si ĆØ unita a una serie di altre aziende che spingono in prima linea nel video generato dall’intelligenza artificiale, che ĆØ tecnicamente e finanziariamente un compito più difficile della creazione di immagini.
Questo perchĆ©, secondo gli autori dietro un altro modello di creazione video, Phenaki, “sono disponibili dati di qualitĆ molto inferiore e i requisiti di calcolo sono molto più severi”.
In un documento di ricerca annunciando i risultati del loro programma, che ĆØ in grado di mettere insieme un video molto più lungo di quelli di Make-A-Video, scrivono che per la generazione delle immagini esistono dataset con miliardi di coppie immagine-testo, mentre per i dataset testo-video il i numeri sono “sostanzialmente più piccoli”.
Make-A-Video sta tentando di superare questa carenza di dati video-testo con “apprendimento non supervisionato”, essenzialmente lasciando alla sua intelligenza artificiale l’apprendimento dell’aspetto del movimento realistico senza un’etichetta di testo allegata ai video che studia.
“La nostra intuizione ĆØ semplice”, hanno scritto gli autori dietro il documento di ricerca di Meta. “Scopri che aspetto ha il mondo e come ĆØ descritto da dati di immagini testo-immagine accoppiati e scopri come si muove il mondo da filmati senza supervisione”.
Meta ha indicato che il suo obiettivo un giorno è rendere la tecnologia disponibile al pubblico, ma non ha detto quando ciò accadrà .
Image:Getty Images