I ricercatori di Google hanno rivelato un’IA text-to-music che crea canzoni che possono durare fino a cinque minuti.
Rilasciando un documento con il loro lavoro e le scoperte finora, il team ha presentato MusicLM al mondo con una serie di esempi che hanno una sorprendente somiglianza con i loro suggerimenti testuali.
Sostengono i ricercatori il loro modello “supera i sistemi precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale”.
Gli esempi sono frammenti di 30 secondi delle canzoni e includono le didascalie di input come:
- “La colonna sonora principale di un gioco arcade. È veloce e ottimista, con un orecchiabile riff di chitarra elettrica. La musica è ripetitiva e facile da ricordare, ma con suoni inaspettati, come colpi di piatti o rulli di tamburi”.
- “Una fusione di reggaeton e musica dance elettronica, con un suono spaziale e ultraterreno. Induce l’esperienza di perdersi nello spazio, e la musica sarebbe progettata per evocare un senso di meraviglia e soggezione, pur essendo ballabile”.
- “Un sintetizzatore in ascesa sta suonando un arpeggio con molto riverbero. È supportato da pad, linea di basso sub e batteria morbida. Questa canzone è piena di suoni di synth che creano un’atmosfera rilassante e avventurosa. Potrebbe suonare a un festival durante due canzoni per un accumulo”.
L’uso dell’intelligenza artificiale per generare musica non è una novità, ma uno strumento in grado di generare effettivamente musica passabile basata su un semplice prompt di testo deve ancora essere presentato. Questo fino ad ora, secondo il team dietro MusicLM.
I ricercatori spiegare nel loro documento le varie sfide che devono affrontare la generazione di musica AI. Innanzitutto c’è un problema con la mancanza di dati audio e di testo accoppiati, a differenza dell’apprendimento automatico da testo a immagine, dove affermano che enormi set di dati hanno “contribuito in modo significativo” ai recenti progressi.
Ad esempio, lo strumento DALL-E di OpenAI e Stable Diffusion hanno entrambi causato un aumento dell’interesse pubblico nell’area, nonché casi d’uso immediati.
Un’ulteriore sfida nella generazione di musica AI è che la musica è strutturata “lungo una dimensione temporale” – una traccia musicale esiste per un periodo di tempo. Pertanto è molto più difficile catturare l’intento di una traccia musicale con una didascalia di testo di base, invece di utilizzare una didascalia per un’immagine fissa.
MusicLM è un passo verso il superamento di queste sfide, afferma il team.
È un “modello gerarchico da sequenza a sequenza per la generazione di musica” che utilizza l’apprendimento automatico per generare sequenze per diversi livelli della canzone, come la struttura, la melodia e i singoli suoni.
Per imparare a farlo, il modello viene addestrato su un ampio set di dati di musica senza etichetta, insieme a un set di dati di didascalie musicali di oltre 5.500 esempi, preparati da musicisti. Questo set di dati è stato rilasciato pubblicamente per supportare la ricerca futura.
Il modello consente anche un input audio, ad esempio sotto forma di fischio o mormorio, per aiutare a informare la melodia della canzone, che verrà quindi “resa nello stile descritto dal prompt di testo”.
Non è ancora stato rilasciato al pubblico, con gli autori che riconoscono i rischi di una potenziale “appropriazione indebita di contenuti creativi” se una canzone generata non differisce sufficientemente dal materiale di partenza da cui il modello ha appreso.
Image:Getty Images