DALL·E 2, Stable Diffusion, Midjourney: come funzionano i generatori artistici basati sull’intelligenza artificiale e gli artisti dovrebbero temerli?

Categorie: Technology

Indice dei Contenuti

Nel corso della storia umana, il progresso tecnologico ha reso obsoleti alcuni lavoratori, conferendo potere ad altri. I lavoratori in settori come i trasporti e la produzione sono già stati fortemente influenzati dai progressi nell’automazione e nell’intelligenza artificiale.

Oggi è il settore creativo a essere in gioco. Artisti visivi, designer, illustratori e molti altri creativi hanno assistito all’arrivo dei generatori di testo in immagini AI con un misto di soggezione e apprensione.

Questa nuova tecnologia ha acceso il dibattito sul ruolo dell’IA nell’arte visiva e su questioni come l’appropriazione dello stile. La sua velocità ed efficienza hanno scatenato timori di ridondanza tra alcuni artisti, mentre altri l’hanno abbracciato come un nuovo entusiasmante strumento.

Che cos’è un generatore di testo in immagini AI?

Un generatore di testo in immagine AI è un software che crea un’immagine dall’input di testo di un utente, che viene definito prompt. Questi strumenti di intelligenza artificiale sono addestrati su enormi set di dati di coppie di testo e immagini.

DALL.E 2 e Midjourney non hanno ancora reso pubblici i loro set di dati. Tuttavia, il popolare strumento open source Stable Diffusion è stato più trasparente su ciò su cui addestra la sua intelligenza artificiale.

“Non siamo passati attraverso Internet e non abbiamo trovato le immagini da soli. Questo è qualcosa che altri hanno già fatto”, ha affermato il professor Björn Ommer, che dirige il Computer Vision and Learning Group presso l’Università Ludwig Maximilian di Monaco.

Ommer ha lavorato alla ricerca alla base di Stable Diffusion.

“Ora ci sono grandi set di dati che sono stati estratti da Internet, disponibili pubblicamente. E questi li abbiamo usati, principalmente i set di dati LAION, che sono là fuori, composti da miliardi di immagini su cui possiamo allenarci”, ha detto a Euronews Next.

LAION è un’organizzazione senza scopo di lucro che raccoglie coppie immagine-testo su Internet. Quindi li organizza in set di dati basati su fattori come lingua, risoluzione, probabilità di avere una filigrana e punteggio estetico previsto, come il set di dati Aesthetic Visual Analysis (AVA) che contiene fotografie che sono state valutate da 1 a 10.

LAION ottiene queste coppie immagine-testo da un’altra organizzazione senza scopo di lucro chiamata Common Crawl. Common Crawl fornisce accesso aperto al suo archivio di dati di scansione web, per democratizzare l’accesso alle informazioni web. Lo fa raschiando miliardi di pagine Web mensilmente e rilasciandole come set di dati apertamente disponibili.

Addestrare l’IA

Una volta raccolti e organizzati questi set di dati di coppie immagine-testo, il modello AI viene addestrato su di essi. Il processo di formazione insegna all’intelligenza artificiale a stabilire connessioni tra la struttura visiva, la composizione e qualsiasi dato visivo distinguibile all’interno dell’immagine e come si relaziona al testo che la accompagna.

“Quindi, quando questa formazione viene finalmente completata dopo tanto, tanto tempo speso per addestrare questi modelli, si dispone di un modello potente che effettua la transizione tra testo e immagini”, ha affermato Ommer.

Il passo successivo nello sviluppo di un generatore di testo in immagine è chiamato diffusione.

In questo processo, il rumore visivo gaussiano o “casuale” viene aggiunto in modo incrementale a un’immagine, mentre l’intelligenza artificiale viene addestrata su ogni iterazione dell’immagine gradualmente più “rumorosa”.

Il processo viene quindi invertito e all’intelligenza artificiale viene insegnato a costruire, partendo da pixel casuali, un’immagine visivamente simile all’immagine di addestramento originale.

“Il prodotto finale di mille volte aggiungendo un po’ di rumore sembrerà come se avessi staccato il cavo dell’antenna dal tuo televisore e (c’è) solo elettricità statica, solo rumore lì – nessun segnale lasciato più”, ha spiegato Ommer.

Il modello AI viene addestrato su miliardi di immagini in questo modo, passando da un’immagine al rumore e poi invertendo il processo ogni volta.

Dopo questa fase del processo di addestramento, l’IA può quindi iniziare a creare, dal rumore, immagini che non erano mai esistite prima.

In pratica, ciò significa che un utente può ora accedere a un generatore di testo in immagine, inserire un comando di testo in una semplice casella di testo e l’intelligenza artificiale genererà un’immagine completamente nuova in base all’input di testo.

Ogni intelligenza artificiale da testo a immagine ha parole chiave che i suoi utenti hanno scoperto attraverso tentativi ed errori. Parole chiave come “arte digitale”, “4k” o “cinematografico” possono avere un effetto drammatico sul risultato e gli utenti hanno condiviso suggerimenti e trucchi online per generare arte in uno stile specifico. Un suggerimento tipico potrebbe essere letto come “un’illustrazione digitale di una mela che indossa un cappello da cowboy, 4k, dettagliata, di tendenza in artstation”.

Appropriazione dello stile artistico

L’etica dei generatori di testo in immagini AI è stata oggetto di molti dibattiti. Una questione chiave di preoccupazione è stata il fatto che queste IA possono essere addestrate sul lavoro di artisti reali, viventi e attivi. Ciò consente potenzialmente a chiunque utilizzi questi strumenti di creare nuovi lavori nello stile distintivo di questi artisti.

“Penso che dovremo trovare un modo per consentire agli artisti di ottenere un compenso se i loro nomi o le loro immagini compaiono nei set di dati, o per loro di rinunciare completamente se non vogliono avere nulla da farne a meno”, ha detto l’artista di video collage Erik Winkowski a Euronews Next.

Sulla questione dell’appropriazione stilistica a scopo di lucro, ha aggiunto che “se una campagna di marca è ovviamente appropriata dall’opera d’arte di una persona, che sia stata realizzata con l’intelligenza artificiale o altro, non è una buona cosa. E spero che saranno un pubblico che si opporrà a questo”.

A novembre, la comunità artistica online Deviant Art ha annunciato che avrebbe aggiunto al proprio sito Web il proprio strumento di generazione di testo in immagini AI DreamUp.

Tutte le opere d’arte degli utenti di Deviant Arts sul sito Web sarebbero quindi automaticamente disponibili per addestrare l’IA.

Tuttavia, entro 24 ore dall’annuncio, di fronte a un forte respingimento da parte della sua comunità, Deviant Art ha cambiato la sua politica. Invece, gli utenti dovrebbero scegliere attivamente di aderire per addestrare l’IA.

Shutterstock, un mercato di immagini stock, ora prevede di integrare il generatore di testo in immagini di DALL.E e compensare i creatori il cui lavoro è stato utilizzato per addestrare l’IA.

Concorrenza sleale o nuovo potente strumento?

Alla fiera statale del Colorado del 2022, l’opera d’arte generata dall’intelligenza artificiale di Jason Allen “Théâtre D’opéra Spatial” – che è stata creata utilizzando Midjourney – ha vinto nella categoria “artisti digitali emergenti”.

Il premio ha suscitato molte polemiche e dibattiti sul futuro dell’arte. Tra la pubblicità, Allen ha lanciato una nuova società, AI Infinitum, che offre “stampe AI di lusso”.

Alcuni artisti sono preoccupati per la velocità e la precisione con cui un generatore di testo in immagini AI può creare opere d’arte. Uno strumento come Stable Diffusion può, in pochi secondi, creare più opere d’arte che richiederebbero agli artisti ore o giorni per essere prodotte.

Ciò ha preoccupato alcuni creativi che temono che le loro competenze possano essere rese obsolete da questa tecnologia.

“Ho visto che l’obiettivo della mia ricerca non vuole mai sostituire gli esseri umani, l’intelligenza umana o simili”, ha detto Ommer a Euronews Next.

“Vedo Stable Diffusion molto simile a molti altri strumenti che stiamo vedendo lì, solo come una tecnologia abilitante che consente all’artista, all’essere umano, all’utente che utilizza questi strumenti per poi fare di più o fare le cose che erano già fare meglio, ma non sostituirli ai migliori”.

La fase successiva dell’arte AI

I generatori di intelligenza artificiale da testo a immagine vengono continuamente migliorati e alcuni ricercatori e aziende tecnologiche stanno sviluppando la fase successiva dell’arte visiva generativa.

Meta ha rilasciato esempi della sua intelligenza artificiale text-to-video attualmente in fase di sviluppo, che può produrre un video dall’input di testo di un utente.

Nel frattempo, Google ha presentato DreamFusion, un’intelligenza artificiale da testo a 3D che si basa sulla tecnologia dei generatori di testo in immagine per generare modelli 3D senza la necessità di set di dati contenenti risorse 3D.*

Alcuni artisti visivi come Winkowski hanno già iniziato a incorporare strumenti di intelligenza artificiale generativa nel loro flusso di lavoro e a spingere la tecnologia per creare arte animata.

Nel suo recente cortometraggio intitolato “Leaving home”, Winkowski ha disegnato alcuni fotogrammi e ha permesso a Stable Diffusion di generare i fotogrammi intermedi.

“È quasi come avere un superpotere come artista, davvero”, ha detto.

“È davvero eccitante. E penso che forse saremo in grado di intraprendere progetti più ambiziosi di quanto avessimo mai creduto possibile”.

Per ulteriori informazioni su questa storia, guarda il video nel lettore multimediale qui sopra.

Image:Getty Images