DALL-E 2 di OpenAI è stato sicuramente un brutale shock per coloro che pensavano che l’intelligenza artificiale non avrebbe mai iniziato a infiltrarsi nel regno della creatività ma questo momento ormai è arrivato, insieme a Midjourney il mondo dell’intelligenza artificiale potrebbe cambiare drasticamente questo mondo.
Come funziona DALL-E 2?
DALL-E 2 sembra quasi magico, come vengono create queste immagini straordinarie e realistiche grazie a delle semplici parole è pressoché incredibile. Ci sono due componenti principali di DALL-E 2 da conoscere, il primo è GPT-3, che è l’algoritmo di apprendimento automatico del linguaggio naturale più avanzato attualmente in circolazione. DALL-E 2 utilizza anche un altro modello OpenAI noto come CLIP (Contrastive Language-Image Pre-training).
GPT-3 e CLIP consentono a un computer di comprendere e generare un sofisticato linguaggio naturale. Facendo crescere la rete neurale DALL-E con miliardi di immagini e le loro descrizioni in linguaggio naturale da Internet, apprende le relazioni tra i concetti.
Proprio come la famosa app ” Not a Hotdog ” della serie televisiva Silicon Valley, con la differenza qui è che invece di chiedere all’IA se l’immagine è un hotdog o meno, stai descrivendo l’hotdog e sta generando un’immagine di hotdog completamente originale basata su tutto ciò che ha appreso su di loro.
La seconda parte importante di DALL-E è il modo in cui genera le immagini. Utilizza un metodo noto come “diffusione”. In particolare, la comprensione della descrizione di un’immagine nel linguaggio umano che è stata creata, viene trasformata in un’immagine utilizzando un modello OpenAI chiamato GLIDE . GLIDE acquisisce un’immagine composta da rumore generato in modo casuale e quindi rimuove gradualmente quel rumore fino a quando non corrisponde all’immagine come descritto nel linguaggio naturale.
DALL-E 2 non è il primo software di machine learning in grado di generare immagini. Ci sono stati molti sistemi precedenti e DALL-E 2 si basa sulle lezioni apprese da quegli altri progetti ma ha spopolato perché le immagini realizzate da DALL-E e DALL-E 2 sono esteticamente le migliori. Altri sistemi di generazione di immagini AI spesso creano immagini che le persone descrivono come inquietanti.
Il sistema non solo è in grado di creare splendide immagini ad alta risoluzione in pochi secondi dai prompt del linguaggio naturale, ma può anche modificare e modificare tali immagini o fornire più varianti di un’immagine esistente, anche quella fornita dall’utente.
Con DALL-E 2 gli artisti cambieranno, non scompariranno
OpenAI è stata molto attenta a rilasciare semplicemente la sua tecnologia al mondo. Questo è sensato poiché c’è chiaramente molto spazio per gli abusi. Tuttavia, ora che hanno dimostrato che può essere fatto, non passerà affatto il tempo prima che i ricercatori di IA commerciali o indipendenti replichino ciò che fa DALL-E e lo renda disponibile a tutti. Anche i grandi attori nello spazio dell’apprendimento automatico hanno i loro artisti di intelligenza artificiale ad alte prestazioni che aspettano dietro le quinte, come Imagen di Google .
Dal momento che il vaso di Pandora non può essere chiuso, dovremo accettare che il mondo delle arti visive cambierà irrevocabilmente, ma ciò non significa che gli artisti appartengano al passato.
Un modo per vederla è che una tecnologia come questa mette il potere di generare arte nelle mani di chiunque. L’enfasi ora si sposta dalla capacità tecnica di creare immagini alla capacità di descrivere con precisione e iterare la tua visione, finché ciò che vedi sullo schermo corrisponde a ciò che avevi in mente. In altre parole, più persone ora avranno la capacità di esprimersi visivamente, così come più persone ora possono eseguire calcoli accurati grazie all’esistenza di calcolatrici.