HomeNews FotografiaFinalmente Sora di OpenAI trasforma il testo in video!

Finalmente Sora di OpenAI trasforma il testo in video!

OpenAI ha presentato Sora, un’avanzata intelligenza artificiale che trasforma testi in video fotorealistici. Questo strumento, tuttavia, mostra incertezza nel gestire le mani dei soggetti nei video.

Sora opera come un modello di diffusione, che inizia la creazione di un video da una base simile a rumore bianco, per poi affinarlo progressivamente eliminando il rumore attraverso numerosi step.

“Con Sora, è possibile generare video completi in un unico processo o ampliare video già creati per allungarne la durata. Implementando la previsione di sequenze di frame, abbiamo superato la sfida di mantenere costante l’identità di un soggetto anche quando questo esce temporaneamente dal campo visivo”, spiega OpenAI.

Il video di esempio è stato prodotto seguendo queste indicazioni: “Una donna elegante percorre una strada di Tokyo illuminata da insegne al neon vivaci e pubblicità animate. Indossa una giacca di pelle nera, un abito lungo rosso, stivali neri e tiene una borsa dello stesso colore. Completano il suo outfit occhiali da sole e rossetto rosso. Cammina con passo sicuro e disinvolto. La strada, bagnata, riflette le luci, creando un suggestivo effetto specchio. Intorno a lei, si muovono numerosi pedoni.”

OpenAI afferma che Sora è capace di creare scene intricate con diversi oggetti o personaggi in movimento, riproducendo con precisione tipologie specifiche di movimento e dettagli ambientali. Questo perché il modello non solo interpreta fedelmente le istruzioni testuali, ma ha anche una comprensione di come gli elementi richiesti si manifestano nel mondo reale.

“Il modello possiede una profonda comprensione del linguaggio, permettendogli di interpretare le istruzioni in modo accurato e di dare vita a personaggi espressivi e ricchi di emozioni”, prosegue OpenAI. “Sora ha inoltre la capacità di mantenere una coerenza visiva e narrativa all’interno dei video generati, preservando lo stile e l’identità dei personaggi attraverso diverse inquadrature.”

Sora possiede la capacità di creare ambientazioni intricate che coinvolgono diversi personaggi, movimenti specifici e dettagli precisi sia dei protagonisti che dello scenario circostante. Questo modello non si limita a interpretare le richieste dell’utente, ma intuisce anche la loro esistenza concreta nel mondo reale.

Open AI Sora ed il problema sicurezza

Prima di introdurre Sora nei suoi prodotti, OpenAI si impegna a implementare una serie di rigorose misure di sicurezza. In questo processo, l’organizzazione collabora strettamente con i red teamer, veri e propri esperti nelle sfide poste da disinformazione, contenuti d’odio e pregiudizi, con l’obiettivo di sottoporre il modello a test critici.

Inoltre, OpenAI sta sviluppando strumenti avanzati per individuare i contenuti ingannevoli, incluso un sistema di rilevamento capace di identificare i video generati tramite Sora. È in programma l’integrazione dei metadati C2PA, un ulteriore passo avanti nella sicurezza, qualora il modello dovesse essere lanciato come parte dell’offerta OpenAI.

L’azienda sta anche perfezionando nuove strategie di sicurezza, basandosi sull’esperienza acquisita con il lancio di DALL·E 3. Queste metodologie includono, ad esempio, l’utilizzo di un classificatore di testo che esaminerà e respingerà le richieste di testo inappropriato, in linea con le politiche di OpenAI su violenza estrema, contenuti sessuali, incitamento all’odio, uso di immagini di celebrità o violazioni di diritti di proprietà intellettuale.

OpenAI non si ferma qui: ha messo a punto dei robusti classificatori di immagini per analizzare i frame generati e assicurare la loro conformità alle normative interne prima di renderli accessibili agli utenti.

L’organizzazione intende coinvolgere stakeholder globali come politici, educatori e artisti per discutere le loro preoccupazioni e scoprire applicazioni positive di questa tecnologia. OpenAI riconosce che, nonostante gli sforzi e i test approfonditi, è impossibile anticipare tutti gli usi benefici o i potenziali abusi della loro tecnologia. Pertanto, considera essenziale imparare dall’impiego pratico per sviluppare sistemi di intelligenza artificiale sempre più affidabili e sicuri nel tempo.

Tecniche utilizzate per Open AI Sora

Nel campo dell’intelligenza artificiale, Sora rappresenta un passo avanti significativo come modello di diffusione. Questo modello ha la capacità unica di generare video iniziando da una base che appare come rumore statico, per poi rifinirlo progressivamente eliminando il rumore attraverso una serie di fasi.

La versatilità di Sora si manifesta nella sua capacità di produrre video completi in un solo tentativo o di espandere video preesistenti allungandone la durata. Attraverso la previsione di sequenze di fotogrammi, il modello supera la sfida di mantenere costante l’aspetto di un soggetto, anche quando questo esce temporaneamente dal campo visivo.

Simile ai modelli GPT per il testo, Sora si avvale di un’architettura basata sui trasformatori, che le conferisce notevoli vantaggi in termini di scalabilità.

Il modello tratta video e immagini come insiemi di patch, piccole unità di dati comparabili ai token utilizzati nei modelli GPT. Questo approccio unificato alla rappresentazione dei dati permette di addestrare i trasformatori di diffusione su una vasta gamma di contenuti visivi, abbracciando diverse durate, risoluzioni e formati.

Sora si basa sugli insegnamenti tratti dai precedenti modelli DALL·E e GPT, integrando, per esempio, la tecnica di ricapitolazione di DALL·E 3. Questo metodo consente di generare descrizioni altamente dettagliate per i dati visivi utilizzati durante l’addestramento, migliorando la capacità del modello di seguire le indicazioni testuali nell’elaborazione video.

Oltre alla generazione di video a partire da semplici istruzioni testuali, Sora può prendere un’immagine statica e animarla, trasformandola in un video che ne estende i contenuti con fedeltà e attenzione al dettaglio. Il modello è inoltre capace di estendere video già esistenti o di completare sequenze di fotogrammi mancanti. Ulteriori dettagli sono disponibili nel nostro report tecnico.

Sora costituisce una fondamentale base per lo sviluppo di modelli in grado di interpretare e simulare la realtà, un traguardo che consideriamo essenziale nel percorso verso l’acquisizione di un’Intelligenza Generale Artificiale (AGI).

Leggi anche:

Alessio Fabrizi
Alessio Fabrizi
Alessio Fabrizi, fondatore di Fotografia Moderna dal lontano 2015 con l'obiettivo di creare una community unita di fotografi italiani. Cerco sempre notizie che possano interessare gli appassionati di fotografia, mi diverto a fare recensioni di attrezzature fotografiche e consigliare con guide all'acquisto le migliori alternative sul mercato per dare ai fotografi un'alternativa migliore, magari anche ad un prezzo conveniente! Iniziata come passione, Fotografia Moderna è diventata in poco tempo uno dei portali più cliccati d'Italia arrivando a raggiungere più di 1 milione di lettori.
ALTRI ARTICOLI

Lascia un commento

Scrivi qui il tuo commento
Aggiungi il tuo nome qui

ULTIMI ARTICOLI