La presentazione da parte di OpenAI del modello generativo di Intelligenza Artificiale denominato Sora, capace di trasformare testi in video, ha destato grande ammirazione per la qualità senza precedenti e la durata dei filmati prodotti. Questo avanzamento tecnologico si distingue nettamente rispetto alle offerte correnti, elevando il livello di aspettativa nel settore.
I modelli text-to-video, come Sora, sono progettati per creare sequenze video basandosi su descrizioni testuali fornite dagli utenti, un’evoluzione naturale dei modelli text-to-image, quali Midjourney, Stable Diffusion e DALL-E di OpenAI. Quest’ultimo, noto anche per la sua integrazione con ChatGPT Plus e Copilot di Microsoft, ha segnato una pietra miliare nel campo della generazione di immagini IA. Tuttavia, il passaggio alla generazione di video introduce complessità maggiori, principalmente nel mantenere coerenza e fluidità tra i fotogrammi, una sfida che ha spesso comportato distorsioni nelle creazioni precedenti.
Stable Cascade emerge come un nuovo e promettente generatore di immagini IA, ampliando ulteriormente le possibilità in questo ambito. Google, con il suo generatore di video dal testo Lumiere, e il progetto Pika rappresentano altri notevoli progressi, ma è Runway ad attirare l’attenzione per la sua capacità di generare brevi video da prompt testuali e immagini. Nonostante le sue innovazioni, Runway limita la durata dei video a 15 o 16 secondi, utilizzando l’opzione Extend Video del modello Gen-2.
Dall’immagine al video: una transizione complessa, ma rivoluzionaria
La capacità di Sora di generare video di 60 secondi con una qualità impressionante rappresenta una vera e propria rivoluzione. Gli esempi diffusi da OpenAI, in particolare quello di un uomo sulla neve, dimostrano una coerenza e una qualità visiva dei fotogrammi finora ineguagliate. Se confrontati con i filmati di Runway, i video generati da Sora appaiono appartenere a una categoria superiore, sia per la complessità delle scene che per la finezza dei dettagli.
OpenAI ha rivelato che Sora non solo gestisce scene complesse e movimenti specifici con più personaggi ma è anche in grado di mantenere coerenza visiva e stilistica attraverso diverse inquadrature all’interno dello stesso video. Nonostante ciò, persistono alcune limitazioni, come la difficoltà nel simulare fedelmente la fisica di scene complesse o nel rappresentare correttamente cause ed effetto in determinati contesti.
Per il momento, l’accesso a Sora è riservato a un gruppo selezionato da OpenAI per valutare potenziali rischi e implicazioni del suo utilizzo. Ciò sottolinea la consapevolezza di OpenAI riguardo alle potenziali applicazioni eticamente sensibili, come la creazione di deepfake fotorealistici.
Recentemente, OpenAI ha annunciato l’introduzione di filigrane digitali C2PA per le immagini generate da DALL-E, un’iniziativa supportata dalla Coalition for Content Provenance and Authenticity, che include aziende come Adobe e Microsoft. Questa mossa mira a garantire l’autenticità dei contenuti generati dall’IA, con piani futuri di estendere il sistema anche ai video prodotti da Sora.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024