Sora, il nuovo modello di intelligenza artificiale text-to-video di OpenAI, promette di rivoluzionare il modo in cui vengono creati i contenuti visivi. Questa innovativa piattaforma è in grado di generare video realistici partendo da brevi prompt testuali, aprendo nuove possibilità nel campo della produzione di materiale multimediale. Scopriamo di più!
Dalle immagini ai video
Affiancandosi alla generazione di immagini di DALL-E, Sora si propone come un nuovo strumento rivoluzionario per creatori di contenuti, designer e professionisti del settore, offrendo la possibilità di trasformare idee in narrazioni visive coinvolgenti. Grazie alla sua abilità nel creare scene (anche piuttosto complesse) e personaggi espressivi, interpretando con precisione le richieste degli utenti e simulando interazioni realistiche nel mondo fisico, Sora promette di aprire nuove frontiere nel campo della generazione di contenuti visivi. Attualmente in fase di test, il modello è sottoposto a valutazioni da parte di esperti di sicurezza e artisti visivi al fine di perfezionare ulteriormente le sue capacità e superare le sfide tecniche. Tuttavia, nonostante la sua impressionante capacità di generare video, questa AI affronta ancora alcune difficoltà. Tra queste, la corretta rappresentazione della fisica delle scene complesse e la gestione dei dettagli spaziali e temporali.
Un modello sempre più preciso e verticale
OpenAI sta concentrando le proprie forze per implementare la precisione e la versatilità di questo nuovo modello. È interessante la scelta di aprire la demo a team specializzati in sicurezza, con i quali stanno collaborando per implementare rigorose misure volte a prevenire la diffusione di disinformazione e l’abuso dei video generati dall’intelligenza artificiale. Per garantire trasparenza e autenticità, stanno integrando strumenti avanzati di rilevamento e metadati come C2PA.
Cosa potrà fare Sora?
Sora, che si basa su un’architettura transformer, gode di una notevole scalabilità e flessibilità. L’approccio alla generazione di video adottato da Sora è quello della diffusione: questo rappresenta un significativo passo in avanti nel campo dell’intelligenza artificiale visiva.
In base a quanto dichiarato sul blog di OpenAI, Sora è in grado di creare “scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo“. Ma non finisce qui.
L’azienda sottolinea anche che il modello è in grado di comprendere non solo ciò che l’utente ha richiesto nel prompt, ma anche come gli oggetti e le persone “esistono nel mondo fisico“. Questo suggerisce una capacità avanzata del modello di analizzare e interpretare il contesto delle richieste, andando oltre la semplice comprensione linguistica per comprendere il contesto spaziale e concettuale degli elementi presenti nel mondo reale.
Una profonda comprensione del linguaggio
Una caratteristica sorprendente di Sora è la sua capacità di realizzare più riprese all’interno di un singolo video generato, simulando l’uso di diverse telecamere, mantenendo la coerenza dei personaggi e dello stile visivo adottato.
In aggiunta, è in grado di trasformare un’immagine statica in un video animato, prestando particolare attenzione ai dettagli più minuti. Può anche completare i fotogrammi mancanti in un video esistente o estendere la durata.
Alcuni punti critici di Sora
Il modello attuale, tuttavia, presenta delle lacune. È necessario, almeno per il momento, tenere conto dell’eventuale difficoltà nella simulazione accurata della fisica di scene complesse e potrebbe non comprendere pienamente le relazioni causa-effetto in istanze specifiche.
Ad esempio, potrebbe non essere in grado di gestire correttamente il fatto che una persona tocchi un fiore senza schiacciarlo.
Inoltre, potrebbe confondersi nei dettagli spaziali, come distinguere tra sinistra e destra, e avere difficoltà nelle descrizioni temporali precise di eventi, come seguire una traiettoria specifica della telecamera.
Per il momento non sarà disponibile
Attualmente, OpenAI ha deciso di non rendere Sora disponibile al pubblico. Prima di integrarlo in prodotti commerciali, la società sta implementando diverse importanti misure di sicurezza. Come abbiamo anticipato, sta collaborando con esperti in vari settori, come la disinformazione e l’incitamento all’odio, per testare il modello in modo approfondito.
Inoltre, OpenAI sta sviluppando strumenti per individuare contenuti fuorvianti generati da Sora, incluso un classificatore di rilevamento che analizzerà i video per garantire che rispettino le norme di utilizzo prima di essere mostrati agli utenti. La società prevede anche di includere metadati specifici nei video generati da Sora per facilitare la tracciabilità e la gestione dei contenuti.
Le controversie: il comune di Sora
Sora non è però solamente il nome di questo nuovo modello text to video. È anche un piccolo comune in provincia di Frosinone. Questa novità ha suscitato grande interesse nel territorio del Frusinate, come evidenziato dal presidente di “Consumerismo”, Luigi Gabriele, il quale ha sottolineato l’opportunità che ciò rappresenta per l’intera comunità locale. Gabriele ha espresso l’auspicio che il team di OpenAI faccia visita a Sora per conoscere la città e che le istituzioni locali colgano l’occasione per promuovere il turismo e le eccellenze del territorio.
Tuttavia, non tutti accolgono la notizia con gioia. L’ex sindaco Roberto De Donatis ha già espresso preoccupazione riguardo alla visibilità della città sui motori di ricerca, evidenziando che il nome di Sora potrebbe essere oscurato dai risultati relativi al nuovo software di OpenAI.