Sora, l’IA d’OpenAI crée des vidéos bluffantes de 1 minute à partir de texte

Invite de création : une femme élégante marche dans une rue de Tokyo ...

Sora est le nouveau bond en avant d’OpenAI, l’entreprise créatrice de ChatGPT. C’est un modèle d’IA capable de créer des scènes réalistes et imaginatives en vidéo à partir d’instructions textuelles. OpenAI annonce que Sora peut générer des vidéos d’une durée maximale d’une minute tout en conservant la qualité visuelle et le respect de « l’invite », c’est à dire le « prompt » écrit par l’utilisateur.

Des dizaines de vidéos mises en ligne

Au vu des dizaines de vidéos mises en ligne – OpenAI souligne qu’elles n’ont pas été modifiées -, il y a de quoi bouleverser la destination de certains budgets publicitaires et de communication des entreprises et de quoi s’inquiéter en matière de fausses informations. OpenAI prévient toutefois, il y a des faiblesses dans le modèle et la société diffuse plusieurs vidéos qui présentent des anomalies évidentes dès le début. On a alors l’impression de retrouver les hallucinations de ChatGPT mais sous forme visuelle.


Lors de la création du « prompt » de description de la vidéo, le texte peut décrire des aspects très visuels. Par exemple, le prompt pour la vidéo dont est tirée l’image d’illustration de cet article est le suivant : une femme élégante marche dans une rue de Tokyo remplie de néons chaleureux et de panneaux urbains animés. Elle porte une veste en cuir noire, une longue robe rouge et des bottes noires et porte un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres. Elle marche avec assurance et nonchalance. La rue est humide et réfléchissante, créant un effet miroir des lumières colorées. De nombreux piétons s’y promènent.

Le prompt peut être très court pour donner une même impression cinématographique. C’est le cas avec le prompt suivant : une belle vidéo faite maison montrant les habitants de Lagos, au Nigeria, en 2056. Tournée avec l’appareil photo d’un téléphone portable.



Des accès restreints afin d’évaluer les risques

OpenAI annonce la disponibilité de Sora pour les « équipes rouges », c’est à dire les personnes qui vont évaluer à sa demande les zones critiques en termes de dommages ou de risques. L’accès est également accordé à un certain nombre d’artistes visuels, de designers et de cinéastes pour obtenir des commentaires sur la manière de faire progresser le modèle afin qu’il soit le plus utile possible aux professionnels de la création.

Il est ainsi possible de mettre en scène avec réalisme des animaux qui n’existent plus grâce à des indications de conditions de tournage précises. Le prompt est alors : plusieurs mammouths laineux géants s’approchent en traversant une prairie enneigée, leur longue fourrure laineuse souffle légèrement dans le vent pendant qu’ils marchent, des arbres couverts de neige et des montagnes aux sommets enneigés spectaculaires au loin, la lumière du milieu de l’après-midi avec des nuages vaporeux et un soleil haut dans le la distance crée une lueur chaleureuse, la vue basse de la caméra est époustouflante, capturant le grand mammifère à fourrure avec une belle photographie et une profondeur de champ.

Des animaux existants peuvent être mis en scène. C’est le cas de chiots jouant dans la neige. Le prompt est : une portée de chiots golden retriever jouant dans la neige. Leurs têtes sortent de la neige, couvertes de neige.



OpenAI présente Sora comme étant capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis du sujet et de l’arrière-plan. Le modèle est conçu pour comprendre ce que l’utilisateur a demandé dans l’invite (le « prompt » et également comment ces choses existent dans le monde physique. Sora peut également créer plusieurs plans dans une seule vidéo générée qui conservent avec précision les personnages et le style visuel.

Parmi les vidéos présentées, OpenAI propose également une vidéo sur la Californie à l’époque de al ruée vers l’Or conçue avec l’invite : Images historiques de la Californie pendant la ruée vers l’or.



Le modèle actuel présente des faiblesses

OpenAI prévient que le modèle actuel de génération de vidéo présente des faiblesses. Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet. Par exemple, une personne peut mordre dans un biscuit, mais par la suite, le biscuit peut ne pas avoir de marque de morsure.

OpenAI publie quelques vidéos qui illustrent ces faiblesses. Par exemple, Sora peut fabriquer des mouvements physiquement invraisemblables. C’est le cas de la vidéo créée à partir du prompt : scène étape par étape d’une personne qui court, film cinématographique tourné en 35 mm.


Autre cas, Sora a créé une vidéo illustrant un ballon de basket à travers l’arceau et qui explose ensuite. Souci, un second ballon apparaît et traverse l’arceau au lieu de rebondir dessus. Pour OpenAI, il s’agit d’une modélisation physique inexacte et de « morphing » d’objets non naturel.


Le modèle peut également confondre les détails spatiaux d’une invite (« prompt »), par exemple en mélangeant la gauche et la droite, et peut avoir du mal à décrire avec précision les événements qui se déroulent au fil du temps, comme suivre une trajectoire de caméra spécifique.

Autre exemple, une vidéo présente l’extraction d’une chaise en plastique depuis le sable. Sora ne parvient pas à modéliser la chaise comme un objet rigide, ce qui entraîne des interactions physiques imprécises. Le prompt pour cette vidéo est : les archéologues découvrent une chaise en plastique générique dans le désert, la fouillant et la dépoussiérant avec le plus grand soin.

Autre exemple de faiblesse, une vidéo a été créée avec le prompt : cinq louveteaux gris gambadant et se poursuivant autour d’une route de gravier isolée, entourée d’herbe. Les chiots courent et sautent, se poursuivent et se mordillent tout en jouant. Problème : des animaux ou des personnes peuvent apparaître spontanément, notamment dans les scènes contenant de nombreuses entités.


Démarrage à partir d’un bruit statique

Sora est un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à du bruit statique et la transforme progressivement en supprimant le bruit en plusieurs étapes. Sora peut générer des vidéos entières ou étendre les vidéos générées pour les rendre plus longues. 

Autre vidéo générée : la course d’un véhicule sur une route escarpée. Le prompt est : la caméra suit un SUV blanc vintage avec une galerie de toit noire alors qu’il accélère sur un chemin de terre escarpé entouré de pins sur une pente de montagne abrupte, la poussière s’élève de ses pneus, la lumière du soleil brille sur le SUV alors qu’il accélère. le chemin de terre, projetant une lueur chaleureuse sur la scène. Le chemin de terre serpente doucement au loin, sans aucune autre voiture ou véhicule en vue. Les arbres de chaque côté de la route sont des séquoias, avec des parcelles de verdure disséminées partout. La voiture est vue de l’arrière et suit facilement le virage, ce qui donne l’impression qu’elle roule sur un terrain accidenté. Le chemin de terre lui-même est entouré de collines et de montagnes escarpées, avec un ciel bleu clair au-dessus avec des nuages vaporeux.

L’arrivée de Sora enthousiasme Rowan Curran, Analyste Senior chez le cabinet d’analystes Forrester Research. « L’introduction du modèle Sora représente un bond en avant à la fois pour l’état de l’art et pour les applications pratiques potentielles de l’IA vidéo » dit-il. Pour l’analyste, des progrès considérables ont été réalisés par rapport à l’époque précédente, où les vidéos nécessitaient l’assemblage de nombreuses générations et re-générations pour conserver la cohérence des personnages et des scènes.

OpenAI propose aussi un film coloré et vif mettant en scène un chien. L’invite proposée à Sora : la caméra fait face directement aux bâtiments colorés de Burano en Italie. Un adorable dalmatien regarde à travers une fenêtre d’un immeuble au rez-de-chaussée. De nombreuses personnes marchent et font du vélo le long des rues du canal devant les bâtiments.

Sora permet d’enchaîner différents plans en conservant la cohérence entre les images. Exemple avec l’Invite suivante : une bande-annonce du film présentant les aventures de l’homme de l’espace de 30 ans portant un casque de moto en laine tricotée rouge, ciel bleu, désert de sel, style cinématographique, tourné sur film 35 mm, couleurs vives.



Des vidéos longues et cohérentes


La communication publicitaire va évoluer. « La longueur des générations de vidéos de Sora, combinée à leur cohérence, offre aux créatifs de nouvelles possibilités d’incorporer des éléments de vidéos générées par l’IA dans des contenus plus traditionnels, et même de générer des vidéos narratives complètes à partir d’un ou de quelques messages-guides » annonce Rowan Curran de Forrester Research. L’arrivée de cette technologie doit être prise en compte par les entreprises pour les impacts potentiels qu’elle aura sur leurs politiques de contenu, leurs interactions avec leurs clients, leurs politiques de sécurité et l’expérience de leurs employés.

Autre prompt traité par Sora : visite d’une galerie d’art présentant de nombreuses belles œuvres d’art de styles différents.

Les vidéos sont des collections d’unités de données

Côté technique, Sora est semblable aux modèles GPT (Generative Pre-trained Transformer) qui soutiennent ChatGPT. Il  utilise une architecture de transformateur, mais avec des performances de mise à l’échelle supérieures, explique OpenAI. « Nous représentons les vidéos et les images comme des collections d’unités de données plus petites appelées correctifs (« patches »), dont chacune s’apparente à un jeton (« token ») dans GPT » décrit OpenAI.

« En unifiant la façon dont nous représentons les données, nous pouvons entraîner des transformateurs de diffusion sur une gamme de données visuelles plus large qu’auparavant, couvrant différentes durées, résolutions et formats d’image » poursuit la firme. Pour Sora, OpenAI s’appuie sur des recherches antérieures sur les modèles DALL·E et GPT. Il utilise la technique de récapitulation de DALL·E 3, qui consiste à générer des légendes hautement descriptives pour les données d’entraînement visuel. En conséquence, le modèle est capable de suivre plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée.

Sora peut générer des vidéos avec des indications de prise de vue par drone en s’inspirant d’un endroit qui existe réellement, par exemple la côte amalfitaine, qui s’étend sur 50 km de littoral au sud de la péninsule de Sorrente, proche de Naples, en Italie. Le prompt est : une caméra de drone tourne autour d’une belle église historique construite sur un affleurement rocheux le long de la côte amalfitaine, la vue présente des détails architecturaux historiques et magnifiques ainsi que des allées et des patios à plusieurs niveaux, des vagues s’écrasent contre les rochers en contrebas tandis que la vue surplombe l’horizon de les eaux côtières et les paysages vallonnés de la côte amalfitaine en Italie, plusieurs personnes éloignées marchent et profitent de vues sur les patios avec des vues spectaculaires sur l’océan, la lueur chaude du soleil de l’après-midi crée un sentiment magique et romantique sur la scène, la vue est magnifique capturé avec une belle photographie.

En plus de pouvoir générer une vidéo uniquement à partir d’instructions textuelles, le modèle est capable de générer une vidéo à partir d’une image fixe existante, animant le contenu de l’image avec précision et avec attention aux petits détails. Le modèle peut également prendre une vidéo existante et l’étendre ou remplir les images manquantes. OpenAI propose un rapport technique pour en savoir plus.

2 réactions sur “Sora, l’IA d’OpenAI crée des vidéos bluffantes de 1 minute à partir de texte

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *