Les 10 vidéos les plus bluffantes générées par Sora, le modèle d'IA vidéo d'OpenAI
Générer une vidéo sera-t-il bientôt aussi simple que de générer un texte avec ChatGPT ? OpenAI veut y croire. Le laboratoire à l'origine du célèbre chatbot a dévoilé mi-février un nouveau modèle d'intelligence artificielle capable de produire des vidéos réalistes à partir d'invites textuelles. Pour démontrer les capacités de son IA, OpenAI a depuis publié près d'une centaine de vidéos produites par son modèle. Et les résultats sont impressionnants. Même s'il reste encore quelques artefacts permettant d'identifier la patte de l'IA, certaines vidéos pourraient être confondues avec des images réelles tirées d'un film. Pour l'heure, le modèle n'est pas déployé publiquement et reste réservé à l'usage de quelques chercheurs et testeurs indépendants.
Un modèle entrainé sur des vidéos du web
Sora a de meilleurs résultats surtout là où les modèles de génération de vidéo les plus récents échouaient à se montrer crédibles par leur absence de réalisme. Le modèle est capable de générer des vidéos pouvant aller jusqu'à une minute en haute définition. L'IA a été entrainée pendant plusieurs mois sur un vaste dataset de vidéos publiques provenant du web. Un flou, volontaire, réside sur la nature exacte des données mais il est fort à parier que le modèle a été entraîné sur des vidéos protégées par le droit d'auteur. L'architecture du modèle n'est pas révolutionnaire : il s'agit d'un Transformer couplé à un modèle de diffusion (comme pour la génération d'images par IA).
La particularité de l'IA d'OpenAI réside dans la maitrise de la 3D et du déplacement des personnes, objets et sa capacité à simuler des interactions avec l'environnement, le tout sur la durée. Sora peut animer des images fixes, étendre des vidéos dans le temps, éditer des vidéos existantes en suivant des instructions textuelles. Il peut aussi simuler des mondes digitaux, utile pour les éditeurs de jeux vidéo.
Dans le cadre de cet article, nous avons choisi 10 vidéos différentes qui présentent le panel des possibilités offertes par l'IA.
1. Le traveling maitrisé sur un chat
Les mouvements sont parfaitement maitrisés. Preuve en est avec un traveling-arrière qui semble réalisé avec un steadicam.
Prompt : a white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. the path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. the image is cinematic with warm tones and a grainy texture. the scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat's orange fur. the shot is clear and sharp, with a shallow depth of field.
This video was generated by our text-to-video model, Sora, without modification.
2. Des surfeurs dans un bâtiment historique
Plus incongru, Sora parvient à générer la vidéo de surfeurs dans un bâtiment historique, une scène fictive qui semble parfaitement réelle. La gestion de l'eau (très complexe à reproduire) est bien maitrisée.
Prompt : In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.
Our new model Sora can create realistic and imaginative videos from text, but Sora can also bring static images, like this #dalle3 creation, to life.
3. Une vue en drone
Assez bluffant, Sora parvient à reproduire à la perfection un plan drone d'un village côtier. Les mouvements sont fluides et parfaitement conformes à ceux qu'un aéronef aurait pu capter.
Prompt : a drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios, waves are seen crashing against the rocks below as the view overlooks the horizon of the coastal waters and hilly landscapes of the Amalfi Coast Italy, several distant people are seen walking and enjoying vistas on patios of the dramatic ocean views, the warm glow of the afternoon sun creates a magical and romantic feeling to the scene, the view is stunning captured with beautiful photography.
Introducing Sora, our first AI model that creates videos from text captions.
4. Tokyo sous la neige
Une vidéo encore assez impressionnante : une vue de Tokyo sous la neige dans un beau plan de traveling avant. Quelques détails sautent encore aux yeux, notamment au niveau de la perspective.
Prompt : Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
Introducing Sora, our first AI model that creates videos from text captions.
5. Un éléphant de feuilles vertes
Sora impressionne également par sa capacité de génération de concept hybride fictif. L'IA est capable de produire de nouveaux objets ou animaux qui n'existent pas comme tel sur le web. Exemple avec un éléphant composé de feuilles vertes avec une démarche tout à fait cohérente.
Prompt : an elephant made of leaves running in the jungle.
This video was generated by our text-to-video model, Sora, without modification.
6. Une abeille en vue POV shot
Sora est capable de s'adapter à une multitude de mouvements de caméra. En témoigne ce POV shot maitrisé d'une abeille qui vole dans un champ. Seul le mouvement des ailes parait anormal. La perspective est globalement maitrisée et le bokeh s'adapte en fonction du mouvement de la caméra.
Prompt : POV video of a bee as it dives through a beautiful field of flowers.
This video was generated by our text-to-video model, Sora, without modification.
7. Un court-métrage créatif
Pour démontrer les capacités de son modèle d'IA, OpenAI a fait appel à des artistes, des studios indépendants, des réalisateurs ou encore des designers. En résulte plusieurs vidéos visuellement parfaites qui démontrent les nombreuses possibilités créatives offertes par son IA.
"Air Head", le cout métrage le plus bluffant de tous a été réalisé par le studio canadien shy kid. Un film de 1 minute et 20 secondes ou les humains ont un ballon de baudruche en guise de tête. Assez surréaliste.
8. Un potentiel marketing explosif
Et si l'IA gagnait le marketing vidéo ? C'est le pari de Native Foreign, une agence créative de Los Angeles. Cette dernière a créé un ensemble de clips fictifs pour présenter des produits dotés d'une identité forte. Les premiers résultats sont véritablement prometteurs.
"Thrilled to unveil my journey with Sora - I can already see how it's going to transform the way I approach agency work as well as personal projects. For the latter- it's allowing me to iterate and explore original concepts that have been kept in a vault or on indefinite pause due to budgetary and resource constraints. I can't wait to show you more as things develop!" - Nik Kleverov, Chief Creative Officer, @Native Foreign
9. Des transitions fluides et parfaites
Paul Trillo, réalisateur créatif de LA, a réalisé un court-métrage créatif qui démontre les capacités de Sora à générer des vidéos immersives dans une flopée de styles différents avec des transitions toujours maitrisées (et surement un peu de montage).
"This is not going to replace the filmmaking process, rather, it's offering something much more interesting: an entirely new way of thinking and creating. Working with Sora is the first time I've felt unchained as a filmmaker. Not restricted by time, money, other people's permission, I can ideate and experiment in bold and exciting ways. While the tool itself is still experimental, this is also its strength. Sora is at its most powerful when you're not replicating the old but to bringing to life new and impossible ideas we've would have otherwise never had the opportunity to see." - @Paul Trillo
10. Une hybridation surprenante
Don Allen III, créateur de contenu XR (réalité étendue) propose une vidéo où plusieurs animaux sont hybridés avec d'autres espèces. Un chat avec un poisson, un cheval avec une mouche… Sora offre des possibilités aussi grandes que la créativité de l'esprit humain.
"I'm so excited to unveil something truly groundbreaking in collaboration with OpenAI a glimpse into the future of storytelling with Sora technology. In this trailer, we explore a parallel world Beyond our Reality, where the boundaries of imagination are expanded, bringing to life a few creatures I have dreamed up. What you're seeing is not traditional footage but the result of cutting-edge AI-generated video technology that blurs the lines between reality & fantasy. I tried to ground my outputs in something kind of familiar like animals, but also something that was currently impossible in biology, these hybrid creatures. As we step into this new era, I understand the apprehension surrounding the rapid evolution of our creative industries. I really think Sora offers a different kind of visual canvas, expanding my creative possibilities and complementing my different creative crafts. I have always been a one-person creative studio , so there were inherent limits to what I could create alone. With Sora I feel I can tell stories at a scale I didn't think was possible before. As I continue to be an early artist, working with Sora, I promise to be mindful of its profound impact. I will continue to share knowledge about it in an educational, creative capacity. I feel like we are unlocking a new era of creative storytelling that we have never been able to imagine collectively before! Stay curious and creative!!!" - @DonAllenIII