Sora, le pouvoir de créer une vidéo sans caméra

Après le texte avec ChatGPT, après les images avec Dall-E, OpenAI passe à la vidéo avec Sora. Un outil capable de transformer des requêtes de texte en séquences vidéo, qui peuvent durer jusqu’à une minute ! Une IA capable de produire des vidéos et des animations à partir de mots. Les premières démonstrations ne sont pas sans défauts, mais déjà impressionnantes. Découverte…

Qui saura Sora…

Pour les fans du jeu vidéo Kingdom Hearts et ceux du lac de Côme, « Sora » sonne déjà comme une prouesse technologique ou l’accès à de belles images. Désormais le vocable Sora va s’imposer comme la première référence un peu crédible de la production de vidéo à partir d’une requête de texte.

« Une image vaut mille mots » selon le proverbe attribué à Confucius.

Les mots ont déjà une force incroyable pour générer de l’imaginaire, pour se créer, dans notre esprit, nos propres images… Voyez comme un livre peut nous emporter, en quelques secondes, dans des mondes féériques et des situations émotionnellement troublantes.

Si vous avez déjà testé ChatGPT, vous savez que cette Intelligence Artificielle (même encore imparfaite comme chaque outil de notre quotidien) vous permet de créer des poèmes à la façon de Victor Hugo, des chansons avec le style de Francis Cabrel, des dissertations pour votre prof de philo, mais aussi des lignes de codes pour la programmation, etc.

Depuis notre l’article de l’année dernière (voir ICI ) Le chatbot d’IA ChatGPT a atteint 100 millions d’utilisateurs actifs hebdomadaires, en est à sa quatrième version en une seule année, et présente déjà la version GPT-4 Turbo ! plus performant, moins cher et prenant en charge une fenêtre contextuelle encore plus grande qu’avant.

C’est la course chez les « chatbots IA » polyvalents : ChatGPT a à ses basques Google Bard, Microsoft Bing AI, HuggingChat. Cette course est aussi effrénée chez les concurrents spécifiques pour les ressources humaines comme Leena AI, Arya ou Allyo. Les développeurs connaissent bien GitHub Copilot et Amazon CodeWhisperer, et les pro du marketing se familiarisent avec Zendesk, Drift ou ManyChat… les exemples sont légion.

Quand les mots ne suffisent pas, vous avez peut-être essayé de créer des images avec l’un des principaux générateurs d’images par IA ? La version d’OpenAI s’appelle DALL-E, que nous utilisons fréquemment pour illustrer nos articles (voir par exemple l’article consacré aux seniors ). Mais il y a aussi Craiyon, assez performant, Bing Image Creator, Ideogram, Midjourney (payant)… là encore ils sont pléthore.

Au royaume de l’image, celle animée se fraie une place de choix

Vous n’avez plus besoin d’imaginer : l’Intelligence Artificielle le fait pour vous !

Avec SORA, OpenAI n’est pas la première entreprise à proposer une technologie d’IA générative capable de transformer un texte en une vidéo réaliste. Mais l’avance technologique et les capacités d’investissement du groupe pourraient bien faire la différence.

Sora sait composer des scènes contenant plusieurs sujets (humains, animaux, personnages de fiction) ou objets dans un environnement complexe. Sora peut démarrer son travail à partir des commandes textuelles de l’utilisateur, mais aussi partir d’une image fixe qui deviendra un petit film, ou imaginer ce qu’il y a avant ou après un extrait de vidéo déjà existant.

Autre élément intéressant, la caméra n’est pas fixe, elle peut tourner autour du sujet. Celui-ci conservera ses caractéristiques et l’environnement sera alors visible sous de nouveaux angles. Il ne s’agit pas de produire uniquement des plans figés, mais de simuler le monde réel. Il faut juste apprendre à rédiger correctement sa requête (prompt)

Tik Tok grouille de ces petites vidéos… à la recherche de la notoriété

Deep fakes…Attention danger

La première version semi-publique de Sora est entre les mains de testeurs et de spécialistes qui vont en évaluer les possibilités… et les risques. Comme avec les précédentes images générées par des IA, ce développement ouvre de nouvelles opportunités de créer une autre réalité trompeuse. OpenAI prévoit des garde-fous à son usage, comme de rejeter certains types de requêtes et d’identifier les vidéos ainsi produites.

Un élément potentiellement plus inquiétant domine : la capacité de la technologie à produire des deep fakes très convaincants, ce qui soulève de sérieuses questions en matière d’éthique et de respect de la vie privée, et plaide en faveur d’une surveillance et d’une réglementation étroites.

Sora n’est pas seul : on lui connaît comme confrères Fliki, Gen-2, Synthesia et bien d’autres…

Voilà, bienvenue dans un monde où l’intelligence va se mesurer à notre capacité à douter des images qui nous entourent. N’oublions pas que notre copain René Descartes dont la pensée de son « Discours de la méthode » a été pauvrement résumé en « cogito ergo sum », égocentrique « je pense donc je suis ». Il nous invitait préalablement à un « dubito ergo cogito » (je doute donc je pense).