Sora (conversion texte-vidéo)

Informations
Créateur	OpenAI
Développé par	OpenAI
Fichier exécutable	images vidéo de résolution allant jusqu'à 1920 x 1080 et jusqu'à 1080 x 1920, générées à partir de commandes naturelles
Première version	février 2024 (pour les beta-testeurs uniquement)
Supporte les langages	Langage naturel
Type	Intelligence artificielle générative
Site web	openai.com/sora

Sora est un outil d'intelligence artificielle générative, de type Text-to-video model développé par l'organisation américaine de recherche sur l'IA OpenAI. Grâce à des modèles d'IA de pointe, cette IA peut générer des vidéos de haute qualité, fluides, cohérentes, réalistes et immersives, basées sur de courtes invites descriptives^[2], ainsi que prolonger les vidéos existantes vers l'avant ou vers l'arrière dans le temps^[3]. Sora peut générer des vidéos avec une résolution allant jusqu'à 1920 x 1080 et jusqu'à 1080 x 1920. La durée maximale des vidéos générées est de 1 minute.

Vidéo générée par Sora à partir du texte suivant : « A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about^[1]. »

Comme Dall-E, Sora s'appuie sur des modèles de langage sophistiqués lui permettant d'analyser et comprendre les nuances du langage humain dans les descriptions textuelles.

Cette IA, comme toutes les IA générative perfectionnées et par sa capacité à transformer des phrases simples (prompts) en vidéos ouvre de nouvelles perspectives créatives pour la communication, la pédagogie, l'art, le divertissement et bien d'autres domaines, mais tout en suscitant des questions éthiques, juridiques, morales, économiques et des inquiétudes nouvelles concernant le respect des droit d'auteur, et des utilisations malveillantes.

Dénomination

L'équipe qui développe Sora lui donne le nom du mot japonais signifiant ciel pour signifier « son potentiel créatif illimité ». La technologie derrière Sora est une adaptation de la technologie derrière le modèle texte-image DALL-E 3^[4].

Histoire

OpenAI présente au grand public quelques vidéos haute définition créées par Sora le 15 février 2024, déclarant que la technologie est capable de générer des vidéos d'une durée allant jusqu'à une minute.

Il ne partage pas de rapport technique ni ne démontre comment les vidéos sont générées par le modèle. Il reconnait certaines lacunes du système, notamment des difficultés à simuler une physique complexe^[5]. Will Douglas Heaven de la MIT Technology Review qualifie les vidéos de démonstration d'"impressionnantes", mais note qu'elles doivent avoir été sélectionnées avec soin et qu'elles peuvent ne pas être représentatives de la production typique de Sora.

Distribution et précautions

OpenAI déclare qu'il n'a pas l'intention de rendre Sora public. Préoccupés par le potentiel d'utilisation abusive de Sora, l'accès sera limité à une petite équipe rouge comprenant des universitaires et des chercheurs.

Les vidéos générées par Sora sont étiquetées avec des métadonnées C2PA pour indiquer qu'elles sont générées par l'IA. Ils partagent également Sora avec un petit groupe de professionnels de la création, notamment des vidéastes et des artistes, pour obtenir des commentaires sur son utilité.

Technologie

Le "rapport technique" ne contient essentiellement aucune information technique selon laquelle il s'agit d'une diffusion débruitante dans l'espace latent avec (au moins) un transformeur comme débruiteur. Cette conception est standard pour les générateurs d'images de diffusion comme Stable Diffusion (sauf que Stable Diffusion utilise un U-Net au lieu d'un transformeur). Une vidéo est générée dans l'espace latent par débruitage de "patchs" 3D (2D d'espace et 1D de temps), puis transformée en espace standard par un décompresseur vidéo. Le re-sous-titrage est utilisé pendant la formation pour créer de bons sous-titres sur des vidéos qui n'en ont pas.

Critiques

De nombreux commentateurs, tel l'universitaire américain Oren Etzioni (en) s'inquiètent des détournement possibles de cette technologie à des fins d'influence et de désinformation en ligne, en particulier pour les campagnes politiques. La vidéo crée par IA a en effet le potentiel de renforcer la crédibilité et la propagation de deepfakes de plus en plus sophistiqués, et plus généralement de fausses informations, ou encore des contenus dits inappropriés ou offensants (ce pourquoi ces vidéos seront taguées au moyen d'un filigrane numérique pour faciliter la détection de mésusages et d'éventuelles poursuites contre leurs auteurs).

OpenAI entraîne ce système à l'aide de vidéos accessibles au public ainsi, peut-être, que de vidéos protégées par le droit d'auteur (sous licence à cet effet), mais ne révèle pas le nombre ni la source exacte des vidéos.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Sora (text-to-video model) » (voir la liste des auteurs).