米OpenAIは2月15日(現地時間)、テキストプロンプトから最長1分の動画を生成可能なAIモデル「Sora」を発表した。現段階で一般には公開せず、研究者や専門家と協力して安全性の確立に努め、Soraによって生成された動画を判別するツールも開発する。OpenAI製品にこのモデルを組み込む際には、C2PAメタデータを使用する。

SoraはDALL·E3で採用されたリキャプション技術を用いて、ユーザーのプロンプトから動画生成に最適な描写キャプションを生成することで、ユーザーの指示を効果的に動画作成に反映させる。このモデルでは、複数のキャラクターの作成、特定の動きの指定、感情を表現するキャラクターの生成などが可能。また、キャラクターやオブジェクトが現実世界でどのように存在するかを理解し、小道具の役割や被写体と背景の関連性を反映させたシーンを作り出せるという。

SoraのWebページでは「ネオンと看板で埋め尽くされた東京の通りを歩く女性」「雪原を踏みしめながら近づいてくるマンモス」「カリフォルニアのビッグサーの海岸風景」「東京郊外を走る電車からの景色」など、数多くの生成例がプロンプトとともに紹介されている。それらでは、ネオンの輝き、雪原の雪けむり、波のしぶき、ガラスの透明感、窓に映り込む人と外の風景の重なりなどがリアルに表現されている。

Soraにはトランスフォーマー・アーキテクチャを採用しており、動画や画像を「パッチ」と呼ばれる小さなデータの集合体として扱っている。データの表現方法を統一することによる柔軟性を持ち、例えば生成した動画を延長して長くすることが可能である。また、フレームを先読みさせることで、一時的に画面から外れた被写体が変わらないようにし、AI動画生成の課題の一つである被写体の固定にも対応している。

テキストプロンプトからの動画生成に加えて、画像や既存の動画を元にした動画も生成できる。例えば、画像の内容をアニメーションで動かしたり、動画を拡張、または欠けているフレームを補完することが可能だという。

今後の課題としては、複雑なシーンでの動きのシミュレーションの精度向上や、空間や時間の流れ、原因と結果の関係性の理解などが挙げられている。現段階では、動きの中で左右を混同したり、人がクッキーをかじってもクッキーにかじった跡が残らないといったことがあるという。