対話型AIチャットボット「ChatGPT」などを手掛ける米人工知能研究所・Open AI社がこのほど、テキストから動画を生成するAIモデル「Sora」を公開した。あわせて、これを使った複数の生成AI動画が公開された。そのクオリティに、ネットでは「すごすぎる!」「なくなっていく職業が増える」などと注目が集まっている。

Soraは、人物や背景などを文章で指示すると、最長1分の動画を生成できるAIモデル。テキストから動画を生成できることに加えて、既存の静止画から動画を生成したり、生成された動画を延長したりもできるという。

今回公開されたのは、夜の東京らしき場所を歩く女性や、雪原を歩くマンモス、未舗装の道路を進む白いSUVなど。どの動画も高クオリティで、たとえば夜の東京らしき場所を歩く女性の動画では、人間の肌感や、濡れたアスファルトなどがリアルに映し出されている。ただし、いまだ看板などの文字はうまく再現できていないようだ。

同社は、Soraについて「複数のキャラクター、特定の種類の動き、被写体や背景の正確なディテールを持つ複雑なシーンを生成できる。このモデルは、ユーザーがプロンプトで求めたものだけでなく、それらが物理的な世界にどのように存在するかも理解している」と説明する。

しかし現在のモデルには弱点があるとして、たとえば人がクッキーをかじったにもかかわらず、クッキーにかじった跡がないなど、複雑なシーンを正確にシミュレートすることが難しいようだ。

Soraは現在、悪用されるリスクなどを検証するため、「レッドチーム」と呼ばれる専門家が利用できるようになっているという。また、一部のビジュアルアーティスト、デザイナー、映画制作者にもアクセスを許可しているとのこと。

ネット上では「不気味さは残るけど、すげぇな」「そのうち、リアルタイムでAIが生成したグラフィックでゲームが遊べる様になったりするのかな。」「AIと人間が戦う未来がすぐそこまで……」「またなくなっていく職業が増えるね」「すげぇ」「もう、想像できることはだいたい実現できるセカイになりつつあるのかもしれない」「すごすぎる!」などの声が寄せられた。