文章から動画を生成するOpenAI「Sora」が高クオリティすぎ？ - ネットの反応「すごすぎ！」「消える職業増える」

対話型AIチャットボット「ChatGPT」などを手掛ける米人工知能研究所・Open AI社がこのほど、テキストから動画を生成するAIモデル「Sora」を公開した。あわせて、これを使った複数の生成AI動画が公開された。そのクオリティに、ネットでは「すごすぎる！」「なくなっていく職業が増える」などと注目が集まっている。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Soraは、人物や背景などを文章で指示すると、最長1分の動画を生成できるAIモデル。テキストから動画を生成できることに加えて、既存の静止画から動画を生成したり、生成された動画を延長したりもできるという。

今回公開されたのは、夜の東京らしき場所を歩く女性や、雪原を歩くマンモス、未舗装の道路を進む白いSUVなど。どの動画も高クオリティで、たとえば夜の東京らしき場所を歩く女性の動画では、人間の肌感や、濡れたアスファルトなどがリアルに映し出されている。ただし、いまだ看板などの文字はうまく再現できていないようだ。

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

同社は、Soraについて「複数のキャラクター、特定の種類の動き、被写体や背景の正確なディテールを持つ複雑なシーンを生成できる。このモデルは、ユーザーがプロンプトで求めたものだけでなく、それらが物理的な世界にどのように存在するかも理解している」と説明する。

しかし現在のモデルには弱点があるとして、たとえば人がクッキーをかじったにもかかわらず、クッキーにかじった跡がないなど、複雑なシーンを正確にシミュレートすることが難しいようだ。

Soraは現在、悪用されるリスクなどを検証するため、「レッドチーム」と呼ばれる専門家が利用できるようになっているという。また、一部のビジュアルアーティスト、デザイナー、映画制作者にもアクセスを許可しているとのこと。

ネット上では「不気味さは残るけど、すげぇな」「そのうち、リアルタイムでAIが生成したグラフィックでゲームが遊べる様になったりするのかな。」「AIと人間が戦う未来がすぐそこまで……」「またなくなっていく職業が増えるね」「すげぇ」「もう、想像できることはだいたい実現できるセカイになりつつあるのかもしれない」「すごすぎる！」などの声が寄せられた。