テキストから動画を作れるChatGPT「Sora」を試してみた
また、プロンプトによる動画の変更も可能だ。例えば、砂漠を歩くマンモスの映像に「マンモスをロボットに変更して」と指示するだけで、同じ動きのロボットの映像に変換できる。また、2つの異なる動画をブレンドして、まったく新しい映像を作り出すことも可能だ。専門的な編集技術がなくても、アイデア次第でさまざまな表現に挑戦できる。 ■映像生成の仕組み この技術では、まず4K映像のような高品質な映像から「設計図」を作り、映像の本質的な特徴を取り出す。その設計図を時間と空間の「パッチ」という小さな区画に分け、少しずつノイズを加えていく。ChatGPTが文章を単語の並びとして理解するように、AIはこれらのパッチの並びとして映像を理解し、ノイズから設計図を作り出す方法を学習する。
この学習には大量の映像データが必要だが、生成される映像は既存の映像の単なるコピーではない。AIは学習した映像から「物体がどのように動くか」「光がどのように反射するか」といった法則を理解し、それを基にまったく新しい映像を作り出す。例えば、実在しない「パラソルを指して空を飛ぶカワウソ」でも、カワウソの動きや物理法則に従った自然な映像として生成できる。 生成時には、この仕組みで映像全体を一度に処理する。そのため、カメラが動いても物体の形や特徴が崩れず、一度画面外に出たものが再び映っても同じものとして表現できる。映像の長さや画面の大きさ、縦横比が変わっても、自然な映像を作り出せるようになった。
■映像制作をより身近に 映像クリエイターにとって、Soraは企画段階での新しい武器となりそうだ。これまで言葉や絵コンテでしか表現できなかったアイデアを、具体的な映像として示せる。撮影や編集の前段階で、クライアントと具体的なイメージを共有できれば、作業の手戻りも減らせる。 広告・販売促進の分野では、商品の魅力を引き出す新しい表現が可能になる。実際の撮影が難しい状況設定や、現実では実現できない演出も、AIなら自由自在だ。複数のバージョンを素早く作って比較検討できるため、最適な表現を効率よく見つけられる。