誰でもVTuber時代へ　フェイシャルAI技術、続々登場

11/18(月) 7:00配信

画像や動画の顔の表情の動き（フェイシャル）をコントロールしようという、非常に品質の高いAI技術が次々にリリースされています。実際、どの程度の描写が実現できるのかを試してみました。【もっと写真を見る】

写真：アスキー

　画像や動画の顔の表情の動き（フェイシャル）をコントロールしようという、非常に品質の高いAI技術が、この夏以降、次々にリリースされてきています。10月27日にリリースされた動画AI「Runway」の新機能「Act-One」を使うと、画像に対し、動画を使ってフェイシャルを付けられます。また、ローカルPCの環境で動かせるポートレート動画生成AI「LivePortrait」もその品質の高さから評価を集めています。実際、どの程度の描写が実現できるのかを試してみました。　 ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください　一人二役で演技ができる「Act-One」　　Act-Oneの発表で特にインパクトがあったのは、1分ほどの独り芝居の動画です。　　2人の男性がレストランで話しているという構成ですが、動画の最後のメイキングで、一人の人物が二役をやっている様子が紹介されます。撮影された人物の微妙な首の動きや、口の動きが、「Act One」を使って画像に反映されています。参照する画像は最大30秒までで、カメラワークは正面を向いた固定された画像である必要があるという制限があるものの、生成された人物は非常に自然に見えます。　 One of the models strengths is producing cinematic and realistic outputs across a robust number of camera angles and focal lengths. Allowing you generate emotional performances with previously impossible character depth opening new avenues for creative expression. (4/7) pic.twitter.com/JG1Fvj8OUm 　 ― Runway (@runwayml) October 22, 2024 　筆者も試してみました。元の画像は、Midjouneryで作成した老人の画像としました。元となる実写動画が必要なため、ウェブカメラで撮影しました。通常の動画生成は3分程度で生成できるのですが、この動画の生成には順番待ちを含めて10分程度と少し長めの時間がかかります。作成された動画は、イラスト風の画像であっても、頭の動きが反映されます。　 #RunwayGen3 Alphaの新機能Act-Oneが来たので早速試してみました。顔の動きが理解できる動画（最大30秒）があれば、用意した画像（この作例ではMidで作成）に合成すると動作もフォローしてくれるという機能です。なかなかの再現率なのではないでしょうか。 pic.twitter.com/qrSxk62TNk 　 ― 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) October 27, 2024 △生成した動画　　今度は、この連載でおなじみの生成AIキャラクター「明日来子さん」の作例画像に当てはめてみました。「吾輩は猫である」の冒頭を、筆者が読み上げる様子をウェブカメラで録画したものです。音声は声音変換サービス「Replica」を使い、筆者の声を女性声に変換しています。それを後から動画編集ソフトで合わせています。Replicaの音声データは、英語圏の人の声のようで、かなり英語なまりのある日本語になっていますが、一応は成り立っています。ただ、録画時にどうしてもモニターのセリフを読んでしまうので、目線がモニターの方を向いているのがわかってしまいます。ちゃんとカメラを向いて演技しないとだめなのだなと感じたりもしました。　　「LivePortrait」の方が優秀との指摘も　　一方、Act-Oneはいまのところ、背景が動いている画像などには適応させられません。そのため、同じようなフェイシャルを作成する環境としては、画像生成ツール「ComfyUI」用の「LivePortrait」の方が優秀なのではないかという指摘もあります。　 Runway Act-One vs Kling w/ LivePortrait. I'm trying to create a music video about a vampire who has lived for centuries; called Endless Nights. Runway wouldn't let me run an image w/ blood, so I removed it for this test. I also animated the image using Kling & LivePortrait. pic.twitter.com/C5M030t6IS 　 ― Blaine Brown  (@blizaine) October 27, 2024 　生成AIを使ってミュージックビデオを制作しているBlaine Brownさんは、Act-Oneの現状の課題点を挙げています。比較として、まずAI動画サービスの「Kling」で前に進んでいる動画を作成し、その動画をLivePortraitの「Video-to-Video（v2v）」を使って顔の動きだけを別に反映させて動画を作ることで、より魅力的な動画を作り出せるとしています。　　LivePortraitは、2024年7月に発表された、中国のショートビデオアプリの快手（Kuaishou Technology）と、中国科学技術大学などが共同開発したフレームワークです。高品質な6900万フレームの人物の動画データを使って、画像と動画を組み合わせた学習をしています。人物の動画から、人間の顔の動きにキーポイントを生成し、その情報から画像の動きを含んだ512x512のサイズの動画を生み出すというものです。　　ComfyUIでLivePortraitを利用する方法としては（ComfyUI nodes to use LivePortrait）、3種類のワークフローが公開されており、リアルタイムでウェブカメラの動画を反映できる「Realtime with webcam feed」、画像から動画を作成できる「Image-to-Video（i2v）」、動画から表情だけに影響を与えることができる「Video-to-Video（v2v）」があります。　　実際に動かしてみると、解像度が512x512と制限があることや、頭以外の動きは作れないこと、極端な動きでは不自然になるといった課題はあるものの、かなり自然に表現できています。調整するともっと自然にできると思われます。　　 ▲実際に筆者をウェブカメラでリアルタイムに撮影して反映している様子。かなり自然に表情が形作られている　　 ▲イラスト的な画像であっても、ある程度は変換することができる。同じく筆者を撮影し、出力したものを、音声変換を行って後から合わせたもの。このような記号的な画像よりも、若干立体感が取れるもののほうが、よりきれいに出力されやすい傾向はある　　ただ、筆者が比較してみた印象では、Act- Oneは、動きが小さくなる代わりに出力される動画の品質がより高い傾向にあり、LivePortraitは、より大きな表情の動きをしてくれるのですが、若干の粗さが出る傾向があるように感じられます。安定性により品質を確保するか、より動きを表現することを重視するのかという目指す目標に若干差があるようです。　 3D環境がなくてもVTuberになれる時代へ　　これらの技術は、2021年にNVIDIAが発表した1枚の画像から表情を生み出す研究をきっかけに様々な研究が進んでいるようです。期待されていたのは、ビデオ会議などでアバターを動かすために開発された技術です。いかに高速に処理して、美しく表現するかを競い合いながら、様々な技術開発が進んできました。　　2024年10月には、中国・上海のフクタン（復旦）大学や百度が開発した「Hallo2」という技術が発表されました。　　Hallo2は、1枚の画像からリップシンクの動画を生成できる技術です。これまでと大きく違うのは、4K画質かつ、数十分から数時間の長時間の生成を、一貫性を保ちつつ可能にした点です。デモの動画では、TEDカンファレンスの講演の1つを、アインシュタインの画像が発言する動画になっているのですが、18分もの長さの動画になっています。これまでのフェイシャル系AI技術の、短い時間しか生成できないという限界を打ち破りました。　　この技術によって、長時間の講演などをアバターが話すといったことを実現可能になります。こちらも動作環境が公開されており、若干の専門知識があれば動かすことができます。　　これまで、表情の動きやその動画は、モーションキャプチャーと3Dでなければ映像を作ることが難しい分野でした。しかし、ウェブカメラさえあれば、1枚の画像、もしくは、動画に対して後から表情付けできるといった、簡易な環境でも同種のフェイシャル動画が作れるような変化が起こりつつあります。もちろん、Act OneもLivePortraitも、まだまだ限界がある技術ではあるのですが、今後も着実に関連技術の品質が向上していくだろうことは容易に予想できます。極端な話、映画を作るにしても、VTuberになるにしても、3D環境がなくても作れるような時代に入ってきています。　筆者紹介：新清士（しんきよし）　 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。　文● 新清士

Yahoo!ニュース

誰でもVTuber時代へ　フェイシャルAI技術、続々登場

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）