この画質をローカルマシンで? オープンソース動画生成AI「Pyramid Flow」は商用サービスにどのくらい迫っているのか確かめてみた(CloseBox)
動画生成AIはRunwayを筆頭に、中国系サービスも参入し、激しい開発競争を繰り広げていますが、オープンソースソフトもかなりのレベルに到達しています。 【この記事の他の写真を見る】 以前紹介したCogVideoに続き、また新顔が登場しました。10月に連載「生成AIウィークリー」で紹介した「Pyramid Flow」です。「ピラミッド型フローマッチングアルゴリズム」手法により、多くの既存動画生成AIに匹敵する品質を達成したと謳っています。 研究チームには、北京大学、北京郵電大学、快手科技の名が上がっています。快手科技はKLINGの開発元です。 今回もCogVideoのときと同様に、AIオープンソースソフトを簡単にローカルマシンにインストールできる仮想環境Pinokioを使って自宅のRTX 4090搭載マシンに組み込んで試しました。 インストールは、Pinokioの中のスクリプトをクリックするだけでOK。完了すると、自動的にWeb UIに遷移します。 Text to VideoとImage to Videoの2つのモードが用意されています。最初からi2iがあるのが強い。 以前はSD3で学習していたものをFLUX.1に置き換えて再学習し精度を上げたようです。 まずは、FLUX.1 [dev] + LoRAで生成した画像(1920×768ピクセル)を元画像に指定し、生成してみます。 デフォルトの解像度は384pですが、768pも選択可能。 長さ(Duration)は最大16(2~16)。その他のパラメータとしては、Video Guidance Scale、Inference Seed。そしてテキストプロンプトという、かなりシンプルなものです。 項目を設定したら、Generate Videoをクリックすると生成が始まります。368pだと5秒の生成に1分と数秒。768pでは5分と数秒かかりました。CogVideoよりも高速です。 さらに良いのはフレームレート。CogVideoが8fpsか16fpsしか選べなかったのに対し、Pyramid Flowは24fpsで、画質もかなり良いです。 作例を見たら「これがオープンソースでローカルマシンで動くの?」と驚くと思います。 Video Guidance Scaleを最小値の1に設定した作例がこちら。 Text to Videoもなかなかの品質です。 解像度を768pにするとDurationを31に設定できるようになり、10秒の長さまで伸ばせます。ただし、人物の場合は10秒フルで使えることは少なく、途中で崩れがちです。この辺りは改良の余地あり。 もっとも、商用動画生成AIであっても10秒の生成を一度にできるものは数少なく、さらに伸ばすと破綻が生まれることが多いです。短いクリップに関してはだいぶよくなっているので、今後は長尺動画をどこまで破綻なしで作れるかというのがポイントになると思います。まだ市場に出ていないOpenAI SORAは最長で1分が可能だそうですが、どのレベルで可能なのか、早く見てみたいです。 ローカルマシンで生成できるメリットとしては、よくわからない基準で生成がキャンセルされることがない、という点も大きいです。とても良い元絵で制限がかかりそうでもないのに、ことごとく生成キャンセルを食うことがたまにあります。そういうときの助け舟になるかもしれません。 現状のオープンソース動画生成AIとしてはベストな部類に入るのではないでしょうか。でも、これも三日天下に終わる可能性もあるでしょうね。 最後に、同じ元画像でRunway Gen-3 Alpha Turbo、Luma Dream Machine、KLING、Vidu、Hailuoのそれぞれで生成したバージョンも公開してあります。 個人的にはKLINGが好み。Pyramid FlowにもKLING開発元が入っているわけで、その成果がKLINGに反映されるのか、もっとちゃんとした学習データを提供してPyramid Flowを改善するのか。いずれにしても、商用サービスとオープンソースソフトの壁は依然としてあるものの、だいぶ縮まってはきているようです。
TechnoEdge 松尾公也