無料で使えるオープンソースの高精度動画生成AIが続々登場、Runwayなど既存プレイヤーも独自機能の追加で対抗
オープンソース戦略を取る新規プレイヤーの台頭:Genmoの動き
大規模言語モデル市場では、クローズドモデルで市場を席巻したOpenAIやAnthropicに対しメタがオープンソース戦略で挑んでいるが、動画生成AI市場でも同様の動きが活発化しつつある。 オープンソースの動画生成AIモデル開発で注目される企業の1つが、このほど2840万ドルのシリーズAラウンドを完了したGenmoだ。 同社は2024年10月、オープンソースモデル「Mochi 1」を発表した。RunwayのGen-3 AlphaやLuma AIのDream Machineなど、既存の商用モデルと同等以上のパフォーマンスを実現したとされる高精度モデル。
特筆すべきは、Apache 2.0ライセンスの下で提供されており、基本的には無料で商用利用できる点だろう。競合サービスであるRunwayの年間契約無制限プランが月額76ドル、Hailuoの無制限プランが月額94.99ドルなどと高額であることを鑑みると、無料で利用できるMochi 1の魅力はかなり高い。ただし、自前の環境で運用する場合、最低4台のNVIDIA H100 GPUが必要となるなど、技術的なハードルは低くない。 Mochi 1は、Genmo独自の「Asymmetric Diffusion Transformer(AsymmDiT)」アーキテクチャに基づいて構築された。パラメータ数は100億と、これまでにリリースされたオープンソースの動画生成モデルとしては最大規模となる。特に視覚的な推論に重点を置いており、動画データの処理にテキストの4倍のパラメータを割り当てているという。 現在は480pモデルが利用可能で、年内にはより高解像度の「Mochi 1 HD」が投入される予定だ。ただし、プレビュー版には一定の制限がある。現バージョンは480p解像度のみをサポートし、複雑な動きを伴うケースでは軽微な視覚的歪みが発生する可能性がある。また、写実的なスタイルには強みを持つものの、アニメーション系のコンテンツは苦手としている。 Genmoは将来的に、この動画技術をベースとしつつ、ロボティクスや自動運転システムの開発にも応用可能な高度シミュレーターの構築も目指す考えだ。