生成AI競争は次のステージへ、動画をリアルタイムに理解するAIの登場、OpenAIやグーグルの競争も激化
メタもマルチモーダルの波に
OpenAIやグーグルだけでなく、メタもマルチモーダルの波に乗ろうとしている。メタは5月17日、新モデル「Chameleon」のテクニカルレポートを発表した。 Chameleonは、異なるモダリティのモデルを組み合わせるのではなく、ネイティブにマルチモーダルになるように設計されている。上記OpenAIの事例で言えば、以前の3つのモデルを組み合わせるアプローチ(レイト・フージョン=late fusion)ではなく、入力から出力までの一連の処理を単一のニューラルネットワークで行う方式(アーリー・フージョン=early fusion)と同様のアプローチということだ。 レポートでは動画入力に対応できるかどうかの言及はなかったものの、研究者らは「Chameleonは、マルチモーダルコンテンツを推論し生成する、統一基盤モデルの実現に向けた重要なステップ」と述べており、今後動画対応できるバージョンが発表される可能性もある。 マルチモーダルAIエージェントの登場により、生成AIのユースケースはさらに拡大する見込みだ。また動画対応と高速化により、スマートグラスなどウェアラブルデバイスとの組み合わせで利用するシーンも増えてくるかもしれない。
文:細谷元(Livit)