1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第34回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビアギャラリー
1時間以上の長時間動画や100万トークンの長文を処理できるオープンソースモデル「LWM」、UCバークレーが開発
「Large World Model」(LWM)は、テキスト、画像、ビデオを理解し生成する能力を持つマルチモーダルモデルです。このモデルは、100万トークンの膨大な情報量を処理でき、テキストから画像やビデオを生成したり、画像や長時間のビデオに関する詳細な質問に回答することが可能です。 LWMの開発には、幅広いビデオと書籍から構成される大規模なデータセットが使用されています。学習プロセスでは、RingAttention技術を使用してコンテキストサイズを任意にスケールアップし、効率的に学習を促進します。具体的には、学習の初期段階でのコンテキストサイズを4000から始め、段階的に100万に増やしていきます。この段階的な拡大により、計算コストを管理しつつ、モデルがより広範なコンテキストを理解できるようになります。 また、マスク付きシーケンスパッキング技術を利用することで、異なる形式のデータを同時に扱うことができます。さらに、言語とビジョンのバランスを取るために、損失の重み付けを調整します。長い形式のチャットデータが不足している問題に対処するため、モデルによって生成されたQAデータセットを使用して、長いシーケンスの会話能力を学習します。 LWMは、1時間以上のYouTubeビデオから正確なQA応答を生成する能力を示しました。これは、Gemini Pro Vision、GPT-4V、および他のオープンソースモデルと比較して、質的に優れた結果を示します。LWMは、3万2000から12万8000のコンテキスト長でGemini ProやGPT-4に比肩し、100万トークンまで8倍長いコンテキスト長でも競争力のある性能を発揮しました。 研究チームは、RingAttentionやマスク付きシーケンスパッキングなどの技術を備えた高度に最適化された実装と、100万トークン以上の長文ドキュメント(LWM-Text, LWM-Text-Chat)およびビデオ(LWM, LWM-Chat)を処理できる7Bパラメータモデルをオープンソース化しました。