iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー)
極めて長い入力プロンプトに対応できるLLM向け技術「Infini-attention」をGoogleが開発
近年の大規模言語モデル(LLM)は、非常に長い文脈を理解することが課題となっています。既存のTransformerベースのLLMは、アテンションメカニズムの性質上、メモリと計算量が入力長の2乗に比例して増大してしまいます。 この問題に対し、Googleの研究チームは、「Infini-attention」と呼ばれる新しいアテンション機構を開発しました。Infini-attentionは、文章を理解する仕組みの中に、情報を圧縮して覚えておく「圧縮メモリ」を組み込んだ技術です。メモリは更新して情報を蓄積し、入力に対するクエリを使って、圧縮メモリから関連する過去の情報を検索します。これにより、長い文脈を効率的に取り込めます。 この工夫により、LLMは極めて長い入力を、メモリと計算量を一定に抑えつつ、ストリーミング方式で処理できるようになりました。Infini-attentionを1BのLLMに適応すると100万のシーケンス長にスケールし、パスキー検索タスクを解決しました。さらに、Infini-attentionを備えた8Bモデルは、継続的な事前学習とタスクのファインチューニング後、50万の長さの本の要約タスクにおいて新しいSOTAの結果に到達し、その有効性を実証しました。
「種から花が咲く」「氷が溶けていく」などの物理法則に従った動画を文章から生成できるT2Vモデル「MagicTime」
近年のテキストからビデオを生成するモデル(T2V)は、テキストの説明から高品質の一般的なビデオを合成することに大きな成功を収めています。しかし、従来のT2Vモデルでは、現実世界の物理法則に関する知識が十分にエンコードされていないため、生成されるビデオの動きや変化が限定的だという課題があります。 この課題に対し、「MagicTime」と名付けられた新しいアプローチが提案されました。MagicTimeは、タイムラプス動画から現実世界の物理法則を学習し、変容的な生成を実現するT2Vモデルです。 例えば、「種から花が咲く過程」といったテキストを入力すると、MagicTimeは種が発芽し、茎が伸び、つぼみができ、花が開くまでの一連の過程を滑らかに表現した動画を生成します。また、「氷が溶けていく様子」といった指示を与えれば、氷が徐々に小さくなり、水たまりができていく様子を生成してくれます。 MagicTimeの特徴は、MagicAdapter-SとMagicAdapter-Tという2つのアダプターを用いて、空間と時間のトレーニングを個別に行う点にあります。また、独自のデータセットを構築し、「MagicAdapter」と呼ばれるスキームを用いて事前学習済みのT2Vモデルを変容的ビデオ生成用に変換することで、多様な変化パターンを学習しています。 多数の実験により、MagicTimeが高品質でダイナミックな変容ビデオを生成できることが実証されました。この手法は、Open-Sora-Planや他のDiT(Diffusion-Transformer)ベースのT2Vモデルをサポートすることで、Soraの再現に役立つことを目指しているといいます。
【関連記事】
- iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー)
- アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー)
- Amazon CEOが重要視する「生成AIのプリミティブなセット」とは何か。見えてきたAWSの生成AI戦略
- 架空バンド「The Midnight Odyssey」のリアルなPVを作る。生成AIをフル活用した世界観の創出と動画制作の手順
- 無料・高品質の作曲AI「Udio」で曲を完成させるまでの手順を動画で解説します(CloseBox)