生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第40回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビアギャラリー
顔画像を音声に合わせてアニメーション化させるシステム「AniPortrait」
この研究では、音声と顔の静止画像1枚からポートレートアニメーションを生成するフレームワーク「AniPortrait」を提案しています。AniPortraitは、唇の動き、表情、頭の位置を巧みに調整し、視覚的に魅力的なエフェクトを生み出すことができます。 この手法は2つのステージに分かれています。最初に、音声から3Dの中間表現を抽出し、2D顔ランドマークのシーケンスに投影します。次に、ランドマークシーケンスを、モーションモジュールと組み合わせた拡散モデルを使用し、時間的に一貫した写真のようにリアルなポートレートアニメーションに変換します。 実験結果より、AniPortraitは、生成されたアニメーションの顔の自然さ、ポーズの多様性、視覚的品質において優れた性能を示しました。AniPortraitは中間表現として3D表現を利用しているため、柔軟性と制御性の面で大きな可能性を示しています。例えば、ソース画像からランドマークを抽出してIDを変更することで、顔の入れ替えの効果を生成できます。
自律型AIエージェントを制御するためのOS「AIOS」
大規模言語モデル(LLM)を用いた知的エージェントの統合と運用には、エージェントの効率的なスケジューリングやリソース割り当て、エージェントとLLM間のインタラクション時のコンテキスト管理、異なる能力を持つ多様なエージェントの統合など、様々な課題があります。 これらの課題を解決するため、研究者らは「AIOS」というLLMエージェントのためのオペレーティングシステム(OS)を提案しました。AIOSでは、エージェントのリクエストを最適にスケジューリングし、LLMの生成状態を保存・復元します。また、エージェントの短期・長期メモリを管理し、外部APIツールの利用をサポートするとともに、エージェント間のアクセス制御を実施します。 このように、AIOSはLLMを基盤とした自律型AIエージェントのための基本的な機能を提供します。複数のエージェントを同時に実行する実験により、AIOSモジュールの信頼性と効率性が実証されています。これにより、エージェントの開発と運用を効率化し、より高度で複雑なタスクに取り組めるようにすることを目指しています。
【関連記事】
- 生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー)
- インテル、マイクロソフトのCopilot AIはPCローカルで実行可能になると述べる。次世代NPU搭載プロセッサが前提
- 生成AIグラビアをグラビアカメラマンが作るとどうなる?第21回:ComfyUI応用編。ControlNetでポーズ・構図を指定する (西川和久)
- 新連載「AIだけで作った曲を音楽配信する」。生成AIが作り上げた架空バンド「The Midnight Odyssey」を世界デビューさせる、その裏側
- Adobeの生成AI技術を先取り公開 Adobe Summit 2024「Sneaks」のマーケティングツールを一挙解説(西田宗千佳)