iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第42回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビアギャラリー
AIが生成した“誤ったコード”を改善するAIモデル「AutoCodeRover」
大規模言語モデル(LLM)の進歩により、自然言語要件からコードを自動生成することが可能になりつつあります。しかし、LLMにより生成されたコードには誤りや脆弱性が含まれる可能性があるため、自動生成されたコードを自律的に改善していく仕組みが必要とされています。 研究チームは、LLMを活用した自律的コード改善のフレームワーク「AutoCodeRover」を提案しました。AutoCodeRoverは、ファイルの代わりに抽象構文木(AST)などのプログラム表現を利用し、プログラム構造を活用した反復的なコード検索を行います。さらに、テストが利用可能な場合はテストケースを利用してプログラム内の障害箇所を特定する手法を利用することで、自律的なコード修正を可能にしています。 研究チームは、300件の実際のGitHub issueからなるベンチマーク「SWE-bench lite」でAutoCodeRoverを評価しました。その結果、AutoCodeRoverは約22%のissueを解決でき、最近の他の研究と比較して高い有効性を示しました。開発者が平均2. 77日かけて解決したissueの中に、AutoCodeRoverが10分以内で解決できたものが67件ありました。
Apple、スマホUIを理解するためのモバイル向けマルチモーダル大規模言語モデル「Ferret-UI」を発表
Ferret-UIは、スマホUIに特化したマルチモーダル大規模言語モデル(MLLM)で、Appleの研究者らによって開発されました。Ferret-UIは、同社が2023年10月に発表した画像内を理解するMLLM「Ferret」をベースに開発されました。(ちなみに、最近「Ferret-v2」も公開されています。) Ferret-UIは、スマホUIの参照、位置特定、推論のタスクを効果的に実行できます。アーキテクチャ面では、様々な画面のアスペクト比に柔軟に対応するために「any resolution」機能を組み込んでいます。また、基本的なUI操作から高度な推論まで多様なタスクのトレーニングデータを用意し、モデルを訓練しました。 Ferret-UIの評価のために、参照と位置特定に関する14のモバイルUIタスクからなるベンチマークを開発しました。各種のモデルと比較した結果、Ferret-UIは基本的なUIタスクで他のモデルを大きく上回り、高度なタスクでも優れたパフォーマンスを示しました。具体的には、iPhoneとAndroidで評価した結果、他のオープンソースMLLMやGPT-4Vと比べ、基本的なUIタスクにおいてFerret-UIは優れたパフォーマンスを示しました。
【関連記事】
- iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー)
- アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー)
- Amazon CEOが重要視する「生成AIのプリミティブなセット」とは何か。見えてきたAWSの生成AI戦略
- 架空バンド「The Midnight Odyssey」のリアルなPVを作る。生成AIをフル活用した世界観の創出と動画制作の手順
- 無料・高品質の作曲AI「Udio」で曲を完成させるまでの手順を動画で解説します(CloseBox)