iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説（生成AIウィークリー）

4/15(月) 11:50配信

Ferret-UI

1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第42回目は、生成AI最新論文の概要5つを紹介します。生成AIグラビアギャラリー

AIが生成した“誤ったコード”を改善するAIモデル「AutoCodeRover」

大規模言語モデル（LLM）の進歩により、自然言語要件からコードを自動生成することが可能になりつつあります。しかし、LLMにより生成されたコードには誤りや脆弱性が含まれる可能性があるため、自動生成されたコードを自律的に改善していく仕組みが必要とされています。研究チームは、LLMを活用した自律的コード改善のフレームワーク「AutoCodeRover」を提案しました。AutoCodeRoverは、ファイルの代わりに抽象構文木（AST）などのプログラム表現を利用し、プログラム構造を活用した反復的なコード検索を行います。さらに、テストが利用可能な場合はテストケースを利用してプログラム内の障害箇所を特定する手法を利用することで、自律的なコード修正を可能にしています。研究チームは、300件の実際のGitHub issueからなるベンチマーク「SWE-bench lite」でAutoCodeRoverを評価しました。その結果、AutoCodeRoverは約22%のissueを解決でき、最近の他の研究と比較して高い有効性を示しました。開発者が平均2. 77日かけて解決したissueの中に、AutoCodeRoverが10分以内で解決できたものが67件ありました。

Apple、スマホUIを理解するためのモバイル向けマルチモーダル大規模言語モデル「Ferret-UI」を発表

Ferret-UIは、スマホUIに特化したマルチモーダル大規模言語モデル（MLLM）で、Appleの研究者らによって開発されました。Ferret-UIは、同社が2023年10月に発表した画像内を理解するMLLM「Ferret」をベースに開発されました。（ちなみに、最近「Ferret-v2」も公開されています。） Ferret-UIは、スマホUIの参照、位置特定、推論のタスクを効果的に実行できます。アーキテクチャ面では、様々な画面のアスペクト比に柔軟に対応するために「any resolution」機能を組み込んでいます。また、基本的なUI操作から高度な推論まで多様なタスクのトレーニングデータを用意し、モデルを訓練しました。 Ferret-UIの評価のために、参照と位置特定に関する14のモバイルUIタスクからなるベンチマークを開発しました。各種のモデルと比較した結果、Ferret-UIは基本的なUIタスクで他のモデルを大きく上回り、高度なタスクでも優れたパフォーマンスを示しました。具体的には、iPhoneとAndroidで評価した結果、他のオープンソースMLLMやGPT-4Vと比べ、基本的なUIタスクにおいてFerret-UIは優れたパフォーマンスを示しました。

次ページは：極めて長い入力プロンプトに対応できるLLM向け技術「Infini-attention」をGoogleが開発

1/3ページ

Yahoo!ニュース

iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説（生成AIウィークリー）

AIが生成した“誤ったコード”を改善するAIモデル「AutoCodeRover」

Apple、スマホUIを理解するためのモバイル向けマルチモーダル大規模言語モデル「Ferret-UI」を発表

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）