AIによる「パソコン操作の自動化」最前線 Anthropicが一歩リード、マイクロソフトやグーグルも注目
グーグルもUIに特化したビジョン言語モデルを開発
この分野では、グーグルやアップルも研究開発を進めており、この先Anthropicやマイクロソフトのようなプロダクトとしてリリースされる可能性もある。 たとえば、グーグルが2024年3月に発表した「ScreenAI」が挙げられる。これはパソコンやモバイルのユーザーインターフェース(UI)やインフォグラフィックに特化したビジョン言語モデルで、UIのボタンや入力欄の位置を把握し、クリックなどのアクションにつなげることができる。 グーグルによると、UIやインフォグラフィックスは、人間とコンピュータの対話において重要な役割を果たすが、その複雑さと多様な表現形式により、モデル化は困難な課題とされてきた。ScreenAIは、画像認識の基本設計としてグーグルの「PaLI」という技術を採用。さらに、画像の縦横比(アスペクト比)を崩すことなく処理できる独自の画像分析手法を取り入れることで、スマートフォンの縦長の画面からPCの横長の画面まで、様々な形状の画面に対応できるようになった。 ScreenAIは50億パラメータという比較的小規模なモデルでありながら、同規模のモデルと比較してチャート読み取り能力を測るChart QA、ドキュメント認識能力を測るDocVQA、インフォグラフィック認識能力を評価するInfographicVQAなどのベンチマークテストで高いパフォーマンスを実現。また、ウェブの構造認識能力を測るWebSRCやMoTIFなどのUIベースのタスクでも良好な結果を示したという。 ScreenAIの開発は、事前学習と微調整という2段階で進められた。第1段階の事前学習では、AIが自ら学習する「自己教師あり学習」を用いて画像認識モデル(ViT)と言語モデルの訓練データを自動的に生成。第2段階の微調整では、人間が直接確認・評価したデータを使用してモデルの精度を高める作業が実施された。 事前学習データセットの作成にあたっては、デスクトップ、モバイル、タブレットなど、様々なデバイスのスクリーンショットを収集。DETR(物体検出)モデルをベースとしたレイアウトアノテータを使用して、画像、ピクトグラム、ボタン、テキストなどのUI要素とその空間的関係を特定・ラベル付けした。また、アイコン分類器を用いて77種類のアイコンタイプを区別し、未分類のアイコンやインフォグラフィックス、画像に対してはPaLI画像キャプションモデルを使用して説明を生成したという。 ただし、グーグルは現時点でもScreenAIが大規模モデルに比べて性能面で劣ることを認めており、このギャップを埋めるためにはさらなる研究が必要だとしている。 注目されるパソコン操作の自動化という新たなフロンティア。各社の開発競争の激化は避けられなさそうだ。
文:細谷元(Livit)