AIによる「パソコン操作の自動化」最前線 Anthropicが一歩リード、マイクロソフトやグーグルも注目
マイクロソフト、AI画面操作で異なるアプローチ
マイクロソフトもAIエージェントによるパソコン操作分野で取り組みを進めている。 同社は2024年10月、スクリーンショットをAIエージェントが理解しやすい形式に変換する「OmniParser」をオープンソースとして公開した。このモデルは、AI開発プラットフォームHugging Faceで最も注目を集めるモデルに急浮上。Hugging Faceの共同創業者兼CEOのクレム・デランジュ氏によると、エージェント関連のモデルとしては初の快挙になるという。 OmniParserの特徴は、3つの異なるAIモデルを組み合わせたアプローチにある。画像認識モデル「YOLOv8」がボタンやリンクなどの操作可能な要素を検出し、その座標情報を提供。次に、マルチモーダルモデル「BLIP-2」が検出された要素の目的を分析し、たとえば特定のアイコンが「送信」ボタンなのか「ナビゲーション」リンクなのかを判断する。そしてGPT-4Vが、YOLOv8とBLIP-2から得られたデータを基に、ボタンのクリックやフォームの入力といったタスクを実行する。さらに、OCR(光学文字認識)モジュールがGUI要素周辺のテキストを抽出することで、文脈理解を助けている。 OmniParserはオープンソースとして公開されているためGPT-4V以外にも、マイクロソフトのPhi-3.5-V、メタのLlama-3.2-Vなど、さまざまなビジョン言語モデルと連携できる柔軟性を持つ点も強みの1つとなる。 ただし、OmniParserにも課題は残されている。たとえば、同じページ内に複数存在する「送信」ボタンの区別が難しく、特に異なる目的で使用される類似のボタンの識別に苦心している状況だ。また、OCRコンポーネントにおいても、テキストが重なり合う場合の認識精度に問題があり、クリック位置の予測が不正確になることがあるという。 オープンソースという特性により、今後は多くの開発者がコンポーネントの微調整やインサイトの共有に貢献することが予想され、それに伴いモデルの能力も高まる見込みだ。