AIによる「パソコン操作の自動化」最前線 Anthropicが一歩リード、マイクロソフトやグーグルも注目
AIエージェントのフロンティア、パソコン操作、Anthropicが一歩リード
生成AIの活用が拡大する中、AIエージェントの新たな開発フロンティアとして「パソコン操作の自動化」が注目を集めている。この分野で一歩リードするのが、OpenAIの最大のライバルと目されるAnthropicだ。 Anthropicは2024年10月22日、同社のAIモデル「Claude 3.5 Sonnet」のアップグレード版を発表。これと同時に、人間のようにパソコンを操作できる機能「Computer Use(パブリックベータ版)」を公開した。 この機能により、AIエージェントはパソコンのスクリーンショットを通じて画面を「見て」理解し、マウス操作やキーボード入力を行うことができるようになる。たとえば、スプレッドシートを開いてデータを分析し、ビジュアライゼーションを作成したり、顧客情報システム(CRM)を操作して情報を更新したりといった作業が可能になる。 すでにGitLab、Canva、Replitなどの企業が、この新機能の活用を開始。たとえばコーディングプラットフォームのReplitは、アプリケーション開発におけるテストの自動化にこの機能を活用しているという。ソフトウェア開発は、テストプロセスがボトルネックになる場合が多く、開発スケジュールの遅延要因になっている。テストプロセスの自動化がうまくいけば、開発コストを大幅に削減できる見込みだ。
Anthropicによると、この新機能は、特定のワークフローやソフトウェアに限定されず、様々なアプリケーションに対応できる柔軟性を備えている点で、従来の自動化ツールとは一線を画す。たとえば、取引先の情報を入力するフォームを完成させる際、必要な情報がスプレッドシートにない場合、自動的にCRMシステムに移動してデータを取得し、フォームに入力することができる。 ただし、現時点ではスクロールやズームといった人間にとって容易な操作がAIにとっては課題となっている。このため、Anthropicはリスクの低いタスクから開始することを推奨。スパムや誤情報、不正行為などの脅威に対する新たな経路となる可能性も踏まえ、安全性を優先するアプローチにより開発を進める方針だ。 この分野の開発動向は、OSWorldというベンチマーク/リーダーボードで確認することができる。このベンチマークは、AIモデルのパソコン操作能力を評価するテスト。2024年11月26日時点では、AnthropicのClaude 3.5 Sonnetが、2位のモデル(17.04%)に5ポイントの差をつけ、22%で首位を走る。