グーグルの次世代AIモデル「Gemini 2.0」--エージェント時代を見据えた機能強化とは
AIエージェントの野望 それでは、エージェントに話を戻そう。Googleはエージェントについて、「アクション実行機能」を備えたユーザーインターフェースを提供すると説明している。Pichai氏はブログ投稿で、AIエージェントについて、「ユーザーの周囲の世界について、より多くのことを理解し、数歩先まで考えることができる。そして、ユーザーの監督の下、ユーザーに代わってアクションを実行することが可能だ」と述べた。 同氏が「ユーザーの監督の下」という文言を追加してくれたことをうれしく思う。ユーザーの周囲の世界を理解して、数歩先を考えられるAIという概念は、筆者がこれまで読んできた多くのSF小説の背後にあるプロットであり、人間の主人公にとって良い結末になることは決してなかったからだ。 Gemini 2.0には、改善された点が山ほどある。その一部を紹介しよう。 マルチモーダル推論:画像や動画、音声、テキストなど、さまざまな種類の入力の情報を理解して処理する能力 長い文脈の理解:単発の質問に答えるだけでなく、会話に参加する能力。すでに話し合われた内容や処理された内容を追跡し、その履歴を会話に反映させる能力 複雑な指示への追従と計画:一連の手順を順番に実行していったり、特定の目標を達成する一連の手順を考え出したりする能力 複合的な関数呼び出し:コーディングレベルで、複数の関数とAPIを組み合わせて、タスクを遂行する能力 ネイティブなツール利用:APIの機能の一部として、Google検索などのサービスを統合し、アクセスする能力 レイテンシーの改善:応答時間の短縮により、やりとりがよりシームレスになる。Googleの全体的なスピードへのこだわりを満足させる機能 これらの改善の相乗効果により、Gemini 2.0はエージェントアクティビティーに適したものとなっている。 Googleの「Project Astra」は、これらの機能がどのように連携するかを示している。Project Astraは、現実世界の情報を反映して応答や結果を提供するAIアシスタントのプロトタイプだ。バーチャルアシスタントだと考えてほしい。 Astraがユーザーから頼まれそうなタスクには、おすすめのレストランの紹介や旅程の作成などがある。ただし、AIチャットボットと違って、Astraは「Googleマップ」やGoogle検索などの複数のツールを組み合わせ、ユーザーの既存の知識に基づいて決定を下すことが求められる。さらに、目的地に向かう途中で道路工事が行われている場合などには、Astraが主導権を握り、別のルートを提案することもあり得る。時間が限られているときには、別の目的地を提案することも考えられる。 Project MarinerもGoogleの野心的な研究プロジェクトだが、筆者にとっては、少し怖いものでもある。Marinerはブラウザー画面に表示された情報を扱うことができる。基本的には、ユーザーが閲覧している情報を読み取り、何らかの基準に基づいて、応答したり、アクションを実行したりする。 Marinerは、ピクセルコンテンツだけでなく、テキストやコード、画像、フォームも解釈して、現実世界のタスクに取り組めるようになる見通しだ(厳重な安全対策が組み込まれることを願っている)。現在のところ、Marinerはかなり効果的に機能しているが、精度を欠いたり、動作がやや遅くなったりすることもある、とGoogleは述べている。 「Jules」:コードベースの中枢への旅 Julesは開発者向けの実験的なエージェントだ。筆者はJulesにも恐怖を覚えるので、AIを単独で動作させる準備がまだできていないのかもしれない。Julesは、「GitHub」ワークフローに統合され、コードを管理およびデバッグすることが期待されている。 「Gemini API」担当グループプロダクトマネージャーのShrestha Basu Mallick氏とGoogle Labs プロダクト担当ディレクターのKathy Korevec氏は11日のブログ投稿で、「Pythonと『JavaScript』のコーディングタスクをJulesに任せることができる」と述べた。 両氏は次のように続けた。「非同期で動作し、ユーザーのGitHubワークフローと統合されるJulesが、バグ修正などの時間のかかるタスクを処理してくれるので、ユーザーは自分が本当に構築したいものに集中できる。Julesは、複数のステップを含む包括的な計画を作成して、問題に対処する。さらに、複数のファイルを効率的に修正できるだけでなく、プルリクエストを準備して、修正をGitHubに直接戻すことも可能だ」 Julesが生産性の向上を促す可能性があることは確かに理解できるが、不安も感じる。筆者は、自分のコードを人間のコーダーに委ねた後、「何てことだ。あなたは一体、何を考えていたのだ」としか言いようのない成果物を受け取ることが時々ある。 筆者が懸念しているのは、同じような問題のある成果物が人工のコーダーから返ってくることだ。筆者の書いたコードに手を加えることをAIに許可するのは、リスクがあるように思える。何らかの問題が発生した場合、「Git」などのバージョン管理ツールを使用したとしても、変更された箇所を見つけて元に戻すのは、大変な作業になりそうだ。 筆者は過去に、能力の低い人間のコーダーが書いたコードを元に戻すことを余儀なくされたことがある。楽しい作業ではなかった。コーディングを自動化することの利点は理解できる。自分のコードをデバッグしたり修正したりする作業は全く好きではないが、そのレベルの管理を放棄するのは、少なくとも筆者にとっては怖いことだ。 とはいえ、Googleが自社のコードベースをGemini 2.0とJulesに任せても構わないと考えているのなら、筆者がとやかく言うことではない。同社は確かに自社の製品を使用している。それは非常に重要なことだ。