AIモデル「Gemini」にフォーカスするグーグル。OpenAIよりも有利な点はどこか
米・マウンテンビューのグーグル本社に近いイベントスペースで開催された「Google I/O 2024」を取材した西田 宗千佳氏の考察。 【もっと写真を見る】
「今回はグーグル、えらくフォーカスが絞れているなあ」 米・マウンテンビューのグーグル本社に近いイベントスペース・Shoreline Amphitheatreで「Google I/O 2024」の基調講演を聞きながら、筆者はそんなことを考えていた。 Google I/O初日の基調講演は2時間ある。いつもなら複数のテーマに分けて新機能・新製品が発表されることになるのだが、今年ははっきりとした軸が1つあった。それはもちろん「Gemini」だ。 同社のコア技術であるGeminiにフォーカスし、あらゆる製品とサービスにGeminiを活用することを「The Era of Gemini」としてアピールした。 そこで発表された技術にどんな意味があったのか、改めて分析してみよう。 一気にグーグルは「Gemini一色」に Geminiの存在は昨年のGoogle I/Oで公表されたものだ。Google I/O 2023では最新の生成AIである「PaLM 2」が発表されたところであり、その直後に「Geminiが開発中である」ことが明かされたため、正直なところ「ずいぶん慌てているな」と思ったものだ。 ご存知のように、Geminiはそれから半年後の昨年末には動作する形で「1.0」が公開された。そこからすぐ「Gemini 1.5」に進化し、今回はその1.5も複数の改良版が提示された。 今年の基調講演がGeminiにフォーカスしたものになっているところを見ると、去年のGoogle I/Oには(もしかするとその前から)「本命はGeminiであり、グーグルのあらゆるAI技術はGeminiに集約していく」方針を定めて進めることが決まっていたのかもしれない。 もちろん、想像以上に短いサイクルで動いていて、「こういう判断になったのはほんの3ヶ月前だった」という話もありうるが。 グーグルのコア技術はこれまで「検索」に紐づいていた。 あらゆる情報を「検索可能にして整理する」ことがグーグルの目標であり、収益源泉である広告はその結果として拡大していく。スマートフォンやテレビをはじめとしたAndroidを搭載したデバイスも、ネットが使える場所を拡大し、そこで必要な情報を提供するパイプとするという流れだったわけである。 それがさらにこれからは、Geminiという生成AIベースの技術を使い、検索の先にある「情報整理」の価値を上げていく戦略へと舵を切ったのだろう。 AIによって人は「より複雑なことをたずねる」ようになる 検索技術と生成AIの連動は、ハルシネーション(生成AIが産んでしまう誤情報)や広告収益モデルの変化などの危うさもはらんでいる。 昨年のGoogle I/Oで発表された「SGE(生成AIによる検索体験)」は、いまもその課題を抱えたままだ。しかしグーグルは、SGEを「AI Overview」と名称変更し、英語版からではあるが一般公開をスタートした。 SGEとAI Overviewは技術的にも大きくは変わっていない。しかし、グーグルでの位置付けは少し変わっている。SGEは検索結果をまとめ直す機能に近かったが、AI Overviewは「より複雑な質問に対応する検索機能」という押し出しになっているのだ。 これはグーグル側での利用状況分析に基づくものでもある。 5月15日、グーグル本社では、ピチャイCEOを中心とした同社エクゼクティブによるQ&Aセッションが実施された。そこでグーグルの検索担当バイスプレジデントであるエリザベス・リード氏は、AI Overviewを中心とした「検索と生成AI」の関係について、次のように答えている。 「利用者は他の人から詳細な話を直接聞きたいという欲求を持っている。AIを使えば、より深くウェブにアクセスし、より個人的な質問をするようになるでしょう」 検索というと「質問を単語で区切って行うもの」というイメージが強いが、実際には以前より「文章で書く」こともできた。だがGeminiの上などでは、より複雑な文章で質問ができるようになってきた。そういう使い方が定着していくことは、良くも悪くもネット検索の使い方を変えていくのは間違いない。 特にGeminiの新バージョンである「Gemini 1.5 Pro 改良版」では、より長い情報(コンテクスト)を活用して返答できるようになっている。複雑な質問によるしっかりとした回答を得るには重要なことだ。もちろん、まだ間違いなども含まれては来るだろうが。 当然ながら、そういう変化はグーグルの変化だけでもたらされるものではなく、マイクロソフトやOpenAIの影響も大きいのは間違いない。 OpenAIはGoogle I/O開催の前日に発表会を開催し、マルチモーダル性と即応性を強化した「GPT-4o」を発表している。 それらライバルの動きをどう思うか? という質問に対して、同社のスンダー・ピチャイCEOは「この種の変化はゼロサムではない」と答えた。 ゼロサムとは「勝者が1人しかいないゲーム」のこと。すなわち、ネットのエコシステム変化での利益は1社が独占するわけではない、と言いたいわけだ。優等生的な回答にも、「負けていない」という自信の表れにも聞こえる。 Androidの存在こそがグーグルの強み グーグルには強みも多数ある。1つは、いかにOpenAI・マイクロソフト連合が存在感を増しているとはいえ、ネット検索の大半をグーグルが握っている事実は(まだ)変わっていない。 そして、同様に大きいのが「Androidを持っている」ことだ。スマホの大半はAndroidで動いており、Geminiと連動していくことの影響は計り知れない。 今回の発表で特に注目されたのは「Project Astra」だ。 画像・音声などを認識するマルチモーダル性に加え、即応性と論理的理解力も強化されており、人間との対話に近いものを実現できる。グーグルは「将来のAIアシスタントを目指した技術として開発中」としている。デモ内でスマートグラスが使われたことが話題だが、1つの本質は、「カメラとマイクと通信機能を備えたデバイス」、すなわちスマートフォンを前提にした技術でもある、ということだ。 Project Astraデモ動画 会場で実際に体験してみたが、確かに今までのAIアシスタントとは一味違う。現状はオンデバイスAIで動いているわけではなくクラウドでの動作、とのことだが、こうしたものがスマホに組み込まれ、動作が次第にオンデバイス化されていくのは想像に難くない。 そう考えると、オンデバイス版のGeminiである「Gemini Nano」の価値は特に大きい。 質問がパーソナルなものになっていき、AIアシスタントとの対話が多くなっていくほど、「それを広告で使われたくない」「自分の情報をネットに出したくない」と考えるはず。そのためには、デバイス内だけで処理を完結し、クラウドにはアップロードしないオンデバイス版のAIが必須になっていく。クラウド版Geminiの進化はGemini Nanoの進化にも紐づいており、「即応性と属人性が必要なものはオンデバイスで処理」という流れになっていく可能性は高い。 Androidの次期バージョンである「15」とPixelの組み合わせでは、通話中の内容をオンデバイスAIでリアルタイムに解析して「詐欺的な電話である可能性が高い」ことを通知する機能が登場する。当然ながら、通話は極めてプライベートな内容なので、内容をクラウドに頼るわけにはいかず、オンデバイスAIが必須のものでもある。 現状、Gemini Nanoを動かすにはPixelのようなハイエンドスマホが必要だ。次第にプロセッサーパフォーマンスを必要としなくなっていくだろうが、しばらくはハイエンドスマホに撮っての差別化要素となるだろう。 そこではおそらく、「機械とのコミュニケーションによる、より簡易で楽な操作」と「安心・安全のためにAIが人を助ける要素」が重要となるだろう。 そうした要素はスマホOSに紐づいたAIを持つところほど作りやすい。OpenAIと同じようなことをやっていても、グーグルが(ある意味で)有利な状況と言えるだろう。 次に来るのはもう1つのスマホOS大手であるアップルがどう動くのか、という疑問だ。おそらくその答えの一端は、6月に開かれる開発者会議「WWDC」で明かされることになる。 筆者紹介――西田 宗千佳 1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。取材・解説記事を中心に、主要新聞・ウェブ媒体などに寄稿する他、書籍も多数執筆。テレビ番組の監修なども手がける。主な著書に「生成AIの核心:「新しい知」といかに向き合うか」(NHK出版)、「メタバース×ビジネス革命 物質と時間から解放された世界での生存戦略」(SBクリエイティブ)、「ネットフリックスの時代」(講談社)、「ソニー復興の劇薬」(KADOKAWA)などがある。 文● 西田 宗千佳 編集●飯島 恵里子/ASCII